Kamis, 27 Juli 2017

Regresi Linier

Model Regresi Linier, sumber: dok.pri

Analisis sederhana yang biasanya dipakai dalam penelitian adalah analisis regresi atau lebih ngetrend dipanggil anareg. Anareg adalah sebuah analisis untuk mempelajari hubungan sebab-akibat antar variabel dengan persamaan. bentuk dari anareg sendiri bisa linier sederhana yang hanya mengandung satu variabel bebas, linier berganda dengan lebih dari satu variabel bebas, atau regresi non-linier. Dalam konsep anareg, yang dimaksud linier adalah linier dalam parameter, bukan linier dalam variabel. Bentuk umum persamaan anareg diberikan sebagai berikut.

Berbeda dengan bentuk berikut yang tidak linier dalam Parameter
14091212922049782015
Model Tidak Linier dalam Parameter, dokpri.

Selain memiliki fungsi memperlihatkan hubungan sebab-akibat, anareg juga memiliki keunggulan mampu melihat besarnya variabel yang memengaruhi variabel yang lain, dan ia mampu digunakan untuk meramalkan nilai suatu variabel berdasarakan data yang telah tersedia.

Variabel dalam anareg dibagi dalam 2 kategori, yaitu varaibel dependen dan variabel independen. Variabel dependen atau biasa disebut juga variabel terikat adalah variabel yang nilainya ditentukan oleh variabel lain. Sebab ketergantungan inilah, variabel dependen juga disebut variabel random atau stochastic. Sementara itu, variabel independen atau biasa disebut variabel bebas adalah variabel yang nilainya dapat ditentukan secara bebas berdasarkan dugaan bahwa variabel tersebut memiliki pengaruh terhadap variabel dependen. Oleh karena itu, variabel independen disebut juga variabel fixed atau non-stochastic.

Dalam anareg, variabel dependen atau yang disimbolkan Y hendaknya berjenis data kuantitatif atau numerik sementara variabel bebas atau yang disimbolkan X dapat berupa data kuantitatif (numerik) atau bisa juga kualitatif atau kategorik. Nah, data dependen bisa diperoleh dari jenis penelitian (eksperimen) atau survei (observasi) di lapangan. Bedanya, kalau data eksperimen itu diperoleh dengan melakukan kontrol terhadap variabel independen, sedangkan data observasi tidak.

Lebih lanjut, sebenarnya konsep dasar dari analisis regresi dinyatakan pada suatu nilai amatan (X) tertentu yang acak terhadap banyaknya kemungkinan nilai dari variabel terikat (Y) yang muncul tersebar dan mengikuti distribusi normal dengan rata-rata E(Y) dan varians (sigma kuadrat) tertentu.


14091216741151435134
Amatan mengikuti Distribusi Normal, sumber foto : Dok. Penulis

Nilai rata-rata atau E(Y) diasumsikan berubah mengikuti perubahan nilai dari amatan (X), dan tergambarkan dalam bentuk garis lurus (linier). Dan, nilai varians pada setiap amatan bernilai sama tidak teroengaruh perubahan waktu. Secara grafis digambarkan sebagai berikut.

14091220501747911899
Prinsip Dasar Garis Regresi, sumber foto : Dok. Penulis

Dalam mendekati nilai Parameter yang sebenarnya, dalam analisis regresi biasanya digunakan sebuah metode yang umum disebut Ordinary Least Square (OLS), yaitu dengan meminimalkan jumlah kuadrat dari eror/galat regresi sebagai berikut.

1409121958966697617
Metode OLS Regresi Linier, sumber foto : Dok. Penulis

Sifat - sifat metode OLS adalah :

(1) Gauss - Markov menilai, jika semua asumsi terpenuhi dalam regresi maka estimator yang dihasilkan akan bersifat BLUE, apa itu BLUE ?

BLUE adalah singkatan dari Best, Linear, Unbiased Estimator. Best artinya memiliki varians yang paling minimum diantara nilai varians alternatif setiap model yang ada. Linear artinya linier dalam variabel acak (Y). Unbiased artinya tidak bias atau nilai harapan dari estimator sama atau mendekati nilai parameter yang sebenarnya.

Sehingga dengan metode OLS didapatkan sebuah persamaan regresi untuk mengestimasi model regresi yang sebenarnya sebagai berikut.

1409122182994062422
Persamaan Regresi Hasil OLS, sumber foto : Dok. Penulis

Lantas, bagaimana prosedur dalam analisis regresi ?

Nah, sebelum membuat sebuah persamaan regresi alangkah baiknya kita mengetahui prosedur dalam analisis regresi, yaitu :

(1) Mengidentifikasi hubungan antar variabel yang didasarkan oleh teori yang ada, apakah berpengaruh atau tidak, signifikan atau tidak.

(2) Membentuk model dari semua kombinasi variabel terkait.

(3) Pengujian keberartian parameter (mencakup keberartian variabel dalam persamaan)

(4) Mengamati ketepatan persamaan yang telah dibuat

(5) Uji asumsi persamaan (jika pada tahap ini, ada uji asumsi yang terlanggar, maka teliti ulang variabel, tambah variabel atau cari kembali persamaan lain dari beberapa kombinasi variabel yang ada), ulangi sampai menemukan persamaan yang tepat dalam mengukur model regresi yang sebenarnya.

Asumsi Regresi Linier

Beberapa asumsi yang harus lolos dalam analisis regresi linier sebagai berikut :

(1) variabel terikat (Yi) adalah variabel yang bersifat acak atau random atau stochastic.

(2) variabel bebas (Xi) adalah variabel yang bersifat tetap, sudah ditentukan dan bukan random alias non-stochastic.

(3) nilai harapan error / galat regresi adalah nol atau E(ui) = 0

(4) nilai harapan dari varians konstan atau tidak berubah-ubah setiap amatan, atau E(ui,uj) = sigma kuadrat, dan i = j (Homoskedastisitas)

(5) tidak terdapat hubungan linier sempurna antar error atau galat regresi atau E(ui,uj) = 0, dimana i tidak sama dengan j (non-autocorrelation).

(6) Error atau galat regresi merupakan variabel random/acak (stochastic) yang berdistribusi normal dan identik setiap amatan dengan rerata nol dan varians sigma kuadrat,

14091232051009664600
Error/Galat Regresi Mengikuti Distribusi Normal iid, sumber foto : Dok. Penulis


Nilai parameter dari model regresi didapatkan dengan formulai berikut :

(1) Untuk estimasi beta satu

1409123562525548151
Estimator Beta satu, sumber foto : Dok. Penulis

(2) Untuk estimasi beta nol

140912360395879706
Estimator Beta Nol, sumber foto : Dok. Penulis

Untuk regresi linier berganda, setiap parameter diturunkan dari metode mencari estimator beta satu dan beta nol lebih lanjut.

Lebih lanjut, terdapat sebuah pendekatan yang biasa digunakan dalam analisis regresi, yaitu pendekatan analisis of variance (ANOVA) yang awalnya didapatkan dari ilustrasi berikut.

1409124081252738211
Ilustrasi Pendekatan Anareg dengan Anova, sumber foto : DOk. Penulis

Jika diamati, jumlah kuadrat dari simpangan amatan terhadap garis regresi akan menghasilkan sum square of error (SSE) dengan berderajat bebas (n - 2), jumlah kuadrat dari simpangan garis regresi terhadap rata-ratanya dihasilkan sum square of regression (SSR) dengan derajat bebas 1. Dan jumlah kuadrat dari simpangan amatan terhadap rata-rata menghasilkan sum square of total (SST) dengan derajat bebas (n - 1).

Metode Pemilihan Model terbaik

Dalam anareg, secara umum terdapat 3 jenis metode pemilihan model terbaik, yaitu :

(1) Backward elimination, dengan memasukkan semua variabel bebas (Xi), dan secara bertahap mengeluarkan satu per satu variabel bebas yang tidak berpengaruhi secara signifikan atau berarti dalam persamaan regresi. (tidak signifikan mengurangi SSE dan menambah adjusted R squared).

(2) Forward elimination, dengan memasukkan satu per satu variabel bebas (Xi) ke dalam model menurut urutan nilai korelasi yang terurut dari tinggi ke yang paling rendah (berhubungan linier dengan Yi), seterusnya sehingga mendapatkan persamaan regresi yang baik dan signifikan secara statistik atau sudah tidak ada lagi variabel yang masuk dalam persamaan.

(3) Stepwise, pada dasarnya sama dengan forward hanya saja, variabel yang gagal masuk dalam persamaan bisa saja dimasukkan kembali dalam persamaan pada tahap selanjutnya. Seterusnya sehingga mendapatkan persamaan regresi yang baik dan signifikan secara statistik.