Kamis, 21 Juni 2018

Regresi Logistik (Pengantar)

Regresi Logistik, sebuah pengantar

Regresi merupakan alat pemodelan data untuk keperluan analisis inferensia dalam statistika. Regresi merupakan sebuah pendekatan statistik hubungan sebab-akibat atau kausalitas antara variabel bebas terhadap variabel terikat. Regresi secara sederhana bisa dibagi menjadi dua, yaitu regresi linier dan regresi non-linier. Khusus regresi linier, pembahasannya bisa kita temukan di blog ini, kali ini kita akan membahas secara santai dan khusus mengenai regresi yang nonlinier, salah satunya adalah regresi logistik.

Regresi logistik pada dasarnya merupakan pendekatan statistik untuk menciptakan sebuah model prediksi sebagaimana halnya regresi linier, hanya saja, yang membedakan adalah skala variabel yang digunakan pada regresi logistik berbeda. Regresi logistik merupakan jenis model yang digunakan sebagai alat ukur hubungan kausalitas antara variabel bebas (independen) terhadap variabel terikat (dependen) berskala dikotomik (biner), yaitu skala data yang terdiri atas dua pilihan kategorik, misalnya Ya/Tidak, Sukses/Gagal, Baik/Buruk atau skala dikotomik lainnya.

Bila dalam regresi linier mengedepankan pemenuhan uji asumsi kenormalan eror varians atau residu, pada regresi logistik justru tidak memerlukan uji asumsi kenormalan, sebab eror varians yang dihasilkan dari pemodelannya mengikuti distribusi teoritis logistik. Bila divisualisasikan, sebaran dari distribusi logistik serupa dengan kurva logaritmik yang non-linier.

Asumsi dalam Regresi Logistik
Sebagai model prediksi, regresi logistik tak luput dari beberapa asumsi yang sebetulnya menjadi kelemahan dari regresi logistik itu sendiri. Beberapa asumsi yang memenuhi atau relatif cocok dalam penggunaan regresi logistik adalah:

1. Regresi logistik tidak memerlukan hubungan linier antara variabel bebas dengan variabel terikat. Hal ini mengingat memang hubungan yang relevan antara kedua variabel tidak linier;

2. Variabel bebas tidak memerlukan uji asumsi kenormalan, bila variabel bebas berjumlah banyak maka tidak perlu uji asumsi kenormalan multivariabel (multivariat normality);

3. Skala variabel bebas tidak perlu diubah ke dalam skala metrik (interval atau rasio), sebab fokusnya adalah skala dikotomik pada variabel terikat saja;

4. Variabel terikat haruslah berskala dikotomik;

5. Tidak mengharuskan varians antar variabel bebas bersifat homogen atau sama;

6. Tidak memerlukan uji asumsi homoskedastisitas karena terkait kondisi pada poin 5 dan 2;

7. Skala variabel bebas haruslah berdiri sendiri dan tidak saling mempunyai keterpautan, misalkan dua variabel bebas memiliki kategori yang sama, Ya/Tidak;

8.  Jumlah sampel (amatan) yang digunakan menurut beberapa literatur minimal 50 sampel (amatan), namun untuk regresi logistik berganda akan lebih baik bila jumlah sampel (amatan) 4 - 5 kali jumlah variabel bebas yang digunakan sebagaimana regresi linier;

9.  Hubungan antara variabel bebas dan variabel terikat terlihat dengan mengamati nilai rasio Odd (dipandang sebagai probabilitas).