Kamis, 16 November 2017

Seberapa Perlukah Outlier Dikeluarkan dari Model Statistik?

Belajar memahami pencilan data, dokpri.
Pagi ini merupakan pagi yang menarik bagi saya, mengapa? Sebab saya mendapatkan sebuah email dari seseorang--yang sepertinya seorang mahasiswa--menanyakan perihal masalah pemodelan regresi. Dalam email tersebut dia menanyakan beberapa hal terkait uji asumsi klasik regresi linier. Sebagian lagi entah dia membicarakan tentang apa, but one thing is clear, dia meminta saya untuk sedikit memberikan penjelasan terkait pelanggaran uji asumsi klasik pada regresi linier serta seberapa pentingkah outlier atau pencilan itu dapat dikeluarkan dari model.

Baiklah, yang pertama saya akan berbagi mengenai uji asumsi klasik yang biasa digunakan dalam analisis regresi linier. Seperti yang telah kita ketahui bersama bahwa uji asumsi klasik itu adalah syarat mutlak yang harus dipenuhi ketika kita menggunakan regresi linier untuk membangun instrumen inferensi. Apabila uji asumsi klasik tak terpenuhi, maka jelaslah regresi yang kita bangun tidak berguna sama sekali karena sudah tidak bersifat BLUE.

Apa Itu BLUE? Yuk Simak Jawabannya di sini

Berdasarkan email yang saya dapatkan ada pertanyaan apakah dalam pemodelan regresi linier kita perlu mengecek normalitas setiap variabel dependen (variabel terikat) dan independen (variabel bebas) yang digunakan? Jawabannya adalah tidak perlu. Justru yang perlu diuji normal atau tidaknya adalah eror dari model regresi yang dihasilkan. Mengapa demikian? Sebab, model regresi yang berhasil kita bangun, elemen eror merupakan variabel acak (stokastik) sekaligus mencakup kombinasi sifat dari seluruh variabel yang berada di dalam model. Ketika eror melanggar asumsi normal, maka yang perlu kita lakukan adalah transformasi variabel bebas dan atau variabel terikat. Ini cara yang paling mudah dan sederhana. Namun, apabila semua transformasi variabel digunakan dan eror modelnya masih melanggar uji asumsi kenormalan, tindakan selanjutnya adalah dengan mengidentifikasi keberadaan outlier atau pencilan amatan untuk setiap variabel.

Apakah ketika asumsi kenormalan terlanggar outlier secara langsung dibuang dari barisan amatan? Di sini ada perbedaan pendapat, ada yang membolehkan dan ada yang dibiarkan di dalam model. Pendapat yang membolehkan membuang pencilan terkait kemudahan, tetapi pendapat yang membiarkan pencilan berada di dalam model lebih pada upaya mempertahankan informasi data, fenomena dan kemungkinan untuk menganalisis pencilan tersebut secara terpisah.

Ingat! Outlier itu mengandung informasi atau fenomena

Di samping itu, ketika pencilan dibuang begitu saja, maka jumlah amatan dalam model tentunya akan berkurang. Padahal, dalam pemodelan regresi linier, jumlah amatan setidaknya lima sampai sepuluh kali lebih banyak daripada jumlah variabel independen yang digunakan. Jumlah amatan yang makin berkurang menyebabkan kemampuan dari model regresi yang dihasilkan tentu tak sekuat apabila jumlah amatan relatif lebih banyak. Malah, jikalau terlalu sedikit, analisis regresi linier tidak relevan untuk dipakai.

Pertanyaan selanjutnya: Saya menggunakan data lingkungan semisal data curah hujan dan data numerik lainnya untuk memprediksi kejadian menular karena faktor lingkungan. Tapi, terjadi pelanggaran data tidak normal pada sig. 0,05 dengan uji Kolmogorov-Smirnov, apa solusinya?

Kita coba ulas bersama-sama, penyakit menular karena faktor lingkungan, ini memerlukan penjabaran lebih jelas mengenai hubungan keduanya terlebih dahulu. Secara umum memang sedikit banyak lingkungan merupakan faktor penularan penyakit, tetapi itu secara tidak langsung. Artinya, secara hubungan keeratan saja, lingkungan boleh jadi "lemah" berperan dalam penularan suatu penyakit. Tapi, bisa jadi "kuat" juga. Kita perlu menjabarkan lagi konteks medisnya.

Sebelum ke uji asumsi kenormalan, kita perlu menjelaskan skala data untuk variabel dependennya seperti apa. Apakah jenis penyakitnya? Apakah prevalensinya? Atau lainnya. Ini penting untuk menentukan jenis model apa yang digunakan. Bila skala data variabel dependennya kategorik, maka regresi logistik yang bisa digunakan, namun jika skala datanya interval atau rasio, maka regresi linier bisa jadi lebih cocok. Meski perlu diamati lagi pola atau perilaku data dan hubungan antar datanya.

Jika uji K-S untuk setiap variabel tidak menyatakan kenormalan, mungkin saja ketika menguji eror model justru memenuhi asumsi normal. Jadi sekali lagi terhadap eror model, bukan variabel. Syarat minimal jumlah amatan untuk pengujian asumsi normalitas dengan K-S adalah 5 amatan atau lebih (tentu dengan mempertimbangkan jumlah variabel independen yang digunakan). Maka, salah satu solusinya adalah dengan menambah jumlah amatan, atau dalam istilah lain menambah ukuran sampelnya. Namun, dalam hal ini dengan catatan bahwa uji K-S yang digunakan merupakan uji K-S parametrik, yaitu K-S dengan koreksi Dallal-Wilkinson-Liliefors.(*)