Selasa, 19 Maret 2019

Konsekuensi Menghilangkan Pencilan (Outlier) Data

outlier
Konsekuensi menghilangkan pencilan data, dokpri.
Dalam praktiknya, tidak semua data akan terlihat ideal, kalau dalam istilah statistik tampak smooth. Ketidakberaturan data acapkali membuat kita sedikit terganggu, bahkan, bagi mereka yang tengah menyelesaikan model statistik untuk karya tulis ilmiahnya (skripsi, tesis, atau disertasi) bisa menjadi stres. Alasannya hanya satu, eror model tidak memenuhi asumsi kenormalan. Atau alasan lain yang sejenis, datanya tidak beraturan, rusak, atau saking rusaknya, tidak bisa diolah.

Hal sejenis juga pernah saya alami, misalnya saat mengolah dan mencari fit model untuk analisis hasil Sensus Ekonomi 2016 Lanjutan. Awalnya, dengan data yang ukurannya terbilang besar saya yakini bakal menghasilkan model statistik yang baik, tetapi kenyataanya tak sedikit yang mengalami kendala akibat adanya pencilan atau oulier.

Sebagaimana pada artikel yang pernah saya sampaikan dalam blog ini, sebetulnya pencilan itu ada manfaatnya, terutama sebagai bahan analisis tambahan atau indept study tentang suatu hal atau fenomena yang berkaitan dengan kajian yang kita lakukan. Namun, saat saya mengolah dan mencari model fit untuk data SE2016-Lanjutan, data dengan ukuran sebesar itu masih terdapat banyak pencilan atau outlier di dalamnya.

Karena pencilan tersebut terasa sangat mengganggu, maka saya membuang satu per satu pencilannya. Secara teori, bila seluruh pencilan dalam eror model sudah diseleksi dan dihapus, maka model yang baru akan terlihat lebih smooth. Namun, yang terjadi justru sebaliknya, pencilan baru justru muncul dan muncul lagi.

Kondisi ini setidaknya menambah pengalaman sekaligus pembelajaran bagi saya. Bahwa konsekuensi menghilangkan pencilan atau outlier dari data atau model itu menimbulkan pencilan baru. Bila banyak data pencilan baru yang dihilangkan, dampaknya juga akan mengurangi kekayaan informasi di dalam data maupun model.

Tak hanya itu, karena jumlah sampel (n) dalam model dihapus akibat terdapat pencilan-pencilan baru tadi, maka sedikit banyak akan memberikan pengaruh menurunkan nilai R square adjusted pada model karena penimbang ukuran ini memperhatikan n.

Demikian sedikit obrolan kita terkait konsekuensi menghilangkan pencilan data. Semoga bermanfaat.(*)