Senin, 25 November 2019

Bedah Output Regresi Data Panel Hasil Olah Program Eviews

statistik
Bedah output regresi panel
Adjusted R Square merupakan salah satu indikator dalam melakukan seleksi terhadap beberapa model regresi. Tujuan dari Adjusted R Square sendiri adalah melihat seberapa besar proporsi keragaman variabel dependen (variabel tidak bebas/variabel terikat) yang dapat dijelaskan oleh variabel independen (variabel bebas). Karena menggambarkan proporsi, Adjusted R Square biasanya diinterpretasikan dalam bentuk persen.

Adjusted R Square umumnya digunakan dalam pemodelan regresi baik sederhana dengan menggunakan satu variabel bebas, regresi berganda dengan menggunakan banyak variabel bebas, maupun model regresi yang menggunakan data panel. Sebegitu pentingnya indikator ini di dalam pemodelan, acapkali di dalam penggunaannya justru kurang diperhatikan. Banyak kalangan tidak peduli peruntukan dari Adjusted R Square atau R Square untuk menyeleksi regresi terbaik. Padahal, keduanya jelas berbeda baik dari sisi konsep dan formula, maupun dari sisi interpretasi kesesuaian regresi linier.

Memang benar sekali, bahwa ahli statistika merekomendasikan penggunaan Adjusted R Square dalam memantau seberapa baik sebuah persamaan regresi untuk mendekati model populasi. Tapi, perlu ditekankan kembali bahwa penggunaan Adjusted R Square sendiri lebih tepat digunakan apabila seorang peneliti menggunakan analisis regresi linier berganda. Mengapa? Sebab nilai Adjusted R Square memiliki kekuatan untuk melihat sejauh mana sebuah variabel bebas menjelaskan proporsi keragaman variabel tidak bebas (terikat) ketika ia dimasukkan dalam persamaan dan ketika ia tidak berada di dalamnya.

Statistik
Formula r square dan adjusted r square


Berdasarkan formula tersebut, dapat disimpulkan bahwa Adjusted R Square tergantung pada jumlah amatan (n) dan jumlah variabel bebas yang ditandai melalui derajat bebasnya (p), di mana p itu sendiri merupakan jumlah penduga parameter sehingga jumlah variabel bebas sama dengan p - 1. Nilai Adjusted R Square yang tergantung banyaknya amatan dan variabel bebas inilah yang terkadang menyebabkan nilainya bisa minus. Misalnya ketika jumlah variabel bebasnya lebih sedikit dibandingkan jumlah amatannya. Mengingat efek penggantian dan atau penambahan variabel bebas ke dalam suatu persamaan regresi hanya bisa terjadi ketika jumlah variabel bebasnya lebih dari satu, itu sebabnya Adjusted R Square lebih relevan digunakan dibandingkan R Square.

Sebaliknya, apabila suatu peneliti hanya menggunakan analisis regresi linier sederhana, maka indikator R Square lah yang bisa dijadikan ukuran baik dan tidaknya regresi tersebut. Ini terkait dengan penggunaan variabel bebas yang hanya satu tidak memungkinkan adanya proses eliminasi atau penyeleksian variabel bebas ke dalam persamaan regresi. Agaknya tidak relevan jika di dalam pengkonfigurasian persamaan regresi linier sederhana masih menampilkan Adjusted R Square karena proporsi keragaman variabel dependennya justru lebih cocok menggunakan R Square.

Dalam sebuah tampilan output running data dengan menggunakan program pengolah tertentu, memang biasanya menampilkan duah jenis R Square bersaudara itu. Nilainya pun hampir sama, meski dalam kondisi lain malah berbeda jauh, bahkan berlawanan, nilai R Square positif, sedangkan nilai Adjusted R Square negatif.

Penggunaan sejumlah variabel bebas di dalam pemodelan menjadi konsekuensi logis munculnya dua nilai R Square bersaudara yang saling berlawanan tanda. Ketika suatu variabel bebas, katakanlah X1, jika menggunakan regresi linier sederhana, nilai R Squarenya kemungkinan besar menunjukkan proporsi keragaman dari variabel tidak bebas (terikat) benar-benar dijelaskan oleh X1 itu. Namun, akan berbeda ketika tool analisis yang digunakan adalah regresi linier berganda yang melibatkan sejumlah variabel bebas di dalamnya. Nilai R Square belum tentu menunjukkan bahwa variabel bebasnya tadi benar-benar bisa menjelaskan proporsi keragaman variabel tidak bebas. Bisa jadi, ia hanya menyumbang kemampuan menjelaskan variabel tidak bebas dalam persentase yang kecil, hanya saja tidak terlihat jelas. Inilah mengapa suatu variabel bebas yang dimasukkan ke dalam persamaan regresi linier berganda bisa dikatakan variabel aksesoris, fungsi dan perannya tidak signifikan menambah persentase R Square saja.

Adanya konfigurasi variabel bebas dan tidak bebas yang tak sesuai juga bisa mengganggu besarnya nilai R Square bersaudara itu. Dalam praktiknya pun, Adjusted R Square yang tinggi bisa pula berupa kamuflase yang seakan-akan nilai tinggi, padahal "menipu", sampai-sampai peneliti pun memercayai bahwa regresi linier yang ia bangun sudah sangat baik. Kita bisa buktikan dengan mengamati angka Adjusted R Square yang tinggi, padahal ada informasi yang belum terungkap. Nilai Adjusted R Square tinggi, tapi jumlah variabel bebasnya sedikit.

Butuh hati-hati melihat output
regresi panel
Output program Eviews regresi panel
Beberapa waktu lalu, penulis kebetulan bisa menghadiri undangan seminar paper salah satu rekan penulis. Adapun judul paper yang ia sajakan. Judul papernya adalah Analisis Faktor-Faktor yang Mempengaruhi Produksi Padi di Jawa Timur dengan Fixed Effect Model. Dalam paper tersebut, ia menggunakan variabel dependen berupa produksi padi yang didapatkan dari Kerangka Sampel Area (KSA) Padi di Jawa Timur, dengan variabel bebasnya masing-masing Produktivitas Padi (X1), Luas Panen (X2), dan Curah Hujan (X3).

Persamaan penduga model regresi panel yang dihasilkan menggunakan program Eviews cukup mencengangkan. Bagaimana tidak, nilai interseptnya sangat besar dan negatif, kemudian besar pengaruh dari X1 mencapai 4 digit, kemudian pengaruh X2 malah 1 digit, sedangkan X3 berpengaruh negatif sebesar 2 digit. Intersept yang sangat besar bila kita interpretasikan secara "paksa" bisa menjadi fenomena di Jawa Timur, bahwa produksi padi itu sebenarnya dari awal sudah minus alias defisit dan ini perlu ditinjau ulang oleh dinas terkait. Rupanya, jika kita amati nilai signifikansinya, probabilitas pengaruh dari X1 terhadap Y sebesar 0,000, sama halnya dengan probabilitas pengaruh dari X2 terhadap Y, yaitu sebesar 0,000. Artinya, dengan menggunakan tingkat alpha 5 persen, variabel produktivitas dan luas panen berpengaruh signifikan dan positif (lihat koefisiennya di output) terhadap produksi padi di Jawa Timur. Sedikit berbeda dengan variabel curah hujan (X3), variabel tersebut justru tidak signifikan pada taraf 5 persen terhadap produksi padi di Jawa Timur. Lagi-lagi, jika kita "memaksakan diri" mengintepretasi output tersebut malah muncul anggapan yang kurang pas dengan kenyataan. Pada umumnya, curah hujan tentu memberikan dampak positif terhadap produksi padi, sedangkan hasil tersebut malah sebaliknya.

Kuak histori datanya

Kondisi output tersebut membuat penulis tidak nyaman. Dalam artian, penulis mencurigai terdapat kesalahan dalam mengkonfigurasi variabel-variabel yang digunakan. Benar dikata sebagaimana ulasan di awal, bila persamaan tersebut dijabarkan, terdapat adanya hubungan antara Y, X1, dan X2.
Multikolinear
Keterkaitan variabel Y X1 dan X2
Karena produksi merupakan hasil perkalian antara produktivitas dan luas panen, maka hasil yang begitu "indah" signifikannya secara jelas mengandung multikolinear di antara variabel bebas. Signifikansi yang mencapai 0,000 tersebut bukanlah probabilitas yang independen namun dependen.

Kemudian, kita amati dengan saksama nilai R Square dan Adjusted R Square-nya, masing-masing sebesar 99,86 persen dan 99,81 persen. Secara teoritis, bahwa ketiga variabel bebas yang masuk dalam peregresian panel tersebut dapat menjelaskan proporsi keragaman variabel bebas sebesar 99,86 persen dan 99,81 persen, sedangkan sisanya dapat dijelaskan oleh variabel bebas yang tidak masuk di dalam peregresian panel. Tapi, pada poin ini kita sedikit menemukan celah atau kelemahan dari R Square dan Adjusted R Square, nilainya yang tinggi justru bisa jadi diakibatkan oleh adanya multikolinier antar variabel dalam peregresian. Penulis kemudian menanyakan kepada rekan tersebut, apakah terdapat treatment terhadap data selama proses peregresian panel?

Dijawabnya, ada, terutama pada variabel bebas curah hujan. Dia mengatakan mensmoothing data curah hujan sedemikian rupa dengan alasan agar peregresian panel dapat dibangun dalam situasi yang stabil dan asumsi citeris paribus. Padahal, menurut penulis sendiri, treatmen pada data dengan cara smoothing akan menaikkan adjusted R Square dan R Square akibat perilaku data hasil smoothing lebih selaras dan seakan-akan itu menjadi "akal-akalan" saja demi mencapai Adjusted R Square yang tinggi.

Dengan hanya menggunakan 3 variabel bebas, mendapatkan angka sebesar 99 persenan itu agaknya terlalu mustahil. Padahal, dengan menggunakan 3 variabel bebas yang tentunya independen, mencapai Adjusted R Square sebesar 50 persenan pun sudah tinggi. Meski secara empiris belum terdapat studi mengenai eksplorasi dari Adjusted R Square terkait seberapa besar persentase maksimal normalnya ketika sebuah variabel dimasukkan ke dalam peregresian panel dan sebaliknya, seberapa besar persentase minimal normalnya sebuah variabel yang dikeluarkan dari peregresian panel. Hal ini sangat penting untuk menjaga proporsionalitas dan kelogisan jumlah variabel bebas yang digunakan dalam peregresian secara umum sehingga early warning adanya kejanggalan-kejanggalan dalam regresi bisa dideteksi dengan jelas dan terukur.(*)