P-VALUE DAN SIGNIFIKANSI HASIL PENELITIAN YANG “DIPAKSAKAN”

Ketika suatu hipotesis diuji secara statistik, ada dua jenis kesalahan yang mungkin kita buat. Yang pertama adalah bahwa kita menolak hipotesis nol padahal seharusnya tidak menolak (Ho benar). Kesalahan ini disebut sebagai kesalahan tipe I (positif palsu). Yang kedua, kesalahan tipe II (negatif palsu), yaitu ketika hipotesis nol tidak ditolak (diterima) padahal alternatifnya benar.

Probabilitas kesalahan tipe I secara langsung dikontrol oleh peneliti melalui pilihan tingkat signifikansi 𝛼. Ketika tes dilakukan pada level 5%, probabilitas penolakan hipotesis nol padahal hipotesis itu benar adalah 5%. Dengan kata lain peluang kita melakukan kesalahan tipe I adalah 5%. Probabilitas (tingkat signifikansi) ini sering disebut sebagai ukuran tes.

Probabilitas kesalahan tipe II tergantung pada nilai parameter yang sebenarnya. Jadi lebih cenderung secara intuitif, jika kebenaran menyimpang jauh dari hipotesis nol yang dinyatakan, probabilitas kesalahan semacam itu akan relatif kecil, dan akan cukup besar jika hipotesis nol dekat dengan kebenaran.

Probabilitas terbalik, yaitu probabilitas menolak hipotesis nol bila hipotesis nol salah, dikenal sebagai kekuatan (power) tes. Ini menunjukkan seberapa kuat tes dalam menemukan penyimpangan dari hipotesis nol (tergantung pada nilai parameter sebenarnya). Secara umum, mengurangi ukuran tes akan berakibat mengurangi kekuatannya, sehingga ada pertukaran antara kesalahan tipe I dan tipe II.

Pada penelitian sosial misalnya, ada semacam aturan umum (rule of thumb) bahwa ukuran tes yang umum digunakan adalah 5% atau bahkan 10%, yang jauh berbeda dengan ilmu eksak atau kedokteran yang umumnya 1%. Hal ini sangat terkait dengan dampak keputusan yang dihasilkan.

Loading...

Namun, masih ada hal-hal lain yang perlu kita perhatikan. Misalkan kita sedang menguji hipotesis (Ho) bahwa b1 = 0, sedangkan nilai sebenarnya adalah 0,1. Jelaslah bahwa probabilitas kita menolak hipotesis nol tergantung pada kesalahan standar estimator OLS dari b2 dan hal-hal lain, termasuk ukuran sampel.

Semakin besar sampel, semakin kecil kesalahan standar dan semakin besar kemungkinan kita untuk menolak Ho. Ini menyiratkan bahwa kesalahan tipe II menjadi semakin tidak mungkin jika kita memiliki sampel besar. Untuk mengimbangi ini, para peneliti biasanya mengurangi kemungkinan kesalahan tipe I (yaitu menolak hipotesis nol) dengan menurunkan ukuran 𝛼 dari tes mereka. Ini menjelaskan mengapa dalam sampel besar lebih tepat untuk memilih ukuran 1% atau lebih rendah dari ukuran ‘tradisional’ 5%. Demikian pula, dalam sampel yang sangat kecil, kita mungkin lebih suka bekerja dengan tingkat signifikansi 10%.

Secara umum, hipotesis nol yang dipilih diasumsikan benar kecuali ada bukti meyakinkan yang menyatakan bertentangan. Ini menunjukkan bahwa, jika tes tidak menolak, untuk alasan apa pun, kita herus tetap berpegang pada hipotesis nol. Pandangan ini tidak sepenuhnya tepat. Rangkaian hipotesis alternatif dapat diuji (mis. b2 = 0, b2 = 0,1 dan b2 = 0,5) dengan hasil yang tidak satupun ditolak. Jelas, menyimpulkan bahwa ketiga hipotesis nol ini secara bersamaan benar akan menjadi konyol. Satu-satunya kesimpulan yang tepat adalah kita tidak dapat menolak bahwa b2 = 0, atau b2 = 0,1 atau b2 = 0,5. Terkadang tes ekonometrik tidak terlalu kuat, dan ukuran sampel yang sangat besar diperlukan untuk menolak hipotesis yang diberikan. Menghitung interval kepercayaan akan membantu untuk melihatnya. Jika batas kepercayaan luas, serta rentang nilai parameter konsisten dengan data.

Loading...

Sebagian besar paket perangkat lunak statistik memberikan nilai-p (p-value) dengan statistik uji berapa pun. Nilai-p menunjukkan probabilitas, di bawah hipotesis nol, untuk menampilkan nilai dari uji statistik atau yang lebih ekstrim. Jika p-value lebih kecil dari tingkat signifikansi α, maka hipotesis nol ditolak. Memeriksa nilai-p memungkinkan peneliti untuk menarik kesimpulan tanpa melihat nilai kritis yang sesuai, menjadikannya sebagai sumber informasi yang ‘nyaman’.

Ini juga menunjukkan sensitivitas keputusan untuk menolak hipotesis nol sehubungan dengan pilihan tingkat signifikansi. Misalnya, nilai p 0,08 menunjukkan bahwa hipotesis nol ditolak pada tingkat signifikansi 10%, tetapi tidak pada tingkat 5%. Namun, nilai-p sering disalahartikan atau disalahgunakan. Sebagai contoh, adalah tidak tepat (meskipun kesalahan umum) untuk menafsirkan bahwa p-value merupakan probabilitas bahwa Ho benar. p-value merupakan probabilitas tertentu jika Ho benar, bukan Ho benar pada probabilitas tertentu. Dengan kata lain ukuran tes sudah ditentukan terlebih dahulu, bukan ukuran tes mengikuti hasil penelitian.

Sayangnya, secara empiris beberapa peneliti terlalu terobsesi untuk mendapatkan hasil ‘signifikan’ dan mencari p-value yang lebih kecil dari α. Terlebih akhir-akhir ini juga meluas ke editor jurnal. Jika keputusan publikasi tergantung pada signifikansi statistik dari temuan penelitian, akan berdampak pada upaya melebih-lebihkan ukuran efek sebenarnya. Ini disebut sebagai bias publikasi (file drawer bias). Sehingga banyak yang lebih mengarah pada pilihan distribusi p-value baik oleh jurnal maupun kecenderungan peneliti. Sehingga cenderung untuk “memodifikasi” nilai tes yang hampir ditolak dengan memilih spesifikasi yang sedikit lebih ‘signifikan’.

Tinggalkan Balasan