Distribusi Binomial

DISTRIBUSI PROBABILITAS UNTUK DATA KATEGORIK

Distribusi probabilitas data kategorik merupakan salah satu hal terpenting dalam analisis statistik. Analisis statistik inferensial parametrik (induktif) memerlukan asumsi distribusi probabilitas dari variabel respons. Pada model regresi untuk variabel kuantitatif, distribusi normal memiliki peran sentral.

Jenis distribusi probabilitas kunci untuk variabel kategorik adalah distribusi binomial dan multinomial. Kita akan membahas dasar-dasar kedua distribusi ini di artikel ini.

Distribusi Binomial

Ketika variabel respon adalah biner, kita akan mengacu pada dua kategori hasil, yaitu misalnya sukses dan gagal, ya atau tidak, laki-laki atau perempuan. Label ini bersifat umum dan hasil yang positif tidak harus menjadi hasil yang disukai atau diharapkan.

Banyak pengaplikasian pengumpulan data yang mengacu pada sejumlah n percobaan independen dan identik dengan dua kemungkinan hasil. Uji coba identik berarti probabilitas keberhasilannya sama untuk setiap uji coba. Misalnya peluang munculnya data laki-laki atau perempuan adalah identik, atau munculnya data sukses dan gagal adalah hampir sama. Hal ini seperti kita melempar koin pada percobaan kuantitatif dimana peluang munculnya sisi A dan B adalah sama/identik.

Uji coba independen berarti hasil tanggapan adalah acak independen. Artinya tidak ada kecenderungan pada hasil tertentu. Jadi, hasil dari satu percobaan tidak mempengaruhi hasil dari percobaan lainnya. Percobaan seperti ini sering disebut percobaan Bernoulli. Misalkan π menunjukkan probabilitas keberhasilan untuk setiap percobaan. Misalkan Y menunjukkan jumlah keberhasilan dari n percobaan. Dengan asumsi n percobaan identik, independen, Y memiliki distribusi binomial dengan indeks n dan parameter π. Probabilitas hasil tertentu y untuk Y adalah:

Sebagai ilustrasi, anggaplah sebuah kuis memiliki sepuluh pertanyaan pilihan ganda, dengan masing-masing lima kemungkinan jawaban. Seorang siswa yang benar-benar tidak siap menebak secara acak jawaban untuk setiap pertanyaan. Misalkan Y menunjukkan jumlah jawaban yang benar. Untuk setiap pertanyaan, probabilitas jawaban yang benar adalah 0,20, jadi π = 0,20 dengan n = 10. Probabilitas y = 0 jawaban benar, dan karenanya n – y = 10 jawaban salah, sama dengan

Probabilitas 1 jawaban yang benar adalah:

Tabel berikut ini menunjukkan distribusi binomial untuk semua nilai yang mungkin, y = 0, 1, 2,…, 10. Untuk perbandingan, tabel ini juga menunjukkan distribusi binomial ketika π = 0,50 dan ketika π = 0,80.

P(y) dimana π = 0.20P(y) dimana π = 0.50P(y) dimana π = 0.80
y(μ = 2.0, σ = 1.26)(μ = 5.0, σ = 1.58)(μ = 8.0, σ = 1.26)
 00.1070.0010.000
 10.2680.0100.000
 20.3020.0440.000
 30.2010.1170.001
 40.0880.2050.005
 50.0270.2460.027
 60.0050.2050.088
 70.0010.1170.201
 80.0000.0440.302
 90.0000.0100.268
100.0000.0010.107

Jadi, distribusi binomial untuk n percobaan dengan parameter π memiliki mean dan standar deviasi

Distribusi binomial dengan π = 0.20 pada tabel diatas memiliki μ = 10 (0.20) = 2.0. Simpangan baku adalah,

yang σ juga sama dengan π = 0,80.

Dengan demikian distribusi binomial simetris jika π = 0,50. Untuk n tetap akan menjadi lebih berbentuk lonceng saat π mendekati 0,50. Untuk π tetap, ia menjadi lebih berbentuk lonceng jika n bertambah. Jika n besar, itu dapat didekati dengan distribusi normal dengan μ = nπ dan

Sebuah pedoman pentingnya adalah bahwa jumlah hasil yang diharapkan dari dua jenis, nπ dan n (1 – π), keduanya harus setidaknya sekitar 5. Untuk π = 0,50 ini hanya membutuhkan n ⩾ 10, sedangkan π = 0,10 (atau π = 0,90) membutuhkan n ⩾ 50. Ketika π mendekati 0 atau 1, sampel yang lebih besar dibutuhkan sebelum asimetris bentuk lonceng terjadi.

Distribusi Multinomial

Variabel respons nominal dan ordinal bisa memiliki lebih dari dua kemungkinan hasil. Ketika observasi independen dengan probabilitas kategori yang sama untuk masing-masing hasil maka distribusi probabilitas percobaan ini masuk dalam dalam kategori distribusi multinomial. Misalnya kita akan mengumpulkan data tentang preferensi genre musik dalam sebuah wilayah, maka akan mendapatkan data dengan distribusi multinominal.

Misalkan c menunjukkan jumlah kategori hasil. Berati probabilitasnya adalah (π1, π2, …, πc), di mana ∑jπj = 1. Untuk n pengamatan independen, probabilitas multinomial bahwa y1 termasuk dalam kategori 1, y2 termasuk dalam kategori 2, …, yc jatuh dalam kategori c, di mana ∑jyj = n, sama dengan

Distribusi binomial adalah kasus khusus dengan c = 2 kategori. Kita tidak perlu menggunakan rumus ini, jika fokus kita adalah pada metode inferensi yang menggunakan distribusi sampling statistik yang dihitung dari jumlah multinomial, dan distribusi sampling tersebut mendekati normal atau chi-kuadrat. Demikianlah catatan singkat saya tentang dua jenis distribusi probabilitas data kategorik. Pengetahuan dua jenis distribusi ini akan sangat penting dalam pemilihan alat analisis statistik yang tepat.

Loading...