Data kategorik atau kategoris adalah jenis data yang terdiri dari variabel kategori atau data hasil pengelompokan berdasarkan kategori tertentu. Data kategorik dapat berasal dari pengamatan kualitatif yang diringkas sebagai penghitungan, atau dari pengamatan data kuantitatif yang dikelompokkan dalam kelompok tertentu. Data kategorik ini biasanya diringkas dalam bentuk tabel kontingensi.
Data kategori ini didapat dari level skala pengukuran yang dilakukan oleh peneliti. Ada beberapa jenis data berdasarkan pengukuran ini. Yang termasuk data kategorik adalah data nominal dan ordinal. Jenis data di luar data kategorik adalah data interval dan rasio.
Para peneliti jelas akan sering sekali berhadapan dengan data kategorik ini. Tidak hanya peneliti bidang sosial yang menganalisis tentang pilihan politik, latar belakang budaya, gender, gaya belajar, pilihan musik dan seterusnya, namun juga para peneliti di bidang ilmu pasti seperti kedokteran. Misalnya para dokter akan berhadapan dengan pasien yang merokok atau tidak, golongan darah yang berbeda, jenis kelamin, atau sampai pada kebiasaan-kebiasaan tertentu.
Banyak sekali kegunaan untuk analisis data kategorik. Hal ini terutama bagi para peneliti di berbagai bidang dan ahli statistik.
Data kategori ini mempunyai banyak perbedaan dengan jenis data interval atau rasio. Terutama terkait dengan distribusi probabilitas (binomial dan multinomial), juga analisis data statistik yang sperti penggunaan maximum likelihood sebagai metode paling populer untuk digunakan dalam mengestimasi data kategorik.
Dari beberapa karektristik data kategori yang kiranya perlu kita bahas, pada tulisan ini akan dibahas tentang tipe utama dari data kategorik. Untuk bahasan lain akan kita sajikan di tulisan lainnya.
DATA RESPONS KATEGORIS
Variabel kategorik memiliki skala pengukuran yang terdiri dari sekumpulan kategori. Misalnya, ideologi politik dapat diukur sebagai liberal, moderat, atau konservatif; pilihan akomodasi dapat menggunakan kategori rumah, kondominium, dan apartemen; tes diagnostik untuk mendeteksi email spam atau valid.
Variabel kategorik sering disebut sebagai variabel kualitatif, untuk membedakannya dari variabel kuantitatif yang menggunakan nilai numerik, seperti usia, pendapatan, dan jumlah anak dalam sebuah keluarga. Sedangkan contoh variabel kategorik adalah golongan darah, preferensi genre musik, dan warna kesukaan.
Variabel kategorik tersebar luas dalam ilmu sosial dan banyak digunakan untuk mengukur sikap dan opini, dengan kategori seperti (setuju, tidak setuju), (ya, tidak), dan (mendukung, menentang, ragu-ragu). Selain itu juga sering muncul dalam ilmu kesehatan, untuk mengukur respons seperti apakah pengobatan medis berhasil (ya, tidak), diagnosis payudara berbasis mammogram (normal, jinak, mungkin jinak, mencurigakan, ganas dengan kanker), dan stadium a penyakit (awal, menengah, lanjut).
Variabel kategorik umum untuk peringkat kualitas layanan dari setiap perusahaan atau organisasi yang memiliki pelanggan (misalnya, dengan kategori sangat baik, baik, sedang, buruk). Faktanya, variabel kategorik sering muncul di sebagian besar disiplin ilmu. Contoh lain termasuk ilmu perilaku (misalnya, diagnosis jenis penyakit mental, dengan kategori skizofrenia, depresi, neurosis), ekologi (misalnya, penggunaan lahan primer dalam citra satelit, dengan kategori hutan, rawa, padang rumput, pertanian, perkotaan), pendidikan (misalnya: tanggapan siswa terhadap pertanyaan ujian, dengan kategori benar, salah), dan pemasaran (misal preferensi ponsel dengan kategori Samsung, Huawie, Oppo, LG, Lainnya).
Jenis data kategorik ini bahkan muncul di bidang yang sangat kuantitatif seperti ilmu teknik industri. Misalnya ketika item diklasifikasikan menurut apakah sesuai atau tidak dengan standar tertentu.
Variabel Respons dan Variabel Penjelas
Kebanyakan analisis statistik membedakan antara variabel respon dan variabel penjelas. Misalnya, model regresi biasa menggambarkan bagaimana rata-rata variabel respons kuantitatif, seperti pendapatan tahunan, berubah sesuai dengan tingkat variabel penjelas, seperti jumlah tahun pendidikan dan jumlah tahun pengalaman kerja.
Variabel respons juga disebut sebagai variabel dependen dan variabel penjelas disebut sebagai variabel independen. Ketika kita ingin menekankan bahwa variabel respons adalah variabel acak, seperti dalam pernyataan probabilitas, kita sebaiknya menggunakan notasi huruf besar untuk itu (misalnya, Y). Kita dapat menggunakan notasi huruf kecil untuk merujuk ke nilai tertentu (misalnya, y = 0).
Analisis statistik variabel respons kategorik dengan variabel penjelas yang dapat bersifat kategorikal atau kuantitatif. Misalnya, sebuah penelitian mungkin menganalisis bagaimana pendapat seseorang tentang apakah pembelajaran online efektif (ya atau tidak) dikaitkan dengan variabel penjelas seperti jumlah tahun pendidikan, pendapatan tahunan, usia, jenis kelamin, dan lokasi tempat tinggal.
Variabel Biner (Binary)
Banyak variabel kategorikal yang hanya memiliki dua kategori. Misalnya pilihan untuk memiliki asuransi kesehatan (ya, tidak) atau Pendapat untuk legalisasi judi (mendukung, menentang). Variabel semacam itu disebut variabel biner.
Variabel Skala Nominal dan Ordinal
Ketika variabel kategorik memiliki lebih dari dua kategori, kita dapat membedakan dua jenis skala kategorikal yaitu nominal dan ordinal. Variabel kategori yang memiliki skala tidak berurutan disebut variabel nominal. Contohnya adalah afiliasi agama (kategori Kristen, Yahudi, Muslim, Budha, Hindu, lainnya), moda transportasi utama ke tempat kerja (mobil, sepeda, bus, kereta bawah tanah, jalan kaki), dan jenis musik favorit (klasik, country, folk , jazz, pop, rock).
Variabel yang memiliki kategori terurut secara alami disebut variabel ordinal. Contohnya adalah kebahagiaan yang dirasakan (tidak terlalu bahagia, cukup bahagia, sangat bahagia), frekuensi perasaan cemas (tidak pernah, sesekali, sering, selalu), dan nyeri sakit kepala (tidak ada, ringan, sedang, berat).
Skala pengukuran variabel menentukan metode statistik mana yang sesuai. Kita harus bisa menentukan alat analisis yang sesuai dengan skala pengukuran varibel yang kita gunakan. Misalnya bila variabel kategorik biner sebagai variabel respons dalam model regresi, maka regresi yang tepat adalah regresi logit.
3 comments