Perbedaan Clustering dan Classification

Perbedaan Clustering dan Classification

Pada artikel singkat ini, kita akan membahas mengenai perbedaan antara clustering dan classification. Adalah penting untuk mengetahui perbedaan antara keduanya. Karena keduanya membawa pada pendekatan dan solusi yang berbeda.

CLUSTERING

Secara formal clustering didefinisikan sebagai suatu proses unsupervised untuk mengelempokkan data yang memiliki karakteristik tertentu yang sama. Sederhananya seperti ini. Misalkan kita diberikan kelompok data, katakanlah data tinggi anak-anak pada sekolah SD. Katakanlah kita ingin mengelompokkan data-data ini kedalam 3 kelompok yang mana setiap kelompok memiliki tinggi yang kurang lebih sama. Problem tersebut dapat dikategorikan dalam clustering problem.

Pendekatan yang ada dalam Clustering

Ada banyak pendekatan yang ada dalam clustering. Salah satu yang paling terkenal adalah pendekatan k-means clustering. huruf K yang ada pada K berarti kita mengasumsikan bahwa kita mengetahui jumlah kelompok yang akan dihasilkan.

Sederhananya algoritma ini adalah sebagai berikut. Kita asumsikan ada K kelompok. Katakanlah ada 3 kelompok. Lalu, kita tentukan secara acak 3 cluster centre. Lalu kelompokkan data-data kedalam kelompok yang memiliki jarak terpendek antara data tersebut dengan cluster centre. Selanjutnya, kalkulasikan centre baru pada setiap kelompok. Lakukan langkah tersebut hingga pusat kelompok tidak berubah. Mudah bukan? Pembahasan lebih rinci akan dibahas pada seri tutorial berikutnya.

Bagaimana kalau saya tidak mempunyai informasi mengenai jumlah kelompok yang mungkin terjadi? Ada caranya! yaitu dengan memakai leader-follower algorithm. Sederhananya, pendekatan ini memakai graph theory. Pertama2x kita pilih satu data menjadi cluster representation, selanjutnya, diberikan data yang lain, kita hitung jarak antara data tersebut dengan cluster representation yang ada. Jika jaraknya terlalu besar, maka data tersebut akan dikelompokkan dalam cluster yang baru.

Dalam clustering, biasanya kita menghadapi jumlah data yang amat banyak. Nah! ada beberapa pendekatan yang disebut offline clustering , ada yang online clustering. offline clustering artinya pendekatan tersebut tidak dapat digunakan dalam aplikasi real-time, mungkin saja prosesnya membutuhkan waktu 1 hari. Sebaliknya online clustering mungkin bisa memproses data dalam hitungan detik. Tentunya tidak ada makan siang yang gratis. Kita harus mengorbankan beberapa hal untuk mendapatkan keuntungan di hal yang lainnya.

Kalau diperhatikan, k-means clustering termasuk dalam offline clustering. Ini disebabkan pada setiap iterasi pendekatan ini memproses semua datanya. Jadi jika ada 1 juta data, setiap kali iterasi, ada 1 juta data yang di proses. Jika dibutuhkan sekitar 500 000 iterasi, artinya komputer akan memiliki beban sekitar 500 milyar komputasi.

Sebaliknya leader-follower algorithm dapat dikategorikan dalam online clustering. Dalam pendekatan ini, data yang sudah dikelompokkan tidak perlu diproses lagi. Dan dalam setiap iterasinya hanya akan memproses 1 data saja. Jadi kalau ada 1 juta data, komputer hanya akan memiliki beban 1 juta komputasi.

CLASSIFICATION

Berbeda dengan clustering, classification memiliki tujuan untuk mengklasifikasikan suatu data ke dalam kelompok kelas yang sudah ada. Sebagai contoh, misalkan diberikan sekelompok sampel darah orang. Kita sudah tau jumlah kelompok golongan darah. Maka tugas kita hanyalah menentukan suatu sampel darah masuk ke kelompok mana. Jadi intinya, tidak akan ada pembentukan kelompok baru. Dan biasanya prosesnya supervised. Dalam arti ada training yang dilakukan, dan dalam training tersebut, kita diberikan sekelompok sampel darah yang sudah diketahui masuk ke kelompok manakah sampel tersebut.

Pendekatan yang ada dalam classification

Ada banyak! contohnya adalah neural network. Dalam pendekatan ini, neural network dilatih dengan menggunakan data yang sudah diketahui masuk ke kelompok mana data tersebut. Setelah pelatihan, prosesnya cukup sederhana, yaitu dengan memasukkan data baru (yang tidak termasuk dalam data training) ke dalam neural network, lalu neural network akan memberikan informasi termasuk ke dalam kelompok manakah data baru tersebut.

Contoh lain adalah pendekatan K-nn (k nearest neighbour). Dalam hal ini setiap data baru akan dibandingkan dengan data training. Lalu 3 data training terdekat (misalkan kita ambil k = 3) dengan data baru akan diambil. Misalkan ketiga data tersebut masuk ke dalam kelompok 1, 2 dan 1, maka data baru tersebut dimasukan ke dalam kelompok 1 (seperti voting, karena suara yang terbanyak adalah 1, maka keputusannya adalah 1).

 

Ringkasan sedikit mengenai Perbedaan Clustering dan Classification

Maka jelas, kalau clustering dipakai ketika kita tidak mengetahui bagaimana data harus dikelompokkan. Kita bisa mengasumsikan jumlah kelompok yang ada. Keluaran pendekatan ini adalah data yang sudah dikelompokkan. Di lain pihak, dalam classification, kita sudah mempunyai informasi mengenai bagaimana data tersebut dikelompokkan.

Tugas kita hanyalah melakukan training pada sistem dengan data yang sudah diberikan label (ke dalam kelompok manakah data tersebut dikelompokkan), selanjutnya sistem akan mengklasifikasikan data-data yang baru ke dalam kelompok yang ada. Tidak akan ada pertambahan kelompok.

Itulah sedikit ringkasan mengenai perbedaan clustering dan classification. Semoga bermanfaat (maglearning.id)

Loading...

Tinggalkan Balasan