Clustering merupakan proses pengelompokan objek-objek ke dalam sebuah cluster, dengan tujuan objek data dengan kemiripan pola akan berada pada cluster yang sama dan objek data dengan pola berbeda akan berada pada cluster berbeda. Terdapat beberapa tipe clustering, diantaranya hirarki dan non-hirarki untuk mengelompokkan setiap objek tepat dalam suatu kelompok. Pengelompokan objek tersebut tidak mampu menunjukkan variabel dominan dalam cluster, tidak demikian dengan Neural Network-based Clustering dalam hal ini Self Organizing Map (SOM). Menurut Kohonen (1996) Self Organizing Map (SOM) merupakan teknik jaringan saraf tiruan dengan proses pembelajaran tak terawasi. Self Organizing Map (SOM) memungkinkan visualisasi dan proyeksi dari data berdimensi tinggi (n-variabel) ke dimensi rendah, biasa menjadi bidang 2-D dengan tetap mempertahankan topologi (bentuk data) tersebut. Hasil pemetaan metode tersebut mampu memvisualisasikan variabel-variabel dominan dalam cluster, sehingga lebih mudah dalam memahami data. Dari 120 artikel ilmiah internasional dalam googlescholar.com, hanya 3,3% menggunakan metode Self Organizing Map (SOM). Rendahnya tingkat penelitian clustering menggunakan Self Organizing Map (SOM) dikarenakan jarang ditemui dalam beberapa paket standart multivariat, serta penggunaanya yang relatif tidak mudah. Salah satu program yang sering digunakan ialah R dengan pendekatan skrip, hal ini menjadi kendala bagi peneliti yang bukan berlatar belakang matematika maupun statistika. Adanya program ini diharapkan dapat memudahkan peneliti dalam mengelompokkan data menggunakan analisis cluster Self Organizing Map (SOM).
Pada akhir kegiatan, pengguna diharapkan:
Jaringan Saraf Tiruan merupakan salah satu representasi buatan dari otak manusia untuk mensimulasikan proses pembelajaran pada otak manusia. Istilah buatan didasari oleh penerapannya menggunkan program komputer dalam menyelesaikan sejumlah proses perhitungan selama proses pembelajaran (Kusumadewi, 2003). Dari beberapa jaringan saraf tiruan, hampir semua memiliki kesamaan pada setiap komponen . Seperti halnya pada otak manusia, jaringan saraf tiruan juga terdiri dari beberapa neuron, masing-masing saling berhubungan. Pada jaringan saraf tiruan hubungan ini disebut bobot. Neuron-neuron jaringan saraf tiruan bekerja dengan cara yang sama dengan jaringan saraf biologi. Informasi (input) dikirim pada neuron dengan bobot tertentu. Informasi tersebut diproses oleh suatu fungsi perambatan yang akan dijumlahkan dengan nilai-nilai semua bobot yang datang. Hasil penjumlahan tersebut dibandingkan dengan fungsi aktivasi setiap neuron. Neuron akan diaktifkan apabila input tersebut melewati suatu nilai ambang tertentu, begitupula sebaliknya. Neuron yang diaktifkan akan mengirim output melalui bobot-bobot outputnya ke semua neuron yang terhubung dengannya, demikian seterusnya. Menurut Setiawan (2011) proses perubahan bobot dibagi menjadi 2, yaitu: pembelajaran terawasi (supervised learning) dan pembelajaran tidak terawasi (unsupervised learning). Pembelajaran terawasi merupakan suatu jaringan dengan output yang memiliki pola yang sama dengan pola input, sedangkan pembelajaran tak terawasi ialah suatu jaringan dengan output tidak ditentukan hasilnya seperti apakah yang diharapkan selama proses pembelajaran. Selama proses pembelajaran tak terawasi, nilai bobot disusun dalam suatu range tertentu tergantung pada nilai input yang diberikan. Tujuan pembelajaran tak terawasi ialah mengelompokkan unit-unit (node) hampir sama dalam suatu area tertentu. Pembelajaran ini biasa digunakan dalam clustering.
Analsis cluster adalah salah satu teknik multivariat yang bertujuan mengelompokkan sejumlah objek kedalam beberapa kelompok berdasarkan informasi yang terdapat pada data. Pengelompokan sejumlah objek dengan tujuan dalam suatu kelompok atau cluster memiliki tingkat kesaman yang tinggi, sedangkan anggota antar kelompok memiliki tingkat keragaman yang tinggi. Analisis cluster biasa digunakan dalam segmentasi pasar konsumen, memahami perilaku pembeli, mengidentifikasi peluang produk baru, meringkas data atau mereduksi data, dll. Terdapat beberapa tipe clustering, diantaranya hirarki dan non-hirarki untuk mengelompokkan setiap objek tepat dalam suatu kelompok. Pengelompokan objek tersebut tidak mampu menunjukkan pola atau variabel dominan dalam cluster, tidak demikian dengan Neural Network-based Clustering dalam hal ini Self Organizing Map (SOM). Metode tersebut mengelompokkan suatu objek dengan menganggap setiap titik sebagai neuron (Abu-Jamaous et al, 2015).
Self Organizing Map (SOM) suatu metode Jaringan Saraf Tiruan yang diperkenalkan pertama kali oleh Teuvo Kohonen tahun 1981, sehingga sering disebut dengan Jaringan Kohonen. Dinamakan "Self Organizing" karena tidak memerlukan pengawasan/ tak terawasi (unsupervised learning) dan disebut "Map" karena Self Organizing Map (SOM) berusaha memetakan bobotnya agar sesuai dengan input data yang diberikan. Neuron-neuron pada jaringan ini menyusun dirinya sendiri berdasarkan nilai input tertentu dalam suatu kelompok, biasa disebut cluster. Selama proses penyusunan diri, cluster dengan vektor bobot paling cocok dengan pola bobot (jarak paling dekat) akan terpilih sebagai pemenang. Neuron pemenang beserta neuron-neuron tetangga akan memperbaiki bobotnya masing-masing (Kusumadewi, 2003).
Setiap cluster yang terbentuk memiliki seperangkat ukuran karakteristik, diantaranya berupa nilai indeks validitas cluster (Brock et al, 2008). Hal ini digunakan sebagai acuan dalam menentukan jumlah cluster optimal. Pada penelitian ini penulis menggunakan 3 kriteria alternatif: validasi internal, validasi stabilitas dan validasi biologis.
Validasi internal menggunakan informasi internal pada data untuk menilai kualitas clustering. Validasi internal mencerminkan kepadatan, hubungan dan pemisahan partisi cluster. Kepadatan berhubungan dengan mengevaluasi homogenitas cluster, biasa dilihat dari varian intra-cluster. Hubungan menunjukkan penempatan beberapa data pengamatan dalam sebuah cluster, dimana data tersebut sebagai tetangga terdekat. Nilai kepadatan tersebut diukur dengan konektivitas. Pemisahan partisi cluster menunjukkan tingkat pengukuran jarak antar dua cluster (hal ini biasa menggunakan jarak antar centroid). Validasi internal meliputi: konektivitas, nilai Silhouette dan indeks Dunn.
Konektivitas menunjukkan tingkat hubungan cluster, ditentukan dengan jumlah tetangga terdekat.
Nilai Silhouette merupakan rata-rata niai Silhouette setiap data. Nilai Silhouette mengukur tingkat kepercayaan pada proses clustering dari setiap data observasi.
Indeks Dunn merupakan rasio dari jarak terdekat antara data observasi di cluster berbeda terhadap jarak terjauh pada intra-cluster.
Validasi stabilitas mengevaluasi kekonsistenan hasil clustering dengan membandingkannya dengan perolehan cluster dengan menghapus satu kolom pada suatu waktu. Validasi stabilitas meliputi: average proportion of non-overlap (APN), average distance (AD), Average distance between means (ADM) dan figure of merit (FOM).
Average proportion of non-overlap (APN) merupakan proporsi rata-rata data pada cluster berbeda dari dataset dan clustering berdasarkan dataset dengan menghilangkan satu kolom (variabel).
Average distance (AD) menghitung jarak rata-rata antara data yang terletak pada cluster sama berdasarkan clustering dataset dan clustering dataset dengan penghapusan satu kolom (variabel).
Average distance between means (ADM) mengukur jarak rata-rata antara pusat cluster yang terletak pada cluster sama berdasarkan clustering dataset dan clustering dataset dengan penghapusan satu kolom (variabel).
Figure of merit (FOM) menunjukkan rata-rata varian intra-cluster dataset dengan menghapus satu kolom (variabel).
Validasi biologis mengevaluasi kemampuan algoritma clustering untuk menghasilkan cluster bermakna secara biologi. Validasi biologi meliputi: biological homogeneity index (BHI) dan biological stability index (BSI).
biological homogeneity index (BHI) mengukur homogenitas cluster.
biological stability index (BSI) memeriksa konsistensi pengelompokan gen dengan fungsi biologis yang sama.
Adapun langkah-langkah kerja analisis data menggunakan Self Organizing Map (SOM) pada kegiatan ini adalah sebagai berikut:
'bio' merupakan data microarray, dengan penggunaan validasi biologis Khusus impor data, pilih file: |
Jumlah data yang ditampilkan
|
| |
Catatan:
Analisis cluster dengan SOM hanya menganalisis variabel numerik (bukan faktor).
Tekan ctrl dan klik variabel-variabel numerik.
Metode Validasi: | Format hasil validasi: |
|
Visualisasi plot kohonen digunakan untuk memvisualisasi hasil clustering Self Organizing Map (SOM). Visualisasi tersebut berupa:
Visualisasi ini menunjukkan vektor bobot node (unit).
visuaisasi ini menunjukkan node (unit) dengan penambahan warna latar belakang. Jumlah warna latar belakang pada node (unit) yang berbeda menunjukkan jumlah cluster
Visualisasi ini merupakan jarak antara setiap node (unit) dan tetangganya.
Dendogram cluster merupakan dendogram yang memuat anggota-anggota cluster berupa nomor node (unit). Partisi cluster ditunjukkan dengan pelabelan bentuk persegi dengan beberapa warna
Property merupakan visualisasi distribusi setiap variabel dalam node (unit)
.Plot: |
Banyaknya anggota cluster yang ingin ditampilkan |
Abu-Jamaous, B., Rui, F. dan Asoke, K.N. 2015. Integrative Cluster analysis in Bioinformatics. United Kingdom: Brunel University London.
Brock, G., Vasyl, P., Susmita, D., dan Somnath, D. 2008. cValid: An R Package for Cluster Validation. Journal of Statistical Software, 25(4): 1-22.
Kohonen, T., Jussi, H., Jari, K. dan Jorma, L. 1996. SOM_PAK: The Self-Organizing Map Program Package. Finland: Helsinki University of Technology.
Kusumadewi, S. 2003. Artificial Intelligence (Teknik dan Aplikasinya). Jogjakarta: Graha Ilmu.
G. Brock, V. Pihur, S. Datta, S. Datta. 2008. clValid: An R Package for Cluster Validation. Journal of Statistical Software, 25(4), 1-22. URL http://www.jstatsoft.org/v25/i04/.
R. Wehrens and L.M.C. Buydens. 2007. Self- and Super-organising Maps in R: the kohonen package J. Stat. Softw., 21(5)