Self Organizing Map (SOM)

Tazkiyah, O., Tirta, I M., Anggraeni, D.
Jurusan Matematika FMIPA Universitas Jember, 2016.

DAFTAR ISI

  1. PENDAHULUAN
  2. RINGKASAN TEORI
  3. LANGKAH KERJA ANALISIS DATA
  4. ANALISIS DATA
  5. DAFTAR PUSTAKA

PENDAHULUAN

Latar belakang

Clustering merupakan proses pengelompokan objek-objek ke dalam sebuah cluster, dengan tujuan objek data dengan kemiripan pola akan berada pada cluster yang sama dan objek data dengan pola berbeda akan berada pada cluster berbeda. Terdapat beberapa tipe clustering, diantaranya hirarki dan non-hirarki untuk mengelompokkan setiap objek tepat dalam suatu kelompok. Pengelompokan objek tersebut tidak mampu menunjukkan variabel dominan dalam cluster, tidak demikian dengan Neural Network-based Clustering dalam hal ini Self Organizing Map (SOM). Menurut Kohonen (1996) Self Organizing Map (SOM) merupakan teknik jaringan saraf tiruan dengan proses pembelajaran tak terawasi. Self Organizing Map (SOM) memungkinkan visualisasi dan proyeksi dari data berdimensi tinggi (n-variabel) ke dimensi rendah, biasa menjadi bidang 2-D dengan tetap mempertahankan topologi (bentuk data) tersebut. Hasil pemetaan metode tersebut mampu memvisualisasikan variabel-variabel dominan dalam cluster, sehingga lebih mudah dalam memahami data. Dari 120 artikel ilmiah internasional dalam googlescholar.com, hanya 3,3% menggunakan metode Self Organizing Map (SOM). Rendahnya tingkat penelitian clustering menggunakan Self Organizing Map (SOM) dikarenakan jarang ditemui dalam beberapa paket standart multivariat, serta penggunaanya yang relatif tidak mudah. Salah satu program yang sering digunakan ialah R dengan pendekatan skrip, hal ini menjadi kendala bagi peneliti yang bukan berlatar belakang matematika maupun statistika. Adanya program ini diharapkan dapat memudahkan peneliti dalam mengelompokkan data menggunakan analisis cluster Self Organizing Map (SOM).

Tujuan

Pada akhir kegiatan, pengguna diharapkan:

  1. dapat melakukan analisis data menggunakan Self Organizing Map (SOM),
  2. dapat menginterpretasikan hasil analisis dengan benar.

Bahasan

Materi yang dibahas dalam kegiatan ini yaitu:
  1. Estimasi jumlah cluster
  2. Menentukan anggota cluster

RINGKASAN TEORI

Jaringan Saraf Tiruan (JST)

Jaringan Saraf Tiruan merupakan salah satu representasi buatan dari otak manusia untuk mensimulasikan proses pembelajaran pada otak manusia. Istilah buatan didasari oleh penerapannya menggunkan program komputer dalam menyelesaikan sejumlah proses perhitungan selama proses pembelajaran (Kusumadewi, 2003). Dari beberapa jaringan saraf tiruan, hampir semua memiliki kesamaan pada setiap komponen . Seperti halnya pada otak manusia, jaringan saraf tiruan juga terdiri dari beberapa neuron, masing-masing saling berhubungan. Pada jaringan saraf tiruan hubungan ini disebut bobot. Neuron-neuron jaringan saraf tiruan bekerja dengan cara yang sama dengan jaringan saraf biologi. Informasi (input) dikirim pada neuron dengan bobot tertentu. Informasi tersebut diproses oleh suatu fungsi perambatan yang akan dijumlahkan dengan nilai-nilai semua bobot yang datang. Hasil penjumlahan tersebut dibandingkan dengan fungsi aktivasi setiap neuron. Neuron akan diaktifkan apabila input tersebut melewati suatu nilai ambang tertentu, begitupula sebaliknya. Neuron yang diaktifkan akan mengirim output melalui bobot-bobot outputnya ke semua neuron yang terhubung dengannya, demikian seterusnya. Menurut Setiawan (2011) proses perubahan bobot dibagi menjadi 2, yaitu: pembelajaran terawasi (supervised learning) dan pembelajaran tidak terawasi (unsupervised learning). Pembelajaran terawasi merupakan suatu jaringan dengan output yang memiliki pola yang sama dengan pola input, sedangkan pembelajaran tak terawasi ialah suatu jaringan dengan output tidak ditentukan hasilnya seperti apakah yang diharapkan selama proses pembelajaran. Selama proses pembelajaran tak terawasi, nilai bobot disusun dalam suatu range tertentu tergantung pada nilai input yang diberikan. Tujuan pembelajaran tak terawasi ialah mengelompokkan unit-unit (node) hampir sama dalam suatu area tertentu. Pembelajaran ini biasa digunakan dalam clustering.

Clustering

Analsis cluster adalah salah satu teknik multivariat yang bertujuan mengelompokkan sejumlah objek kedalam beberapa kelompok berdasarkan informasi yang terdapat pada data. Pengelompokan sejumlah objek dengan tujuan dalam suatu kelompok atau cluster memiliki tingkat kesaman yang tinggi, sedangkan anggota antar kelompok memiliki tingkat keragaman yang tinggi. Analisis cluster biasa digunakan dalam segmentasi pasar konsumen, memahami perilaku pembeli, mengidentifikasi peluang produk baru, meringkas data atau mereduksi data, dll. Terdapat beberapa tipe clustering, diantaranya hirarki dan non-hirarki untuk mengelompokkan setiap objek tepat dalam suatu kelompok. Pengelompokan objek tersebut tidak mampu menunjukkan pola atau variabel dominan dalam cluster, tidak demikian dengan Neural Network-based Clustering dalam hal ini Self Organizing Map (SOM). Metode tersebut mengelompokkan suatu objek dengan menganggap setiap titik sebagai neuron (Abu-Jamaous et al, 2015).

Self Organizing Map (SOM)

Self Organizing Map (SOM) suatu metode Jaringan Saraf Tiruan yang diperkenalkan pertama kali oleh Teuvo Kohonen tahun 1981, sehingga sering disebut dengan Jaringan Kohonen. Dinamakan "Self Organizing" karena tidak memerlukan pengawasan/ tak terawasi (unsupervised learning) dan disebut "Map" karena Self Organizing Map (SOM) berusaha memetakan bobotnya agar sesuai dengan input data yang diberikan. Neuron-neuron pada jaringan ini menyusun dirinya sendiri berdasarkan nilai input tertentu dalam suatu kelompok, biasa disebut cluster. Selama proses penyusunan diri, cluster dengan vektor bobot paling cocok dengan pola bobot (jarak paling dekat) akan terpilih sebagai pemenang. Neuron pemenang beserta neuron-neuron tetangga akan memperbaiki bobotnya masing-masing (Kusumadewi, 2003).

Validasi Cluster

Setiap cluster yang terbentuk memiliki seperangkat ukuran karakteristik, diantaranya berupa nilai indeks validitas cluster (Brock et al, 2008). Hal ini digunakan sebagai acuan dalam menentukan jumlah cluster optimal. Pada penelitian ini penulis menggunakan 3 kriteria alternatif: validasi internal, validasi stabilitas dan validasi biologis.

Validasi Internal

Validasi internal menggunakan informasi internal pada data untuk menilai kualitas clustering. Validasi internal mencerminkan kepadatan, hubungan dan pemisahan partisi cluster. Kepadatan berhubungan dengan mengevaluasi homogenitas cluster, biasa dilihat dari varian intra-cluster. Hubungan menunjukkan penempatan beberapa data pengamatan dalam sebuah cluster, dimana data tersebut sebagai tetangga terdekat. Nilai kepadatan tersebut diukur dengan konektivitas. Pemisahan partisi cluster menunjukkan tingkat pengukuran jarak antar dua cluster (hal ini biasa menggunakan jarak antar centroid). Validasi internal meliputi: konektivitas, nilai Silhouette dan indeks Dunn.

  1. Konektivitas
  2. Konektivitas menunjukkan tingkat hubungan cluster, ditentukan dengan jumlah tetangga terdekat.

  3. Nilai Silhouette
  4. Nilai Silhouette merupakan rata-rata niai Silhouette setiap data. Nilai Silhouette mengukur tingkat kepercayaan pada proses clustering dari setiap data observasi.

  5. Indeks Dunn
  6. Indeks Dunn merupakan rasio dari jarak terdekat antara data observasi di cluster berbeda terhadap jarak terjauh pada intra-cluster.

Validasi Stabilitas

Validasi stabilitas mengevaluasi kekonsistenan hasil clustering dengan membandingkannya dengan perolehan cluster dengan menghapus satu kolom pada suatu waktu. Validasi stabilitas meliputi: average proportion of non-overlap (APN), average distance (AD), Average distance between means (ADM) dan figure of merit (FOM).

  1. average proportion of non-overlap (APN)
  2. Average proportion of non-overlap (APN) merupakan proporsi rata-rata data pada cluster berbeda dari dataset dan clustering berdasarkan dataset dengan menghilangkan satu kolom (variabel).

  3. average distance (AD)
  4. Average distance (AD) menghitung jarak rata-rata antara data yang terletak pada cluster sama berdasarkan clustering dataset dan clustering dataset dengan penghapusan satu kolom (variabel).

  5. average distance between means (ADM)
  6. Average distance between means (ADM) mengukur jarak rata-rata antara pusat cluster yang terletak pada cluster sama berdasarkan clustering dataset dan clustering dataset dengan penghapusan satu kolom (variabel).

  7. figure of merit (FOM)
  8. Figure of merit (FOM) menunjukkan rata-rata varian intra-cluster dataset dengan menghapus satu kolom (variabel).

Validasi Biologis

Validasi biologis mengevaluasi kemampuan algoritma clustering untuk menghasilkan cluster bermakna secara biologi. Validasi biologi meliputi: biological homogeneity index (BHI) dan biological stability index (BSI).

  1. biological homogeneity index (BHI)
  2. biological homogeneity index (BHI) mengukur homogenitas cluster.

  3. biological stability index (BSI)
  4. biological stability index (BSI) memeriksa konsistensi pengelompokan gen dengan fungsi biologis yang sama.

LANGKAH KERJA ANALISIS DATA

Adapun langkah-langkah kerja analisis data menggunakan Self Organizing Map (SOM) pada kegiatan ini adalah sebagai berikut:

ANALISIS DATA

Input Data

Pilih Data

'bio' merupakan data microarray, dengan penggunaan validasi biologis
Khusus impor data, pilih file:

Pilihan Tampilan Data
Jumlah data yang ditampilkan

  

  

Eksplorasi Validasi

Pemilihan Variabel Numerik

Catatan:
Analisis cluster dengan SOM hanya menganalisis variabel numerik (bukan faktor). Tekan ctrl dan klik variabel-variabel numerik.


Pemilihan Metode dan Format Hasil Validasi
Metode Validasi: Format hasil validasi:

Clustering

Analisis SOM ini memanfaatkan paket kohonen dari Wehrens & Buydens (2007)

Grid

xdim : Topologi : Seed
ydim : Jumlah cluster

Visualisasi Clustering Self Organizing Map (SOM)

Visualisasi plot kohonen digunakan untuk memvisualisasi hasil clustering Self Organizing Map (SOM). Visualisasi tersebut berupa:

  1. Vektor Bobot
  2. Visualisasi ini menunjukkan vektor bobot node (unit).

  3. Pemetaan
  4. visuaisasi ini menunjukkan node (unit) dengan penambahan warna latar belakang. Jumlah warna latar belakang pada node (unit) yang berbeda menunjukkan jumlah cluster

  5. Jarak Tetangga
  6. Visualisasi ini merupakan jarak antara setiap node (unit) dan tetangganya.

  7. Dendogram Vektor Bobot
  8. Dendogram cluster merupakan dendogram yang memuat anggota-anggota cluster berupa nomor node (unit). Partisi cluster ditunjukkan dengan pelabelan bentuk persegi dengan beberapa warna

  9. Property
  10. Property merupakan visualisasi distribusi setiap variabel dalam node (unit)

    .
Plot:


Atribut cluster

Tabel Anggota Cluster
Banyaknya anggota cluster yang ingin ditampilkan



Luaran Tambahan  SOM



DAFTAR PUSTAKA