ANALISIS PEMODELAN LOGISTIK MULTINOMIAL DENGAN PAKET nnet

Cahyani, D.K.L.; Tirta, IM; Anggraeni, D
Jurusan Matematika, FMIPA, Universitas Jember (2015)

DAFTAR ISI

  1. PENDAHULUAN
  2. RINGKASAN TEORI
  3. ILUSTRASI DENGAN R
  4. ILUSTRASI MODEL
  5. CATATAN
  6. DAFTAR BACAAN
  7. LAMPIRAN DATA

PENDAHULUAN

Latar Belakang

Metode statistika sering digunakan dalam penelitian. Hal ini dikarenakan statistik mampu memenuhi tujuan penelitian dan bersifat akurat. Salah satu metode yang sering digunakan adalah metode logistik multinomial. Logistik multinomial merupakan regresi logistik yang digunakan saat variabel dependen mempunyai skala yang bersifat polychotomous atau multinomial. Skala multinomial adalah suatu pengukuran yang dikategorikan menjadi lebih dari dua kategori. Analisis logistik multinomial menggunakan paket nnet dengan fungsi multinom(). Namun, dalam penggunaannya paket tersebut susah bagi pengguna atau peneliti yang tidak mengerti program terutama program R. R-shiny merupakan toolkit dari program R yang dapat digunakan untuk membuat program secara online seperti GUI. Oleh karena itu dalam artikel ini dibuat pengembangan web interaktif dengan R-shiny untuk logistik multinomial sehingga mempermudah seseorang yang kurang mengerti pemrograman R menjadi lebih mudah untuk melakukan analisis logistik multinomial secara online hanya dengan memasukkan data dan memilih menu tanpa harus menginstal dan menguasai program R dan melakukannya secara offline dalam komputer.

Tujuan

Pada akhir kegiatan,pengguna diharapkan
  1. dapat melakukan analisis logistik multinomial
  2. dapat memilih model terbaik untuk model logistik multinomial

Bahasan

Materi yang akan dibahas
  1. analisis dengan menggunakan logistik multinomial
  2. memilih model terbaik untuk model logistik multinomial

RINGKASAN TEORI

Regresi Logistik

Regresi logistik merupakan salah satu metode yang dapat digunakan untuk mencari hubungan variabel respon yang bersifat berskala nominal atau ordinal dengan dua kategori atau mempunyai skala nominal atau ordinal dengan lebih dari dua kategori dengan satu atau lebih variabel prediktor dan variabel respon yang bersifat kontinyu atau kategorik. Regresi logistik juga merupakan hubungan antara regresi logit dan regresi probit. Yang termasuk dalam regresi ini adalah regresi biner (dengan respon Y hanya dua kategori) (Tirta, 2009). Model dari regresi logistik ini, adalah:

$logit(\pi_i)=\ln\left(\frac{\pi_i}{1-\pi_i}\right)=\alpha+\beta_ix_{1,i}+...+\beta_kx_{k,i}, i=1, ..., n$

Regresi Logistik Multinomial

Menurut Yudisasanta A. dan Ratna M. (2012) regresi logistik multinomial merupakan regresi logistik yang digunakan saat variabel dependen mempunyai skala yang bersifat polichotomous atau multinomial. Skala multinomial adalah suatu pengukuran yang dikategorikan menjadi lebih dari dua kategori. Metode yang digunakan dalam penelitian ini adalah regresi logistik dengan variabel dependen berskala nominal dengan tiga kategori.

Mengacu pada regresi logistik trichotomous untuk model regresi dengan variabel dependen berskala nominal tiga kategori digunakan kategori variabel hasil Y dikodekan 0, 1, dan 2. Variabel Y diparameterkan menjadi dua fungsi logit. Sebelumnya perlu ditentukan kategori hasil mana yang digunakan untuk membandingkan. Pada umumnya digunakan Y = 0 sebagai pembanding. Untuk membentuk fungsi logit, akan dibandingan Y = 1 dan Y = 2, terhadap Y = 0. Bentuk model regresi logistik dengan p variabel prediktor seperti berikut

$\pi(x)=\frac{e^{(\beta_0+\beta_1x_1+...+\beta_px_p)}}{1+e^{(\beta_0+\beta_1x_1+...+\beta_px_p)}}$

dengan menggunakan transformasi logit akan didapatkan dua fungsi logit

$g_1(x)=\ln\left(\frac{P(Y=1|x)}{P(Y=0|x)}\right)$ $ =\beta_{10}+\beta_{11}x_1+...+\beta_{1p} x_p$ $ =x'\beta_1$

dan

$g_2(x)=\ln\left(\frac{P(Y=2|x)}{P(Y=0|x)}\right)$ $ =\beta_{20}+\beta_{22}x_1+...+\beta_{2p}x_p$ $ =x'\beta_2$

Berdasarkan kedua fungsi logit tersebut maka didapatkan model regresi logistik trichotomous sebagai berikut :

$P(Y=0|x)=\frac{1}{1+e^{g_1(x)}+e^{g_2(x)}}$
$P(Y=1|x)=\frac{e^{g_1(x)}}{1+e^{g_1(x)}+e^{g_2(x)}}$

dan

$P(Y=2|x)=\frac{e^{g_2(x)}}{1+e^{g_1(x)}+e^{g_2(x)}}$

Mengikuti aturan dari model logistik biner, maka akan dimisalkan $P(Y=j|x)=\pi_j(x)$ untuk j=0, 1, 2 untuk setiap fungsi dari vektor $2(p+1)$ dengan parameter $\beta^T=(\beta^T_1\beta^T_2)$ . Pernyataan umum untuk probabilitas bersyarat dalam model tiga kategori adalah:
$$P(Y=j|x)=\frac{e^{g_j(x)}}{{\Sigma^2_{k=0}}e^{g_k(x)}} ,j=0,1,2 \label{eq2}$$
dengan vektor ${\beta_0}=0$ sehinggga $g_0 (x)=0$.

Model logistik untuk kategori variabel dependen lebih dari satu atau polichotomous, yaitu:

$\ln\left[\frac{\pi_j}{\pi_q}\right]={\beta_0}^{(j)}+\Sigma^k_{i=1}{\beta_i}^{(j)}{x_i}$ ,$j=1,...,q-1$

pada persamaan \eqref{eq2} dapat dilihat bahwa salah satu dari kategori digunakan sebagai referensi dan disebut sebagai basis(baseline), yaitu kategori yang menjadi dasar pembanding pengaruh kategori lainnya.

Estimasi Parameter

Dalam model regresi logistik, nilai harapan antar variabel respon tidak linier serta memiliki varian-varian yang tidak sama sehingga penduga parameter $\beta$ diperoleh melalui metode Maximum Likelihood (Hosmer dan Lemeshow, 2000). Untuk memecahkan masalah sistem persamaan nonlinier, solusi yang dilakukan adalah dengan mengestimasi $\beta$ melalui proses iterasi Newton Raphson. Karena variabel respon $y_j$ diasumsikan saling bebas, maka diperoleh fungsi likelihood bersyarat untuk sampel sebanyak n observasi sebagai berikut:

$\textit{l}(\beta)=\prod^n_{i=1}[\pi_0{(x_i)^{y_{0i}}}\pi_1(x_i)^{y_{1i}}\pi_2(x_i)^{y_{2i}}]$

Secara matematis, akan lebih mudah untuk mendapatkan nilai yang akan memaksimalkan fungsi likelihood di atas melalui log dari fungsi tersebut yaitu log likelihood. Dengan demikian maka fungsi log likelihood-nya adalah:

$L(\beta)=\Sigma^n_{i=1}y_ig_1(x_i)+y_{2i}g_2(x_i)-\ln(1+e^{g_1(x_i)}+e^{g_2(x_i)})$

Untuk mendapatkan nilai \beta yang memaksimumkan L(\beta) maka dilakukan diferensiasi terhadap $L(\beta)$, dengan syarat $\frac{\partial L}{\partial\beta}=0$ dan $\frac{\partial^2L}{\partial^2\beta}<0$

Uji Kesesuaian Model(Goodness of Fit)

Untuk mengetahui apakah model dengan variabel dependen tersebut merupakan model yang sesuai, maka perlu dilakukan suatu uji kesesuaian model.

AIC(Akaike's Information Criterion)

Pemilihan model dari sebuah data set yang terbaik salah satunya adalah dengan menggunakan metode AIC (Akaike's Information Criterion). Menurut Tirta(2009) besarnya AIC dihitung melalui rumus berikut :

$AIC=-2l(\hat{\theta})+2q$

dengan $l(\hat{\theta})$ adalah nilai likelihood dari model yang dihadapi dan q adalah banyaknya parameter dalam model. Pemilihan model terbaik dilihat dari nilai terkecil dari AIC.

BIC(Bayesian Information Criterion)

Selain AIC, pemilihan model terbaik juga bisa dilakukan dengan menggunakan BIC. Menurut Pardede(2013) BIC didefinisikan sebagai berikut :

$BIC=-2l(\hat{\theta})+q \ln{N}$

dengan $-2l(\hat{\theta})$ adalah model log likelihood, adalah q jumlah parameter pada model, dan N adalah jumlah objek pemgamatan. Model dengan nilai BIC lebih kecil dipilih sebagai model terbaik untuk data.

ILUSTRASI DENGAN R

Sintaks untuk melakukan analisis logistik multinomial adalah dengan paket nnet() (Venables, W. N. dan Ripley, B. D. 2002)
digunakan fungsi multinom()

multinom(y~x1+x2+...+xn, data=...)

Langkah-langkah menganalisis data dengan logistik multinomial ini sebagai berikut:
  • pilih data
  • memilih atau menentukan variabel respon dan prediktor
  • menguji model dengan logistik multinomial
  • apabila data yang dipilih memiliki respon dua kategori maka bisa dicek hasil GLMnya juga
  • ILUSTRASI MODEL

    Pilih Data

    Pilih data sesuai yang diinginkan atau bisa memakai data sendiri dengan cara import data

    Pilihan Data

    Format data khusus Import Data untuk sementara yang bisa digunakan adalah csv. Untuk itu sebelum anda mengimport data anda, lebih baik anda mengubahnya terlebih dahulu dalam bentuk csv.
    Cari file:


    Header: , Pemisah: , Kutipan:

    EKSPLORASI DATA

    Ringkasan Data

    
    
     

    Dari summary data yang ada, kita bisa menentukan variabel-variabel yang akan dijadikan variabel bebas (eksplanatori) dan variabel terikat (respon). Variabel respon harusyang mempunyai lebih dari dua kategori.

    Pilih Variabel y
    Pilih Variabel x (Boleh Lebih Dari Satu)

    Setelah memilih variabel prediktor dan respon. Anda dapat menguji model yang sudah anda pilih. Berikut ini akan muncul hasil analisis logistik multinomial seperti dibawah ini

    LOGISTIK MULTINOMIAL

    Pilihan dengan atau tanpa intercept
    
     

    Hasil dari analisis di atas berupa hasil estimasi dan hasil standart error dari setiap kategori.

    Untuk mengetahui signifikan tidaknya suatu variabel, kita perlu mengetahui nilai p-value dan z-value. Nilai p-value digunakan untuk menguji kesignifikanan koefisien parameter. Apabila nilai p-value kurang dari 0,05 maka koefisien parameter signifikan terhadap respon. Tetapi apabila nilai p-value lebih dari 0,05 maka parameter tidak signifikan terhadap variabel respon.

    z-value

    
      

    Digunakan untuk mencari p-value

    p-value

    
      
      

    Hasil Keseluruhan

    Selain objek keluaran diatas, anda dapat juga memilih objek keluaran yang terdapat di R. Di bawah ini ada beberapa pilihan obyek yang mungkin dibutuhkan apabila di atas tidak ada keluaran yang diinginkan.

    
    
      

    Goodness Of Fit

    
    

    Nilai AIC dan BIC yang lebih kecil menunjukkan model tersebut lebih baik daripada model lainnya.

    Cek GLM Binomial untuk respon biner

    Untuk respon dengan dua kategori atau biner dapat dikerjakan dengan multinomial dan Glm, anda bisa membandingkan hasilnya dengan menggunakan GLM di bawah ini.

    Periksa GLM
    
    
      

    CATATAN

    Catatan
    1. model yang lebih baik adalah model yang memiliki nilai AIC terkecil
    2. peluang dari semua kategori variabel respon apabila dijumlahkan akan bernilai 1.
    3. program logistik multinomial ternyata juga dapat menganalisis data yang memiliki variabel respon berkategori dua dan tidak hanya yang berkategori lebih dari dua. Hasil analisis dengan program logistik multinomial juga sama apabila dibandingkan dengan program analisis menggunakan GLM. Namun, masih lebih lengkap apabila menggunakan GLM.

    DAFTAR BACAAN

    [1] Hosmer, D.W. dan Lemeslow. 2000. Applied Logistic Regression Second Edition. New York: John Wiley & Sons.
    [2] Pardede, T. 2013. Analisis Kelas Laten (Laten Class Analysis) untuk Pengelompokan Data Kategorik. Prosiding Seminar Nasional Matematika, Sains, dan Teknologi Universitas Terbuka. Vol. 4: A.1-A.6
    [3] Tirta, I M. 2009. Analisis Regresi dengan R. Jember:Universitas Jember.
    [4] Tirta, I M. 2014a. Aktivitas Laboratorium Statistika Virtual Berbasis Web dengan R-Shiny. Prosiding Seminar Nasional Matematika 2014, Universitas Udayana. 235-244.
    [5] Tirta, I M. 2014b. Pengembangan E-Modul Statistika Terintregasi dan Dinamik dengan R-Shiny dan mathJax. Prosiding Seminar Nasional Matematika 2014, Universitas Jember. 223-232.
    [6] Venables, W. N. dan Ripley, B. D. 2002. Modern Applied Statistics with S. New York: Springer.
    [7] Yudissanta A. dan Ratna M. 2012. Analisis Pemakaian Kemoterapi pada Kasus Kanker Payudara dengan Menggunakan Metode Regresi Logistik Multinomial (Studi Kasus Pasien di Rumah Sakit "X" Surabaya). Jurnal Sains dan Seni ITS. Vol. 1: D-112-D-117.

    LAMPIRAN

    Pilihan untuk menampilkan berapa sampel yang diinginkan