ANALISIS PEMODELAN LOGISTIK MULTINOMIAL DENGAN PAKET nnet
Cahyani, D.K.L.; Tirta, IM; Anggraeni, D Jurusan Matematika, FMIPA, Universitas Jember (2015)
Metode statistika sering digunakan dalam penelitian. Hal ini dikarenakan statistik mampu memenuhi tujuan penelitian dan bersifat akurat. Salah satu metode yang sering digunakan adalah metode logistik multinomial. Logistik multinomial merupakan regresi logistik yang digunakan saat variabel dependen mempunyai skala yang bersifat polychotomous atau multinomial. Skala multinomial adalah suatu pengukuran yang dikategorikan menjadi lebih dari dua kategori. Analisis logistik multinomial menggunakan paket nnet dengan fungsi multinom(). Namun, dalam penggunaannya paket tersebut susah bagi pengguna atau peneliti yang tidak mengerti program terutama program R. R-shiny merupakan toolkit dari program R yang dapat digunakan untuk membuat program secara online seperti GUI. Oleh karena itu dalam artikel ini dibuat pengembangan web interaktif dengan R-shiny untuk logistik multinomial sehingga mempermudah seseorang yang kurang mengerti pemrograman R menjadi lebih mudah untuk melakukan analisis logistik multinomial secara online hanya dengan memasukkan data dan memilih menu tanpa harus menginstal dan menguasai program R dan melakukannya secara offline dalam komputer.
Regresi logistik merupakan salah satu metode yang dapat digunakan untuk mencari hubungan variabel respon yang bersifat berskala nominal atau ordinal dengan dua kategori atau mempunyai skala nominal atau ordinal dengan lebih dari dua kategori dengan satu atau lebih variabel prediktor dan variabel respon yang bersifat kontinyu atau kategorik. Regresi logistik juga merupakan hubungan antara regresi logit dan regresi probit. Yang termasuk dalam regresi ini adalah regresi biner (dengan respon Y hanya dua kategori) (Tirta, 2009). Model dari regresi logistik ini, adalah:
$logit(\pi_i)=\ln\left(\frac{\pi_i}{1-\pi_i}\right)=\alpha+\beta_ix_{1,i}+...+\beta_kx_{k,i}, i=1, ..., n$
Menurut Yudisasanta A. dan Ratna M. (2012) regresi logistik multinomial merupakan regresi logistik yang digunakan saat variabel dependen mempunyai skala yang bersifat polichotomous atau multinomial. Skala multinomial adalah suatu pengukuran yang dikategorikan menjadi lebih dari dua kategori. Metode yang digunakan dalam penelitian ini adalah regresi logistik dengan variabel dependen berskala nominal dengan tiga kategori. Mengacu pada regresi logistik trichotomous untuk model regresi dengan variabel dependen berskala nominal tiga kategori digunakan kategori variabel hasil Y dikodekan 0, 1, dan 2. Variabel Y diparameterkan menjadi dua fungsi logit. Sebelumnya perlu ditentukan kategori hasil mana yang digunakan untuk membandingkan. Pada umumnya digunakan Y = 0 sebagai pembanding. Untuk membentuk fungsi logit, akan dibandingan Y = 1 dan Y = 2, terhadap Y = 0. Bentuk model regresi logistik dengan p variabel prediktor seperti berikut
$\pi(x)=\frac{e^{(\beta_0+\beta_1x_1+...+\beta_px_p)}}{1+e^{(\beta_0+\beta_1x_1+...+\beta_px_p)}}$
dengan menggunakan transformasi logit akan didapatkan dua fungsi logit$g_1(x)=\ln\left(\frac{P(Y=1|x)}{P(Y=0|x)}\right)$ $ =\beta_{10}+\beta_{11}x_1+...+\beta_{1p} x_p$ $ =x'\beta_1$
dan$g_2(x)=\ln\left(\frac{P(Y=2|x)}{P(Y=0|x)}\right)$ $ =\beta_{20}+\beta_{22}x_1+...+\beta_{2p}x_p$ $ =x'\beta_2$
Berdasarkan kedua fungsi logit tersebut maka didapatkan model regresi logistik trichotomous sebagai berikut :$P(Y=0|x)=\frac{1}{1+e^{g_1(x)}+e^{g_2(x)}}$ $P(Y=1|x)=\frac{e^{g_1(x)}}{1+e^{g_1(x)}+e^{g_2(x)}}$
dan$P(Y=2|x)=\frac{e^{g_2(x)}}{1+e^{g_1(x)}+e^{g_2(x)}}$
Mengikuti aturan dari model logistik biner, maka akan dimisalkan $P(Y=j|x)=\pi_j(x)$ untuk j=0, 1, 2 untuk setiap fungsi dari vektor $2(p+1)$ dengan parameter $\beta^T=(\beta^T_1\beta^T_2)$ . Pernyataan umum untuk probabilitas bersyarat dalam model tiga kategori adalah: $$P(Y=j|x)=\frac{e^{g_j(x)}}{{\Sigma^2_{k=0}}e^{g_k(x)}} ,j=0,1,2 \label{eq2}$$ dengan vektor ${\beta_0}=0$ sehinggga $g_0 (x)=0$. Model logistik untuk kategori variabel dependen lebih dari satu atau polichotomous, yaitu:
$\ln\left[\frac{\pi_j}{\pi_q}\right]={\beta_0}^{(j)}+\Sigma^k_{i=1}{\beta_i}^{(j)}{x_i}$ ,$j=1,...,q-1$
pada persamaan \eqref{eq2} dapat dilihat bahwa salah satu dari kategori digunakan sebagai referensi dan disebut sebagai basis(baseline), yaitu kategori yang menjadi dasar pembanding pengaruh kategori lainnya.Dalam model regresi logistik, nilai harapan antar variabel respon tidak linier serta memiliki varian-varian yang tidak sama sehingga penduga parameter $\beta$ diperoleh melalui metode Maximum Likelihood (Hosmer dan Lemeshow, 2000). Untuk memecahkan masalah sistem persamaan nonlinier, solusi yang dilakukan adalah dengan mengestimasi $\beta$ melalui proses iterasi Newton Raphson. Karena variabel respon $y_j$ diasumsikan saling bebas, maka diperoleh fungsi likelihood bersyarat untuk sampel sebanyak n observasi sebagai berikut:
$\textit{l}(\beta)=\prod^n_{i=1}[\pi_0{(x_i)^{y_{0i}}}\pi_1(x_i)^{y_{1i}}\pi_2(x_i)^{y_{2i}}]$
Secara matematis, akan lebih mudah untuk mendapatkan nilai yang akan memaksimalkan fungsi likelihood di atas melalui log dari fungsi tersebut yaitu log likelihood. Dengan demikian maka fungsi log likelihood-nya adalah:
$L(\beta)=\Sigma^n_{i=1}y_ig_1(x_i)+y_{2i}g_2(x_i)-\ln(1+e^{g_1(x_i)}+e^{g_2(x_i)})$
Untuk mendapatkan nilai \beta yang memaksimumkan L(\beta) maka dilakukan diferensiasi terhadap $L(\beta)$, dengan syarat $\frac{\partial L}{\partial\beta}=0$ dan $\frac{\partial^2L}{\partial^2\beta}<0$
Untuk mengetahui apakah model dengan variabel dependen tersebut merupakan model yang sesuai, maka perlu dilakukan suatu uji kesesuaian model.
Pemilihan model dari sebuah data set yang terbaik salah satunya adalah dengan menggunakan metode AIC (Akaike's Information Criterion). Menurut Tirta(2009) besarnya AIC dihitung melalui rumus berikut :
$AIC=-2l(\hat{\theta})+2q$
dengan $l(\hat{\theta})$ adalah nilai likelihood dari model yang dihadapi dan q adalah banyaknya parameter dalam model. Pemilihan model terbaik dilihat dari nilai terkecil dari AIC.
Selain AIC, pemilihan model terbaik juga bisa dilakukan dengan menggunakan BIC. Menurut Pardede(2013) BIC didefinisikan sebagai berikut :
$BIC=-2l(\hat{\theta})+q \ln{N}$
dengan $-2l(\hat{\theta})$ adalah model log likelihood, adalah q jumlah parameter pada model, dan N adalah jumlah objek pemgamatan. Model dengan nilai BIC lebih kecil dipilih sebagai model terbaik untuk data.
Sintaks untuk melakukan analisis logistik multinomial adalah dengan paket nnet() (Venables, W. N. dan Ripley, B. D. 2002) digunakan fungsi multinom()
multinom(y~x1+x2+...+xn, data=...)Langkah-langkah menganalisis data dengan logistik multinomial ini sebagai berikut:
Pilih data sesuai yang diinginkan atau bisa memakai data sendiri dengan cara import data
Format data khusus Import Data untuk sementara yang bisa digunakan adalah csv. Untuk itu sebelum anda mengimport data anda, lebih baik anda mengubahnya terlebih dahulu dalam bentuk csv. Cari file:
Dari summary data yang ada, kita bisa menentukan variabel-variabel yang akan dijadikan variabel bebas (eksplanatori) dan variabel terikat (respon). Variabel respon harusyang mempunyai lebih dari dua kategori.
Setelah memilih variabel prediktor dan respon. Anda dapat menguji model yang sudah anda pilih. Berikut ini akan muncul hasil analisis logistik multinomial seperti dibawah ini
Hasil dari analisis di atas berupa hasil estimasi dan hasil standart error dari setiap kategori. Untuk mengetahui signifikan tidaknya suatu variabel, kita perlu mengetahui nilai p-value dan z-value. Nilai p-value digunakan untuk menguji kesignifikanan koefisien parameter. Apabila nilai p-value kurang dari 0,05 maka koefisien parameter signifikan terhadap respon. Tetapi apabila nilai p-value lebih dari 0,05 maka parameter tidak signifikan terhadap variabel respon.
Digunakan untuk mencari p-value
Selain objek keluaran diatas, anda dapat juga memilih objek keluaran yang terdapat di R. Di bawah ini ada beberapa pilihan obyek yang mungkin dibutuhkan apabila di atas tidak ada keluaran yang diinginkan.
Nilai AIC dan BIC yang lebih kecil menunjukkan model tersebut lebih baik daripada model lainnya.
Untuk respon dengan dua kategori atau biner dapat dikerjakan dengan multinomial dan Glm, anda bisa membandingkan hasilnya dengan menggunakan GLM di bawah ini.
[1] Hosmer, D.W. dan Lemeslow. 2000. Applied Logistic Regression Second Edition. New York: John Wiley & Sons. [2] Pardede, T. 2013. Analisis Kelas Laten (Laten Class Analysis) untuk Pengelompokan Data Kategorik. Prosiding Seminar Nasional Matematika, Sains, dan Teknologi Universitas Terbuka. Vol. 4: A.1-A.6 [3] Tirta, I M. 2009. Analisis Regresi dengan R. Jember:Universitas Jember. [4] Tirta, I M. 2014a. Aktivitas Laboratorium Statistika Virtual Berbasis Web dengan R-Shiny. Prosiding Seminar Nasional Matematika 2014, Universitas Udayana. 235-244. [5] Tirta, I M. 2014b. Pengembangan E-Modul Statistika Terintregasi dan Dinamik dengan R-Shiny dan mathJax. Prosiding Seminar Nasional Matematika 2014, Universitas Jember. 223-232. [6] Venables, W. N. dan Ripley, B. D. 2002. Modern Applied Statistics with S. New York: Springer. [7] Yudissanta A. dan Ratna M. 2012. Analisis Pemakaian Kemoterapi pada Kasus Kanker Payudara dengan Menggunakan Metode Regresi Logistik Multinomial (Studi Kasus Pasien di Rumah Sakit "X" Surabaya). Jurnal Sains dan Seni ITS. Vol. 1: D-112-D-117.
Pilihan untuk menampilkan berapa sampel yang diinginkan