logoUNEJ UNEJ PONSTAT
Laboratorium Statistika, FMIPA Universitas Jember Jalan Kalimantan 27 Jember 68121

On Line Dynamic Statistics Module
Model Linier Tergeneralisir (GLM) dengan Variabel Kualitatif (Dummy), Natural atau B-Spline

Oleh I Made Tirta, Januari 2015, alamat: Laboratorium Statistika, Jurusan Matematika FMIPA UNiversitas Jember.

Hit Counter
Hit Counter

Pendahuluan

Latar belakang

Dengan kemajuan komputer, peneliti dapat melakukan alternatif-alternatif analisis dan visualisasi dengan lebih cepat. Oleh karena itu, sekarang pengguna statistika tidak saja dituntut trampil mengaplikasikan salah satu metode statistika, tetapi juga peka dalam melihat 'keganjilan' dan mengeksplorasi model model alternatif yang lebih baik, sesuai kebutuhan. Dalam modul ini dibahas pemodelan regresi linier yang mengandung variabel kelompok yang diakomodasi dengan mendefinisikan variabel boneka (dummy). Pertanyaan mendasarnya adalah "Apakah keberadaan kelompok (pengelompokan), $G$ tersebut menyebabkan terjadinya heterogenitas dalam hubungan $X$ degan $Y$ dengan kata lain, apakah $G$ berpengaruh terhadap hubungan (regresi) antara variabel $X$ dan $Y$.

Tujuan

Pada akhir kegiatan, mahasiswa diharapkan
  1. dapat menyebutkan asumsi model linier terampat;
  2. dapat menyebutkan komponen penting model linier terampat;
  3. dapat melakukan analisis model linier terampat, khususnya model logit, probit loglinier sesuai kondisi data;
  4. dapat memilih model terbaik dalam menggunakan analisis model linier terampat, khususnya model logit, probit loglinier sesuai kondisi data;

Bahasan

Materi yang dibahas dalam kegiatan ini adalah
  1. Sekilas Model Linier Normal
  2. Distribusi Keluarga Eksponensial
  3. Asumsi dan Komponen Penting dalam GLM
  4. Variabel kualitatif pada prediktor
  5. Estimasi Parameter pada GLM
  6. Pemilihan Model Terbaik
  7. Eksplorasi Model secara Numerik (GOF, AIC, BIC)
  8. Menentukan Model 'Terbaik'
  9. Ilustrasi dengan R
  10. Rangkuman
  11. Daftar Pustaka

Uraian Teori

Tampilan persamaan online menggunakan mathjax membutuhkan waktu untuk mengaktifkannya, karenanya paparan teori ini dipisahkan dari halaman ini. Bagi yang membutuhkan, uraian lengkap tentang GLM dapat dilihat pada Paparan Teori GLM

Ilustrasi dengan R

Sintaks fungsi GLM

Sintaks untuk melakukan analisis regresi linier sederhana adalah dengan glm() atau glm2() .
glm(y~x, family=...)
glm(y~x*g, family=...)
glm(y~x+g, family=...)
glm(y~g/x, family=...)
glm(y~x+g-1, family=...)
glm(y~g/x-1, family=...)
AIC(glm(...))
Pilihan sebaran dan link yang sesuai dinyatakan dalam opsi family=..., misalnya family=binomial(link=probit), family=Gamma(link=log)

Eksplorasi Data

Eksplorasi Secara numerik

Pada bagian ini disajikan secara naratif data langkah pemeriksaan asumsi dan pemeriksaan dan pemeriksaan beberapauji GOF model seperti teori yang disampaikan sebelumnya. Ringkasan data yang dimiliki dalam analisis ini adalah:

Pilihan Data

Khusus untuk Import Data, cari file:
Header: , Pemisah: , Kutipan:
Luaran 1. Data Aktif


  
Dari summary data yang ada, kita bisa menentukan variabel-variabel (kuantitatif) yang akan dijadikan variabel bebas (eksplanatori) dan variabel terikat (respond). Sebelum menentukan variabel bebas dan terikat (respon), kita dapat juga membuat matriks korelasi untuk mendeteksi variabel-variabel yang terindikasi memiliki hubungan. Hasil matriks korelasi dan matriks diagram pencarnya adalah sebagai berikut.

Eksplorasi Grafik Matriks Diagram Pencar

Selain melihat matriks korelasi, kita juga bisa melihat matriks diagram pencar untuk mendapatkan gambaran variabel-variabel yang terindikasi memiliki hubungan linier.

scatterplotMatrix(~x1+x2+...,  reg.line=lm,
            diagonal=c("density", "boxplot", "histogram", "oned", "qqplot", "none"),
            smooth=FALSE/TRUE,data=..., by.groups=TRUE/FALSE)
Untuk mendapatkan gambaran variabel-varabel yang berhubungan, dapat dihitung matriks korelasi ataupun matriks diagram pencar dari (minimal 2) variabel kuantitatif/numerik.

Matriks Korelasi

Matriks korelasi dari variabel-variabel kuantitatif

Luaran 2. Matriks Korelasi

Kelompok dari Klaster K-Means

Jika pengelompokan real yang ada, dirasa tidak cukup bisa menjelaskan indikasi heterogenitas pada data, kita dapat memeriksa pengelompokan dengan menggunakan analisis klaster, salah satunya yang paling sederhana adalah K-Means. Pembahasan lebih rinci tentang analisis klaster dapat dilihat pada Tirta (2015), E-Modul: KLaster Validasi dengan ClValid. Untuk membuat data $x$ menjadi $k$ klaster degan K-Means sintaksnya adalah.
#KMeans dari paket RcmdrMisc
KMeans(x,center=k)
Data juga miliki variabel kualitatif yang kasat mata. Kita juga bisa membuat pengelompokan berdasarkan hasil klastering data, misalnya menggunakan KMeans dengan ukuran klaster . Hasil klaster dengan KMeans adalah sebagai berikut




Matriks Diagram Pencar

Untuk mendapatkan gambaran variabel-bariabel yang berhubungan, selain matriks korelasi dapat juga dibuat matriks diagram pencar secara global, dari variabel-variabel terpilih di atas.
Gambar 1. Grafik Diaram Pencar
dan Plot Diagonal
Pertanyaan: Apakah pengelompokkan berdasarkan variabel-variabel kualitatif yang ada, sesuai dengan indikasi heterogen dalam data? Apakah bisa menjelaskan adanya indikasi heterogenitas dalama data?

Pemilihan Variabel $X,Y$ dan Kelompok

Selanjutnya kita bisa memilih variabel-variabel untuk diperiksa dan dianalisis lebih lanjut

Distribusi: Link:

Pemeriksaan Pengaruh Kelompok dengan Model Umum

Setelah memeriksa knormalan data, pemeriksaan diteruskan dengan memeriksa grafik pencaran dan dignostik model untuk melihat apakah asumsi kelinieran dan tidak adanya outlier bisa dianggap terpenuhi.

Eksplorasi Diagram Pencar dengan Kelompok

Dari matriks diagram pencar, kita dapat lebih menfokuskan pemeriksaan pada dua variabel yang diinginkan. Pengguna dapat memilih mengikutsertakan grafik garis regresi atau tidak. Untuk informasi lebih lengkap tentang pembuatan grafik pada R dapat dilihat pada Tirta (2015), E-Modul: Grafik dengan R .
Gambar 2. Grafik Diagram Pencar Garis Regresi (Khusus 2D)

Pemeriksaan dan Uji Kenormalan

Grafik QQ-Plot dari variabel terikat/ respon adalah sebagai berikut
Gambar 2. QQ-Plot dari variabel Respon
Secara statistik hasi uji kenormalan menggunakan salah satu uji adalah sebagai berikut ini.

Luaran 3. Hasil Uji Kenormalan Variabel Respon




Pemilihan Model

Selanjutnya kita bisa memeriksa luaran analisis regresi untuk melihat signifikansi model, signifikansi masing-masing koefisien regresi $\boldsymbol{\beta}$ dan GOF yang ditunjukkan oleh nilai $AIC$.

Memeriksa kontribusi Kelompok

Luaran Umum

  

Pilihan Kontribusi Kelompok

Dari pemeriksaan signifikansi parameter kelompok pada hasil di atas, maka model yang lebih eksplisit yang dianggap terbaik adalah

Luaran 5. Hasil Uji Regresi Yang dianggap Terbaik

dengan AIC dan BIC untuk model final spesifik  adalah sebesar


Luaran Detail

Detail yang diperlukan:


Analisis Devians



Grafik Diagnostik

Gambar 3. Grafik Diagnostik Regresi.

Matriks Desain X

Dari model di atas, bentuk matriks desain yang dipakai adalah ( baris pertama)


Prediksi pada GLM

Dalam GLM, hubungan antara variabel eksplanatori dengan prediksi nila respon, terjadi lewat fungsi link, sehingga hubungan yang terjadi tidak selalu identitas. $$g[E(Y_i|X=x_{ij})]=\sum_{j=1}^k x_{ij} \hat{\beta_{j}}$$ R menyediakan fungsi predict seberti berikut ini.
predict(objek.glm, newdata=..., type=c("link", "response")
  1. objek.glm adalah objek yang dihasilkan setelah menjalankan fungsi glm()
  2. newdata adalah nilai-nilai $x_{ij}$ sesuai format dataframe
  3. type="" adalah salah satu dari berikut

GLM dengan Penghalus Parametrik (Natural dan B Splines)

Model ini mengadopsi GLM dengan perluasan menyertakan penghalus spline natural untuk mengakomodasi hubungan nonliner dengan prediktor tertentu. fungsi ns() disertakan dalam formula model
formula=y~x1+...+ns(x, df = ....)
formula=y~x1+...+bs(x, df = ....)
Dk NS
.
Dk Polinom
.
Dg Polinom (1=linier)
.
Pilihan Smoother:

Distribusi: Link:


Goodness of Fit




Gambar 1. Grafik

Rangkuman

  1. Pertimbangan pengaruh variabel kualitatif (kelompok) dalam regresi, dapat dilakukan dengan mendefinisikan variabel boneka ( dummy)
  2. Pertimbangan pengaruh variabel kualitatif (kelompok) dalam regresi, akan menghasilkan salah satu model yaitu model paralel, interaksi, atau model tanpa variabel kualitatif (tidak ada pengaruh).
  3. Model terbaik dapat dilihat dari nilai AIC, atau BIC terkecil dan $R^2$ terbesar (terutama $R^2$ yang tersesuaikan)

Tugas

  1. Koefisien determinasi $R^2$ ada yang disebut tersesuaikan Adjusted-$R^2$, cari formula untuk jenis koefisien determinasi ini. Perhatikan angkanya dalam luaran R. Dapatkan anda mendeteksi perbedaan yang mencolok antara keduanya (tersesuaikan dan tidak), kapan terjadi? Dengan kata lain, kapan Adjusted-$R^2$ menjadi penting dipertimbangkan.
  2. Tentukan indikasi atau tanda-tanda perlunya mempertimbangkan variabel kualitatif dalam model regresi
  3. Dalam ilustrasi menggunakan komputer, untuk analisis regresi dengan kelompok, apa kelebihan dan kekurangan dari model dengan konstanta implisit dan model dengan konstanta eksplisit beri ilustrasi (termasuk bentuk dan memanfaatkan matriks desainnya)
  4. Tentukan dan beri contoh ilustrasi melakukan prediksi dengan menggunakan model regresi dengan variabel kelompok. Misalnya seseorang (subjek/responden) mimiliki nilai $X$ tertentu $X=x1$ (silakan tentukan nilainya), dan dia berasal dari kelompok $g1$.

Sumber Bacaan Teori:

    [1] Tirta, IM 2009.[Bab 2 Model Linear Klasik] Analisis Regresi dengan R. UNEJ Press
    [2] Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. UNEJ Press
    [3] Wikipedia. Normality Test http://en.wikipedia.org/wiki/Normality_test [Akses 28 Oktober 2014]
    [4] Tirta, IM. 2015. E-Modul: Grafik dengan R. UNEJ Press
Naskah ini dibuat dengan tujuan utama sebagai dokumen contoh (IMT).