Dengan kemajuan komputer, peneliti dapat melakukan alternatif-alternatif analisis dan visualisasi dengan lebih cepat. Oleh karena itu, sekarang pengguna statistika tidak saja dituntut trampil mengaplikasikan
salah satu metode statistika, tetapi juga peka dalam melihat 'keganjilan' dan mengeksplorasi model
model alternatif yang lebih baik, sesuai kebutuhan. Dalam modul ini dibahas pemodelan regresi linier
yang mengandung variabel kelompok yang diakomodasi dengan mendefinisikan variabel boneka (dummy).
Pertanyaan mendasarnya adalah "Apakah keberadaan kelompok (pengelompokan), $G$ tersebut menyebabkan
terjadinya heterogenitas dalam hubungan $X$ degan $Y$ dengan kata lain, apakah $G$ berpengaruh terhadap hubungan (regresi) antara variabel $X$ dan $Y$.
Tujuan
Pada akhir kegiatan, mahasiswa diharapkan
dapat menyebutkan asumsi model linier terampat;
dapat menyebutkan komponen penting model linier terampat;
dapat melakukan analisis model linier terampat, khususnya model logit, probit loglinier sesuai kondisi data;
dapat memilih model terbaik dalam menggunakan analisis model linier terampat, khususnya model logit, probit loglinier sesuai kondisi data;
Bahasan
Materi yang dibahas dalam kegiatan ini adalah
Sekilas Model Linier Normal
Distribusi Keluarga Eksponensial
Asumsi dan Komponen Penting dalam GLM
Variabel kualitatif pada prediktor
Estimasi Parameter pada GLM
Pemilihan Model Terbaik
Eksplorasi Model secara Numerik (GOF, AIC, BIC)
Menentukan Model 'Terbaik'
Ilustrasi dengan R
Rangkuman
Daftar Pustaka
Uraian Teori
Tampilan persamaan online menggunakan mathjax membutuhkan waktu untuk mengaktifkannya, karenanya
paparan teori ini dipisahkan dari halaman ini.
Bagi yang membutuhkan, uraian lengkap tentang GLM dapat dilihat pada
Paparan Teori GLM
Ilustrasi dengan R
Sintaks fungsi GLM
Sintaks untuk melakukan analisis regresi linier sederhana adalah dengan glm() atau
glm2().
Pilihan sebaran dan link yang sesuai dinyatakan dalam opsi family=..., misalnya
family=binomial(link=probit), family=Gamma(link=log)
Eksplorasi Data
Eksplorasi Secara numerik
Pada bagian ini disajikan secara naratif data langkah pemeriksaan asumsi dan pemeriksaan
dan pemeriksaan beberapauji GOF model seperti teori yang disampaikan sebelumnya.
Ringkasan data yang dimiliki dalam analisis ini adalah:
Pilihan Data
Khusus untuk Import Data, cari file:
Header:
, Pemisah:
,
Kutipan:
Luaran 1. Data Aktif
Dari summary data yang ada, kita bisa menentukan variabel-variabel (kuantitatif) yang akan dijadikan variabel bebas (eksplanatori) dan variabel terikat (respond). Sebelum menentukan variabel bebas dan terikat (respon),
kita dapat juga membuat matriks korelasi untuk mendeteksi variabel-variabel yang terindikasi memiliki hubungan.
Hasil matriks korelasi dan matriks diagram pencarnya adalah sebagai berikut.
Eksplorasi Grafik Matriks Diagram Pencar
Selain melihat matriks korelasi, kita juga bisa melihat matriks diagram pencar untuk mendapatkan gambaran variabel-variabel yang terindikasi memiliki hubungan linier.
Untuk mendapatkan gambaran variabel-varabel yang berhubungan,
dapat dihitung matriks korelasi ataupun matriks diagram pencar
dari (minimal 2) variabel kuantitatif/numerik.
Matriks Korelasi
Matriks korelasi dari variabel-variabel kuantitatif
Luaran 2. Matriks Korelasi
Kelompok dari Klaster K-Means
Jika pengelompokan real yang ada, dirasa tidak cukup bisa menjelaskan indikasi heterogenitas pada data, kita
dapat memeriksa pengelompokan dengan menggunakan analisis klaster, salah satunya yang paling sederhana adalah
K-Means. Pembahasan lebih rinci tentang analisis klaster dapat dilihat pada Tirta (2015),
E-Modul: KLaster Validasi dengan ClValid.
Untuk membuat data $x$ menjadi $k$ klaster degan K-Means sintaksnya adalah.
#KMeans dari paket RcmdrMisc
KMeans(x,center=k)
Data juga miliki variabel kualitatif yang kasat mata. Kita juga bisa membuat pengelompokan berdasarkan hasil klastering data, misalnya menggunakan KMeans dengan
ukuran klaster
.
Hasil klaster dengan KMeans adalah sebagai berikut
Matriks Diagram Pencar
Untuk mendapatkan gambaran variabel-bariabel yang berhubungan, selain matriks korelasi dapat juga dibuat matriks diagram pencar secara
global, dari variabel-variabel terpilih di atas.
Gambar 1. Grafik Diaram Pencar
dan Plot Diagonal
Pertanyaan: Apakah pengelompokkan berdasarkan variabel-variabel kualitatif yang ada, sesuai dengan indikasi heterogen dalam data? Apakah bisa menjelaskan adanya indikasi heterogenitas dalama data?
Pemilihan Variabel $X,Y$ dan Kelompok
Selanjutnya kita bisa memilih variabel-variabel untuk diperiksa dan dianalisis lebih lanjut
Family:
Pemeriksaan Pengaruh Kelompok dengan Model Umum
Setelah memeriksa knormalan data, pemeriksaan diteruskan dengan memeriksa grafik pencaran dan dignostik
model untuk melihat apakah asumsi kelinieran dan tidak adanya outlier bisa dianggap terpenuhi.
Eksplorasi Diagram Pencar dengan Kelompok
Dari matriks diagram pencar, kita dapat lebih menfokuskan pemeriksaan pada dua variabel yang diinginkan.
Pengguna dapat memilih mengikutsertakan grafik garis regresi atau tidak.
Untuk informasi lebih lengkap tentang pembuatan grafik pada R dapat dilihat pada Tirta (2015), E-Modul: Grafik dengan R .
Gambar 2. Grafik Diagram Pencar
Garis Regresi (Khusus 2D)
Pemeriksaan dan Uji Kenormalan Residu
Grafik QQ-Plot dari variabel terikat/ respon adalah sebagai berikut
Gambar 2. QQ-Plot dari variabel Respon
Secara statistik hasi uji kenormalan menggunakan salah satu uji
adalah sebagai berikut ini.
Luaran 3. Hasil Uji Kenormalan Variabel Respon
Pemilihan Model Final
Selanjutnya kita bisa memeriksa luaran analisis regresi untuk melihat signifikansi model,
signifikansi masing-masing koefisien regresi $\boldsymbol{\beta}$ dan GOF yang ditunjukkan oleh
nilai $R^2$.
Dari hasil di atas, maka model yang leboh eksplisit yang dianggap terbaik adalah
Luaran Analisis
Luaran umum
Luaran 5. Hasil Uji Regresi Yang dianggap Terbaik
dengan AIC dan BIC untuk model final spesifik adalah sebesar
Luaran Detail
Detail yang diperlukan:
Analisis Devians
Grafik Diagnostik
Gambar 3. Grafik Diagnostik Regresi.
Matriks Desain X
Dari model di atas, bentuk matriks desain
yang dipakai adalah (
baris pertama)
Prediksi pada GLM
Dalam GLM, hubungan antara variabel eksplanatori dengan prediksi nila respon, terjadi lewat
fungsi link, sehingga hubungan yang terjadi tidak selalu identitas.
$$g[E(Y_i|X=x_{ij})]=\sum_{j=1}^k x_{ij} \hat{\beta_{j}}$$
R menyediakan fungsi predict seberti berikut ini.
GLM dengan Penghalus Parametrik (Natural dan B Splines)
Model ini mengadopsi GLM dengan perluasan menyertakan penghalus spline natural untuk
mengakomodasi hubungan nonliner dengan prediktor tertentu. fungsi ns() disertakan dalam
formula model
Dk NS
.
Dk Polinom
.
Dg Polinom (1=linier)
.
Pilihan Smoother:
Pilihan Distribusi dan link:
Goodness of Fit
Gambar 1. Grafik
Rangkuman
Pertimbangan pengaruh variabel kualitatif (kelompok) dalam regresi, dapat dilakukan dengan mendefinisikan variabel boneka ( dummy)
Pertimbangan pengaruh variabel kualitatif (kelompok) dalam regresi, akan menghasilkan
salah satu model yaitu model paralel, interaksi, atau model tanpa variabel kualitatif (tidak ada pengaruh).
Model terbaik dapat dilihat dari nilai AIC, atau BIC terkecil dan $R^2$ terbesar (terutama $R^2$ yang tersesuaikan)
Tugas
Koefisien determinasi $R^2$ ada yang disebut tersesuaikan Adjusted-$R^2$, cari formula untuk jenis koefisien determinasi ini. Perhatikan angkanya dalam luaran R. Dapatkan anda mendeteksi perbedaan yang mencolok antara keduanya (tersesuaikan dan tidak), kapan terjadi? Dengan kata lain, kapan Adjusted-$R^2$ menjadi penting dipertimbangkan.
Tentukan indikasi atau tanda-tanda perlunya mempertimbangkan variabel kualitatif dalam model regresi
Dalam ilustrasi menggunakan komputer, untuk analisis regresi dengan kelompok,
apa kelebihan dan kekurangan dari model dengan konstanta implisit dan model dengan konstanta eksplisit
beri ilustrasi (termasuk bentuk dan memanfaatkan matriks desainnya)
Tentukan dan beri contoh ilustrasi melakukan prediksi dengan menggunakan model regresi dengan
variabel kelompok. Misalnya seseorang (subjek/responden) mimiliki nilai $X$ tertentu $X=x1$ (silakan tentukan nilainya), dan dia berasal dari kelompok $g1$.
Sumber Bacaan Teori:
[1] Dobson J.A., 2002. Generalized Linear Models
(2nd Edition) Chapman & Hall [2] Tirta, IM 2009.[Bab 2 Model Linear Klasik] Analisis Regresi dengan R.
UNEJ Press [3] Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. UNEJ Press [4] Wikipedia. Normality Test
http://en.wikipedia.org/wiki/Normality_test [Akses 28 Oktober 2014] [4] Tirta, IM. 2015. E-Modul: Grafik dengan R. UNEJ Press
Naskah ini dibuat dengan tujuan utama sebagai dokumen contoh (IMT).