logoUNEJ UNEJ PONSTAT
Laboratorium Statistika, FMIPA Universitas Jember Jalan Kalimantan 27 Jember 68121

On Line Dynamic Statistics Module
Model Linier Tergeneralisir (GLM) dengan Variabel Kualitatif (Dummy)

Perhatian: Halaman ini bertujuan mengilustrasikan kemampuan R-shiny dalam alanisis data online model Tutorial, tetapi Paparan Teori yang ada di halaman ini belum lengkap dan tidak bisa dijadikan acuan/rujukan, harap maklum !!!
Oleh I Made Tirta, Februari 2015, alamat: Laboratorium Statistika, Jurusan Matematika FMIPA UNiversitas Jember.

Latar belakang

Dengan kemajuan komputer, peneliti dapat melakukan alternatif-alternatif analisis dan visualisasi dengan lebih cepat. Oleh karena itu, sekarang pengguna statistika tidak saja dituntut trampil mengaplikasikan salah satu metode statistika, tetapi juga peka dalam melihat 'keganjilan' dan mengeksplorasi model model alternatif yang lebih baik, sesuai kebutuhan. Dalam modul ini dibahas pemodelan regresi linier yang mengandung variabel kelompok yang diakomodasi dengan mendefinisikan variabel boneka (dummy). Pertanyaan mendasarnya adalah "Apakah keberadaan kelompok (pengelompokan), $G$ tersebut menyebabkan terjadinya heterogenitas dalam hubungan $X$ degan $Y$ dengan kata lain, apakah $G$ berpengaruh terhadap hubungan (regresi) antara variabel $X$ dan $Y$.

Tujuan

Pada akhir kegiatan, mahasiswa diharapkan
  1. dapat menyebutkan asumsi model linier terampat;
  2. dapat menyebutkan komponen penting model linier terampat;
  3. dapat melakukan analisis model linier terampat, khususnya model logit, probit loglinier sesuai kondisi data;
  4. dapat memilih model terbaik dalam menggunakan analisis model linier terampat, khususnya model logit, probit loglinier sesuai kondisi data;

Bahasan

Materi yang dibahas dalam kegiatan ini adalah
  1. Asumsi dan Komponen Penting dalam GLM
  2. Estimasi Parameter pada GLM
  3. Pemilihan Model Terbaik
  4. Model-model khusus
  5. Eksplorasi Model secara Numerik (GOF, AIC, BIC)
  6. Menentukan Model 'Terbaik'

Regresi Linier Normal/Klasik

Misalkan hubungan antara peubah respon ($Y_i$) dengan peubah tetap ($X_i$) untuk subjek $i=1,2, ... n,$ ditentukan oleh $$ \left.\begin{array}{cccc} Y_1&=&\beta_0 + \beta_1 X_1+\epsilon_1& \\ \vdots & \vdots & \vdots& \\ Y_i&=&\beta_0 + \beta_1 X_i+\epsilon_i&\\ \vdots & \vdots & \vdots& \\ Y_n&=&\beta_0 + \beta_1 X_n+\epsilon_n & \end{array} \right\} $$ dengan:
  1. $X_i$ adalah peubah tetap yang tidak bersifat acak (lebih lanjut diasumsikan $X_i$ diukur tanpa kesalahan);
  2. $\epsilon_i$, yaitu komponen kesalahannya, adalah berdistribusi identik dan independen normal dengan nilai-tengah 0 dan varian konstan (misalnya $\sigma^2$);
  3. kesalahan individu satu dengan lainnya saling bebas, yaitu untuk $i \neq i^\prime$, maka $\epsilon_i || \epsilon_{i^\prime}$ atau korelasi $\epsilon_i$ dengan $\epsilon_{i^\prime}$ adalah 0.
Dari asumsi dapat ditentukan bahwa ekspektasi dari setiap respon adalah $$\mu_i= E\left[Y_i|X_{i}\right]=\beta_0 + \beta_1 X_i $$yang merupakan sebuah garis lurus yang kita sebut garis regresi populasi. Sedangkan sebaran setiap pasangan $(X_i,Y_i)$ akan berada pada atau sekitar garis tersebut sesuai dengan besarnya $\epsilon_i$. Dalam Model Linier Tergeneralisir (MLT) atau Generalized Linear Models (GLM), asumsi model lebih longgar dan digeneralisasikan dengan cara berikut:
  1. Asumsi (i) diperluas untuk memungkinkan $Y_{i}$ mempunyai distribusi yang sama dan saling bebas dari distribusi keluarga eksponensial.
  2. Pada asumsi (iii) hubungan antara komponen prediktor ($\eta$) dan komponen acak ($\mu$) tidak mesti identitas, tetapi diperluas untuk suatu fungsi monoton dan diferensiabel , $g$, yaitu $\eta_{i}=g(\mu_{i})$. Fungsi $ g $ disebut fungsi link. atau link function.
Jadi dalam model linier tergeneralisir ada tiga komponen yang penting yaitu:
  1. komponen distribusi, yaitu $y$ berdistribusi keluarga eksponensial;
  2. komponen prediktor linier, yaitu $\eta =\mathbf{ x^{T}\beta;}$
  3. fungsi link yaitu fungsi monoton dan diferensiabel $g$ sehingga $g(\mu)=\eta$ atau dalam bentuk yang lebih lengkap, $$g(\mu_i)=g[E(Y_i)]=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\cdots+ \beta_pX_{ip}.$$ Adanya fungsi link memungkinkan prediktor linier memiliki daerah rentang seluruh bilangan riil ($ -\infty< x <\infty)$ tetapi respon $y$ memiliki rentang tertentu (misalnya $ 0 < y < 1 $ untuk binomial; dan bilangan cacah untuk respon hasil pencacahan, atau count data).

Distribusi Keluarga Eksponensial

Suatu peubah acak $Y$ dengan fungsi kepadatan probabilitas (f.k.p.) $f$ dan parameter $\theta$ dikatakan menjadi anggota distribusi keluarga eksponensial, jika $f$ dapat dinyatakan sebagai: \begin{equation} f(y;\theta)=\exp[a(y)b(\theta)+c(\theta)+d(y)]. \label{eq:gf1} \end{equation} Pada (\ref{eq:gf1}) $s(y)=\exp (d(y)); t(\theta)=\exp (c(\theta))$. Dalam beberapa kasus fungsi $a,b,c $ dan $d\,$ mungkin mengandung parameter lain yang disebut parameter nuisan/ gangguan Dobson [hal 22-23] yang pada umumnya tidak menjadi perhatian utama dan sering dianggap sebagai parameter yang telah diketahui (tidak perlu diestimasi). McCullagh dan Nelder dalam mendefinisikan distribusi keluarga eksponensial dengan parameter gangguan yang eksplisit, $\phi$. Dalam keadaan khusus $a(y)=y$, maka(\ref{eq:gf1}) menjadi: \begin{equation} f(y)=\exp[yb(\theta)+c(\theta)+d(y)] \label{eq:gfc} \end{equation} dan (\ref{eq:gfc}) disebut bentuk kanonik dari distribusi keluarga eksponensial dan $b(\theta)$ disebut parameter natural dari distribusinya.

Distribusi Binomial dengan Parameter $n,p$

Distribusi Binomial juga termasuk anggota keluarga eksponensial. Distribusi Binomial dengan parameter $n,p$ mempunyai fungsi kepadatan \begin{align*} f(y)& = \binom{n}{y} p^y (1-p)^{n-y};\;y=0,1,2,\ldots,n \\ & =\exp\left[ y\log p + (n-y) \log(1-p) + \log \binom{n}{y} \right]\\ &=\exp\left[ y\log \left(\frac{p}{1-p}\right) + n \log(1-p) + \log \binom{n}{y} \right]\\ &=\exp\left[ y\text{logit } p + n \log(1-p) + \log \binom{n}{y} \right] \end{align*} Dengan \[\text{logit } p = \log \left(\frac{p}{1-p}\right)\] Jadi $b(\theta)=\text{logit } p; c(\theta) = n\log(1-p)$. Dengan mencari turunan pertama dan kedua masing-masing $b(\theta)$ dan $c(\theta)$ diperoleh \[E(Y)=np \text{ dan } Var(Y)=np(1-p) \] Dalam prakteknya distribusi Binomial $(n,p)$ sering dimodifikasi menjadi distribusi Binomial $(1,\mu)$ dengan mentransformasi $x=y/n;\; x=0,\ldots, 1$ sehingga mempunyai nilai-tengah $\mu_X=\mu$ dan ragam Var$(X)=\sigma_X^2=\mu(1-\mu)$.

Distribusi Poisson dengan Parameter $\theta$

Peubah acak $Y$ yang berdistribusi Poisson mempunyai fungsi kepadatan probabilitas \begin{eqnarray} f(y) & = & \frac{\theta^{y} e^{- \theta}}{y!},\;\;\; y=0,1,2,3,\cdots \nonumber \\ & = & \exp [y \log \theta - \theta - \log y!]. \label{eq:p} \end{eqnarray} Pada persamaan (\ref{eq:p}) $b(\theta)= \log \theta,\; c(\theta)=-\theta,\;d(y)=- \log y\!. $ Dengan demikian $E[Y]=\theta$ dan Var[$Y]=\theta.$

Distribusi Normal dengan Parameter $ \theta $ dan $\sigma$

Bentuk fungsi kepadatan probabilitas dari peubah acak $Y$ yang berdistribusi Normal/Gaussian adalah \begin{align} f(y) & = \frac{1}{\sqrt{2\pi}\sigma} \exp \left(- \frac{1}{2} \left( \frac{y-\theta}{\sigma}\right)^{2}\right),\; \;-\infty < y < \infty\nonumber \\ &= \exp \left( -\frac{y^{2}}{2\sigma^{2}} + \frac{y\theta}{\sigma^{2}} - \frac{\theta^{2}}{2\sigma^{2}} - \frac{1}{2} \log (2\pi\sigma^{2})\right).\label{eq:n} \end{align} Pada persamaan (\ref{eq:n}) $$b(\theta)=\theta/\sigma^{2},\, d(y) = y^{2}/(2\sigma^{2})\nonumber$$ dan $c(\theta)=-\theta^{2}/(2\sigma^{2})-\frac{1}{2} \log (2\pi\sigma^{2}).$ Di sini $\sigma\,$ adalah parameter nuisan. Jadi, $E[Y] = \theta $ dan Var$[Y] =\sigma^{2}$.

Distribusi Gamma dengan parameters $\theta $ dan skala $\phi$.

Peubah acak $Y$ yang berdistribusi Gamma mempunyai fungsi kepadatan probabilitas \begin{eqnarray} f(y) &=& \frac{\theta (y \theta)^{\phi-1} e^{-y\theta}}{\Gamma(\phi)},\, \;y>0,\nonumber \\ &=& \exp[-y\theta + (\phi-1)\log y + \phi \log \theta - \log \Gamma(\phi)].\label{eq:gm3} \end{eqnarray} Pada persamaan (\ref{eq:gm3}) $b(\theta)=-\theta,\, a(y)=y,\,c(\theta)=\phi \log\theta-\log \Gamma(\phi),\, d(y)=(\phi-1) \log y.$ Maka, $E[Y]= \phi/\theta$, Var[$Y]=\phi/\theta^{2}$. Di sini $\phi$ adalah parameter nuisan.

Fungsi Link

Diantara fungsi- fungsi link yang dapat digunakan, ada yang disebut fungsi link kanonik yaitu fungsi hubungan yang terjadi pada saat $b(\theta)=\eta=\sum_{j=0}^p \beta_jx_j$. Untuk distribusi binomial misalnya fungsi yang bisa dipakai adalah:
  1. fungsi logit, yang nerupakan fungsi link kanonik yaitu \[\eta=\log \left(\frac{\mu}{1-\mu}\right);\]
  2. fungsi probit, yaitu \[\eta = \Phi^{-1}(\mu);\] dimana $\Phi$ adalah fungsi kumulatif dari distribusi Normal, yaitu \[\Phi(x)=\int_{-\infty} ^x \frac{1}{\sqrt{2\pi}}\exp\left[-\frac{1}{2}z^2\right] dz;\] dan
  3. komplementari $\log-\log$, yaitu \[\eta=\log [-\log (1-\mu)].\]

Variabel Kualitatif pada Variabel Penjelas

Misalkan selain mengandung peubah penjelas yang merupakan peubah kualitatif (kelompok) dengan dua tingkat (misalnya L=Laki-laki dan P=perempuan), data juga mengandung variabel respon (Y1,Y2,Y3,...) yang tidak semuanya bersebaran Gaussian (misalnya ada yang biner, ordinal, ataupun kontinu yang centerung tidak simetris). Pertanyaan mendasar dari data seperti ini adalah, apakah penyebaran data antara kelompok yang satu (L) berbeda dengan kelompok yang lain (P). Apakah garis regresi penduga data cukup diwakili satu garis atau dua garis yang berbeda. Selain itu, sebaran apa yang paling pas untuk jenis respon yang dipelajari.

Tabel 1. Contoh Data dengan Berbagai Skala Variabel Respon dan variabel Kualitatif (G)
Subjek X Y1 Y2 Y3 G
1 10 20 2 S1 L
2 30 25 3 S1 P
3 10 20 4 S2 L
4 10 20 0 S2 P
... ... ... ... ... ...

G dalam prakteknya bisa merupakan salah satu pengelompokan yang bersifat kasat mata (hard group), seperti: Jenis Kelamin, Sekolah, Lokasi asal, Perusahan Retailer, Jenis Operasi (24 jam/ tidak) dan lain-lain. Ada kalanya kita perlu mengelompokkan berdasarkan keseluruhan karakter subjek penelitian dengan menggunakan analisis klaster. Pengelompokkan dengan pengklasteran bisa disebut soft group karena bersifat laten. Ada empat kemungkinan sebaran data (X,Y) jika dipisahkan berdasarkan kelompok (G), yaitu:
  1. kedua kelompok menyebar sama sehingga tidak perlu dibedakan antara kelompok satu dengan yang lain sehingga cenderung membentuk satu garis lurus;
  2. kedua kelompok menyebar berbeda dengan kecenderungan memiliki kemiringan yang sama tetapi konstanta berbeda sehingga membentuk dua garis lurus sejajar ;
  3. kedua kelompok menyebar berbeda dengan kecenderungan memiliki kemiringan yang berbeda tetapi konstanta sama sehingga membentuk dua berkas garis. Dalam analisis statistika model ini dianggap sama dengan model berikutnya (yaitu dianggap sebagai model dengan garis berbeda);
  4. kedua kelompok menyebar berbeda dengan kecenderungan memiliki kemiringan maupun konstanta yang berbeda sehingga membentuk dua garis lurus berbeda ;
Sedangkan dilihat dari sebaran distribusi variabel responnya, ada 4(empat) kandidat yang penting, yaitu Binomial (biner), Poisson (cacahan), Gamma (Positif kontinu dan tidak simetris), dan Gaussian untuk (kontinu simetris). Selain itu jenis distribusi tertentu, juga cenderung membentuk hubungan tertentu (link) yang tidak selalu linier. Gabungan antara distribusi dan link ini dalam R disebut sebagai family.

Variabel Boneka Model Paralel

Untuk menangani data dengan variabel kualitatif, kita dapat menanganinya dengan memperkenalkan varibel boneka ( dummy variable). Misalkan $g$ adalah variabel kualitatif dengan $g_i=L$ atau $g_i=P$ . Kita dapat mendefinisikan vektor $\mathbf{D}$ dengan \begin{equation} D_{i}= \left\{\begin{array}{cl} 1& \text{ jika } g_i=L \\ 0& \text{ untuk yang lain} \end{array}\right. \end{equation} Dengan demikian bentuk model antara $Y_i$ dengan variabel-variabel lainnya dapat dituliskan sebagai \begin{equation} Y_i=\beta_0+\beta_1X_1+\beta_2D_i+\epsilon_i \end{equation} Jika diteliti lebih jauh, maka model untuk kelompok $L$ dan kelompok $P$, masing masing adalah: \begin{align} L:Y_i& =\beta_0+\beta_1X_i+\beta_2+\epsilon_i\nonumber \\ &= (\beta_0+\beta_2)+ \beta_1X_1 \\ P:Y_i& =\beta_0+\beta_1X_1+\epsilon_i \end{align} Dengan demikian pengenalan variabel boneka $D$ di atas menunjukkan:
  1. model yang diperiksa adalah model linier paralel yaitu model dengan konstanta berbeda ($\beta_0$ dan $\beta_0+\beta_2$) tetapi gradien sama ($\beta_1$);
  2. $\beta_2$ adalah parameter yang menentukan apakah model untuk kedua kelompok perlu dibedakan konstantanya
Secara formal uji hipotesis $\beta_2$ adalah
  1. $H_0$: $\beta_2$=0 (menunjukkan model untuk kedua kelompok sama)
  2. $H_A$: $\beta_2\neq 0$ (menunjukkan model untuk kedua kelompok berbeda)

Model dengan Interaksi

Apabila kita ingin memeriksa apakah selain konstantanya gradiennya juga berbeda, kita perlu memperkenalkan peubah boneka lain yang mewakili adanya interaksi antara peubah $X$ dengan $g$. Misalkan kita definisikan vektor $D_X$ dengan \begin{equation} D_{Xi}= D_i*X_i \end{equation} Dengan demikian bentuk model antara $Y_i$ dengan variabel-variabel lainnya dapat dituliskan sebagai \begin{equation} Y_i=\beta_0+\beta_1X_1+\beta_2D_i+\beta_3D_{Xi}+\epsilon_i \end{equation} Jika diteliti lebih jauh, maka sekarang model untuk kelompok $L$ dan kelompok $P$, masing masing adalah: \begin{align} L:Y_i& =\beta_0+\beta_1X_i+\beta_2+\beta_3X_i+\epsilon_i\nonumber \\ &= (\beta_0+\beta_2)+ (\beta_1+\beta_3) X_1 \\ P:Y_i& =\beta_0+\beta_1X_1+\epsilon_i \end{align} Jadi signifikan tidaknya $\beta_2$ menentukan perlu tidaknya model dengan konstanta berbeda, sedangkan signifikan tidaknya $\beta_3$ menentukan perlu tidaknya model dengan gradien berbeda untuk kedua kelompok yang ada. \begin{equation} D_{i}= \left\{\begin{array}{cl} 1& \text{ jika } g_i=L \\ 0& \text{ untuk yang lain} \end{array}\right. \end{equation}

Variabel Boneka dengan Konstanta Implisit

Dalam model dengan variabel dummy (boneka), terutama dengan aplikasi menggunakan komputer, dalam hal tertentu, kita merlukan model dengan konstanta implisit. Pada hasil komputer model ini memungkinkan perhitungan koefisien masing-masing kelompok justru menjadi lebih eksplisit. Paling tidak ada dua kondisi kenapa model ini bermanfaat yaitu:
  1. secara teoritik pada saat nilai peubah penjelas nol, nilai respon juga nol;
  2. untuk model dengan peubah kualitatif (kelompok), model ini memudahkan interpretasi konstanta masing- masing kelompok.
Untuk model dengan variebel kualitatif dengan konstanta implisit, definisi peubah boneka harus dibuat secara terpisah untuk masing- masing kelompok seperti berikut:
  1. diperlukan $k$ variabel boneka untuk satu peubah kualitatif dengan tingkat kelompok sebanyak $k$;
  2. untuk peubah kualitatif $g$ dengan dua tingkat $P,L$, maka perlu didefinisikan dua peubah boneka misalnya $D_L$ dan $D_P$ dengan \begin{align*} D_{Li} & = \left\{\begin{array}{cl} 1& \text{ jika } g_i=L \\ 0& \text{ untuk yang lain} \end{array}\right. \\ D_{Pi} & = \left\{\begin{array}{cl} 1& \text{ jika } g_i=P \\ 0& \text{ untuk yang lain} \end{array}\right. \end{align*} Sedangkan bentuk modelnya akan menjadi \begin{equation} Y_i=\beta_2D_{Li}+\beta_3D_{Pi}+\beta_1X_1+\epsilon_i \end{equation} Jika diteliti lebih jauh, maka model untuk kelompok $L$ dan kelompok $P$, masing- masing adalah: \begin{align*} L:Y_i& =\beta_2+ \beta_1X_i+\epsilon_i\nonumber \\ P:Y_i& =\beta_3 + \beta_1X_1+\epsilon_i \end{align*} Jadi konstanta untuk kelompok $L$ adalah $\beta_2$ dan konstanta untuk kelompok $P$ adalah $\beta_3.$

Kecocokan model

Kecocokan model dapat dilihat dari nilai R-square, $R^2$, semakin besar nilainya (mendekati 1), semakin baik kecocokan modelnya. $$R^2= \frac{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2-\sum_{i=1}^N \left(y_i-\hat{y}\right)^2} {\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2}.$$ (Lihat Mendenhall 1993). Jadi $R^2$ ekuivalen dengan rasio penurunan jumlah kuadrat dari model yang digunakan terhadap jumlah kuadrat deviasi terhadap rata-rata $\hat{y}$. Semakin besar $R^2$ berarti semakin kecil simpangan data terhadap garis regresi model. Secara ekstrim $R^2=1$ menunjukkan bahwa simpangan nilai observasi dengan nilai estimasi sama dengan 0 dan model menjadi sempurna yaitu tidak ada data yang menyimpang dari (berada di luar) garis regresi. Dengan kata lain semakin besar $R^2,$ semakin kecil selisih nilai observasi dengan nilai rata-rata regresi yang berarti semakin besar manfaat garis regresi dalam menjelaskan hubungan antara prediktor dan respon. Pemeriksaan model dapat juga dilakukan dengan menggunakan kriteria informasi Akaike (AIC}) yang menghitung perimbangan antara besarnya likelihood dengan banyaknya variabel dalam model. Besarnya AIC dihitung melalui rumus berikut $$ AIC=-2l(\boldsymbol{\hat{\theta}}) + 2q, $$ dengan $l(\boldsymbol{\hat{\theta}})$ adalah nilai likelihood dari model yang dihadapi dan $q$ adalah banyaknya parameter dalam model. Secara umum, semakin kecil nilai AIC model yang dipakai semakin cocok. Model yang dianggap terbaik adalah model dengan nilai AIC minimum. Namun demikian, dengan pertimbangan aspek lain, perbedaan AIC yang tidak terlalu besar mungkin dapat diabaikan. Untuk pembahasan lebih mendalam tentang AIC dapat dilihat pada Akaike (1972) Chamber & Hastie (1993) dan Venables & Ripley(1996)

Metode

  1. Mengeksplorasi data untuk menentukan variabel-variabe yang berhubungan secara linier, termasuk dengan variabel kualitatif
  2. Menymak hasil GOF hasil analisis untuk melihat adanya keganjilan dan perlunya mengeksplorasi model yang lebih baik
  3. Memeriksa alternatif-alternatif model
  4. Menentukan model yang dianggap terbaik
  5. Menarik kesimpulan analisis berdasarkan model terbaik

Ilustrasi dengan R

Sintaks untuk melakukan analisis regresi linier sederhana adalah dengan fungsi glm() atau glm2()
glm(y~x, family=...)
glm(y~x*g, family=...)
glm(y~x+g, family=...)
glm(y~g/x, family=...)
glm(y~x+g-1, family=...)
glm(y~g/x-1, family=...)
AIC(glm(...))
...
glm2(y~x, family=...)
glm2(y~x*g, family=...)
...

Eksplorasi Data

Pada bagian ini disajikan secara naratif data langkah pemeriksaan asumsi dan pemeriksaan dan pemeriksaan beberapauji GOF model seperti teori yang disampaikan sebelumnya. Anda dapat mengaktifkan data dalam databse atau impor data anda sendiri untuk bahan analisis/ ilustrasi.

Pilihan Data

Khusus untuk Import Data, cari file:
Header: , Pemisah: , Kutipan:
Luaran 1. Data Aktif


  
Dari summary data yang ada, kita bisa menentukan variabel-variabel (kuantitatif) yang akan dijadikan variabel bebas (eksplanatori) dan variabel terikat (respond). Sebelum menentukan variabel bebas dan terikat (respon), kita dapat juga membuat matriks korelasi untuk mendeteksi variabel-variabel yang terindikasi memiliki hubungan. Hasil matriks korelasi dan matriks diagram pencarnya adalah sebagai berikut. Untuk variabel respon pada GLM anda bisa menggunakan baik variabel kualitatif maupun kuantitatif dengan pilihan distribusi yang sesuai.

Eksplorasi Grafik Matriks Diagram Pencar

Selain melihat matriks korelasi, kita juga bisa melihat matriks diagram pencar untuk mendapatkan gambaran variabel-variabel yang terindikasi memiliki hubungan linier.

scatterplotMatrix(~x1+x2+...,  reg.line=lm,
            diagonal=c("density", "boxplot", "histogram", "oned", "qqplot", "none"),
            smooth=FALSE/TRUE,data=..., by.groups=TRUE/FALSE)
Untuk mendapatkan gambaran variabel-varabel yang berhubungan, dapat dihitung matriks korelasi ataupun matriks diagram pencar dari (minimal 2) variabel kuantitatif/numerik.

Matriks Korelasi

Matriks korelasi dari variabel-variabel kuantitatif

Luaran 2. Matriks Korelasi

Kelompok dari Klaster K-Means

Jika pengelompokan real yang ada, dirasa tidak cukup bisa menjelaskan indikasi heterogenitas pada data, kita dapat memeriksa pengelompokan dengan menggunakan analisis klaster, salah satunya yang paling sederhana adalah K-Means. Pembahasan lebih rinci tentang analisis klaster dapat dilihat pada Tirta (2015), E-Modul: KLaster Validasi dengan ClValid. Untuk membuat data $x$ menjadi $k$ klaster degan K-Means sintaksnya adalah.
#KMeans dari paket RcmdrMisc
KMeans(x,center=k)
Data juga miliki variabel kualitatif yang kasat mata. Kita juga bisa membuat pengelompokan berdasarkan hasil klastering data, misalnya menggunakan KMeans dengan ukuran klaster . Hasil klaster dengan KMeans adalah sebagai berikut


  

Matriks Diagram Pencar

Untuk mendapatkan gambaran variabel-bariabel yang berhubungan, selain matriks korelasi dapat juga dibuat matriks diagram pencar secara global, dari variabel-variabel terpilih di atas.
Gambar 1. Grafik Diaram Pencar dan Plot Diagonal
Pertanyaan: Apakah pengelompokkan berdasarkan variabel-variabel kualitatif yang ada, sesuai dengan indikasi heterogen dalam data? Apakah bisa menjelaskan adanya indikasi heterogenitas dalama data?

Pemilihan Variabel $X,Y$ dan Kelompok

Selanjutnya kita bisa memilih variabel-variabel untuk diperiksa dan dianalisis lebih lanjut
, , , Family:

Pemeriksaan Pengaruh Kelompok dengan Model Umum

Setelah memeriksa knormalan data, pemeriksaan diteruskan dengan memeriksa grafik pencaran dan dignostik model untuk melihat apakah asumsi kelinieran dan tidak adanya outlier bisa dianggap terpenuhi.

Eksplorasi Diagram Pencar dengan Kelompok

Dari matriks diagram pencar, kita dapat lebih menfokuskan pemeriksaan pada dua variabel yang diinginkan. Pengguna dapat memilih mengikutsertakan grafik garis regresi atau tidak. Untuk informasi lebih lengkap tentang pembuatan grafik pada R dapat dilihat pada Tirta (2015), E-Modul: Grafik dengan R .
Gambar 2. Grafik Diagram Pencar Garis Regresi (Khusus 2D)

Pemeriksaan dan Uji Kenormalan Residu

Grafik QQ-Plot dari variabel terikat/ respon adalah sebagai berikut
Gambar 2. QQ-Plot dari variabel Respon
Secara statistik hasi uji kenormalan menggunakan salah satu uji adalah sebagai berikut ini.

Luaran 3. Hasil Uji Kenormalan Variabel Respon


  

Pemilihan Model Final

Selanjutnya kita bisa memeriksa luaran analisis regresi untuk melihat signifikansi model, signifikansi masing-masing koefisien regresi $\boldsymbol{\beta}$ dan GOF yang ditunjukkan oleh nilai $R^2$.

Dari hasil di atas, maka model yang leboh eksplisit yang dianggap terbaik adalah

Luaran Analisis

Luaran 5. Hasil Uji Regresi Yang dianggap Terbaik

  

Ukuran Goodness of Fit

Nilai AIC dan BIC untuk model final spesifik adalah sebesar

ANAVA Regresi


Grafik Diagnostik Model

Gambar 3. Grafik Diagnostik Regresi.

Matriks Desain X

Dari model di atas, bentuk matriks desain yang dipakai adalah ( baris pertama)

Prediksi pada GLM

Dalam GLM, hubungan antara variabel eksplanatori dengan prediksi nila respon, terjadi lewat fungsi link, sehingga hubungan yang terjadi tidak selalu identitas. $$g[E(Y_i|X=x_{ij})]=\sum_{j=1}^p x_{ij} $$ R menyediakan fungsi predict() seberti berikut ini.
predict(objek.glm, newdata=..., type=c("link", "response")
  1. objek.glm adalah objek yang dihasilkan setelah menjalankan fungsi glm()
  2. newdata adalah nilai-nilai $x_{ij}$ sesuai format dataframe
  3. type="" adalah salah satu dat=ri berikut

Rangkuman

  1. Pertimbangan pengaruh variabel kualitatif (kelompok) dalam regresi, dapat dilakukan dengan mendefinisikan variabel boneka ( dummy)
  2. Pertimbangan pengaruh variabel kualitatif (kelompok) dalam regresi, akan menghasilkan salah satu model yaitu model paralel, interaksi, atau model tanpa variabel kualitatif (tidak ada pengaruh).
  3. Model terbaik dapat dilihat dari nilai AIC, atau BIC terkecil dan $R^2$ terbesar (terutama $R^2$ yang tersesuaikan)

Tugas

  1. Koefisien determinasi $R^2$ ada yang disebut tersesuaikan Adjusted-$R^2$, cari formula untuk jenis koefisien determinasi ini. Perhatikan angkanya dalam luaran R. Dapatkan anda mendeteksi perbedaan yang mencolok antara keduanya (tersesuaikan dan tidak), kapan terjadi? Dengan kata lain, kapan Adjusted-$R^2$ menjadi penting dipertimbangkan.
  2. Tentukan indikasi atau tanda-tanda perlunya mempertimbangkan variabel kualitatif dalam model regresi
  3. Dalam ilustrasi menggunakan komputer, untuk analisis regresi dengan kelompok, apa kelebihan dan kekurangan dari model dengan konstanta implisit dan model dengan konstanta eksplisit beri ilustrasi (terasuk bentuk dan memanfaatkan matriks desainnya)
  4. Tentukan dan beri contoh ilustrasi melakukan prediksi dengan menggunakan model regresi dengan variabel kelompok. Misalnya Seseorang (subjek/responden) mimiliki nilai $X$ tertentu $X=x1$ (silakan tentukan nilainya), dan dia berasal dari kelompok $g1$.
  5. Diharapkan juga mengeksplorasi format lain (Format analisis Data) dari topik GLM pada bagian berikut Eksplorasi Regresi (LM-GLM)

Sumber Bacaan Teori:

    [1] Tirta, IM 2009.[Bab 2 Model Linear Klasik] Analisis Regresi dengan R. UNEJ Press
    [2] Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. UNEJ Press
    [3] Wikipedia. Normality Test href="http://en.wikipedia.org/wiki/Normality_test [Akses 28 Oktober 2014]
    [4] Tirta, IM. 2015. E-Modul: Grafik dengan R. (Dokumen online, pada situs ini)
    [5] Tirta, IM. 2015. E-Modul: Regresi Dengan Dummy. (Dokumen online, pada situs ini)
Naskah ini dibuat dengan tujuan utama sebagai dokumen contoh (IMT).

Hit Counter
Hit Counter