UNEJ PONSTAT
Laboratorium Statistika, FMIPA Universitas Jember Jalan Kalimantan 27 Jember 68121
On Line Dynamic Statistics Module
Theori Model Linier Tergeneralisir (GLM) dengan Variabel Kualitatif (Dummy), Natural Spline dan B-Spline
Oleh I Made Tirta, Januari 2015, alamat: Laboratorium Statistika, Jurusan Matematika FMIPA UNiversitas Jember.
Hit Counter
Pendahuluan
Latar belakang
Dengan kemajuan komputer, peneliti dapat melakukan alternatif-alternatif analisis dan visualisasi dengan lebih cepat. Oleh karena itu, sekarang pengguna statistika tidak saja dituntut trampil mengaplikasikan
salah satu metode statistika, tetapi juga peka dalam melihat 'keganjilan' dan mengeksplorasi model
model alternatif yang lebih baik, sesuai kebutuhan. Dalam modul ini dibahas pemodelan regresi linier
yang mengandung variabel kelompok yang diakomodasi dengan mendefinisikan variabel boneka (dummy).
Pertanyaan mendasarnya adalah "Apakah keberadaan kelompok (pengelompokan), $G$ tersebut menyebabkan
terjadinya heterogenitas dalam hubungan $X$ degan $Y$ dengan kata lain, apakah $G$ berpengaruh terhadap hubungan (regresi) antara variabel $X$ dan $Y$.
Tujuan
Pada akhir kegiatan, mahasiswa diharapkan
-
dapat menyebutkan asumsi model linier terampat;
-
dapat menyebutkan komponen penting model linier terampat;
-
dapat melakukan analisis model linier terampat, khususnya model logit, probit loglinier sesuai kondisi data;
-
dapat memilih model terbaik dalam menggunakan analisis model linier terampat, khususnya model logit, probit loglinier sesuai kondisi data;
Bahasan
Materi yang dibahas dalam kegiatan ini adalah
-
Sekilas Model Linier Normal
-
Distribusi Keluarga Eksponensial
-
Asumsi dan Komponen Penting dalam GLM
-
Variabel kualitatif pada prediktor
-
Estimasi Parameter pada GLM
-
Pemilihan Model Terbaik
-
Eksplorasi Model secara Numerik (GOF, AIC, BIC)
-
Menentukan Model 'Terbaik'
-
Ilustrasi dengan R
-
Rangkuman
-
Daftar Pustaka
Regresi Linier Normal/Klasik
Misalkan hubungan antara
peubah respon ($Y_i$) dengan peubah tetap ($X_i$) untuk subjek
$i=1,2, ... n,$ ditentukan oleh
$$
\left.\begin{array}{cccc}
Y_1&=&\beta_0 + \beta_1 X_1+\epsilon_1& \\
\vdots & \vdots & \vdots& \\
Y_i&=&\beta_0 + \beta_1 X_i+\epsilon_i&\\
\vdots & \vdots & \vdots& \\
Y_n&=&\beta_0 + \beta_1 X_n+\epsilon_n &
\end{array}
\right\}
$$
dengan:
-
$X_i$ adalah peubah tetap yang
tidak bersifat acak (lebih lanjut diasumsikan $X_i$ diukur tanpa
kesalahan);
- $\epsilon_i$, yaitu komponen kesalahannya,
adalah berdistribusi identik dan independen normal dengan nilai-tengah 0
dan varian konstan (misalnya $\sigma^2$);
- kesalahan individu
satu dengan lainnya saling bebas, yaitu untuk $i \neq i^\prime$,
maka $\epsilon_i || \epsilon_{i^\prime}$ atau korelasi
$\epsilon_i$ dengan $\epsilon_{i^\prime}$ adalah 0.
Dari asumsi dapat ditentukan bahwa ekspektasi dari setiap
respon adalah
$$\mu_i=
E\left[Y_i|X_{i}\right]=\beta_0 + \beta_1 X_i
$$yang merupakan sebuah garis lurus yang kita sebut garis regresi
populasi. Sedangkan sebaran setiap pasangan $(X_i,Y_i)$ akan
berada pada atau sekitar garis tersebut sesuai dengan besarnya
$\epsilon_i$.
Dalam Model Linier
Tergeneralisir (MLT) atau Generalized Linear Models (GLM),
asumsi model lebih longgar dan digeneralisasikan dengan cara
berikut:
-
Asumsi (i) diperluas untuk memungkinkan $Y_{i}$ mempunyai distribusi
yang sama dan saling bebas dari distribusi keluarga
eksponensial.
-
Pada asumsi (iii) hubungan antara komponen prediktor ($\eta$)
dan komponen acak ($\mu$) tidak mesti identitas, tetapi diperluas
untuk suatu fungsi monoton dan diferensiabel , $g$,
yaitu $\eta_{i}=g(\mu_{i})$. Fungsi $ g $ disebut fungsi
link. atau link function.
Jadi dalam model linier tergeneralisir ada tiga komponen yang
penting yaitu:
-
komponen distribusi, yaitu $y$ berdistribusi keluarga eksponensial;
-
komponen prediktor linier, yaitu $\boldsymbol{\eta} =\mathbf{
x^{T}}\boldsymbol{\beta};$
-
fungsi link yaitu fungsi monoton dan diferensiabel
$g$ sehingga $g(\mu_i)=\eta_i$ atau dalam bentuk yang lebih lengkap,
$$g(\mu_i)=g[E(Y_i)]=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\cdots+
\beta_pX_{ip}.$$ Adanya fungsi link memungkinkan prediktor linier
memiliki daerah rentang seluruh bilangan riil ($ -\infty< x <\infty)$
tetapi respon $y$ memiliki rentang tertentu (misalnya $ 0 < y < 1 $ untuk binomial;
dan bilangan cacah untuk respon hasil pencacahan, atau count data).
Distribusi Keluarga Eksponensial
Suatu peubah acak $Y$ dengan fungsi kepadatan probabilitas
(f.k.p.) $f$ dan parameter $\theta$ dikatakan menjadi anggota
distribusi keluarga eksponensial, jika $f$ dapat dinyatakan sebagai: \begin{equation}
f(y;\theta)=\exp[a(y)b(\theta)+c(\theta)+d(y)]. \label{eq:gf1}
\end{equation}
Dalam beberapa kasus fungsi $a,b,c $ dan $d\,$
mungkin mengandung parameter lain yang disebut parameter
nuisan/ gangguan Dobson [hal
22-23] yang pada umumnya tidak menjadi perhatian utama dan
sering dianggap sebagai parameter yang telah diketahui (tidak
perlu diestimasi).
McCullagh dan
Nelder dalam
mendefinisikan distribusi keluarga
eksponensial dengan parameter
gangguan yang eksplisit, $\phi$.
Dalam keadaan khusus $a(y)=y$, maka (\ref{eq:gf1}) menjadi:
\begin{equation}
f(y)=\exp[yb(\theta)+c(\theta)+d(y)] \label{eq:gfc}
\end{equation} dan (\ref{eq:gfc}) disebut bentuk
kanonik dari distribusi keluarga
eksponensial dan $b(\theta)$ disebut parameter natural
dari distribusinya.
Distribusi Binomial dengan Parameter $n,p$
Distribusi Binomial juga
termasuk anggota keluarga eksponensial. Distribusi
Binomial dengan parameter $n,p$ mempunyai fungsi kepadatan
\begin{align*}
f(y)& = \binom{n}{y} p^y (1-p)^{n-y};\;y=0,1,2,\ldots,n \\
& =\exp\left[ y\log p + (n-y) \log(1-p) + \log \binom{n}{y} \right]\\
&=\exp\left[ y\log \left(\frac{p}{1-p}\right) + n \log(1-p) + \log \binom{n}{y} \right]\\
&=\exp\left[ y\text{logit } p + n \log(1-p) + \log \binom{n}{y} \right]
\end{align*}
Dengan
\[\text{logit } p = \log \left(\frac{p}{1-p}\right)\]
Jadi $b(\theta)=\text{logit } p; c(\theta) = n\log(1-p)$. Dengan mencari turunan pertama dan
kedua masing-masing $b(\theta)$ dan $c(\theta)$ diperoleh
\[E(Y)=np \text{ dan } Var(Y)=np(1-p) \]
Dalam prakteknya distribusi Binomial $(n,p)$ sering dimodifikasi menjadi
distribusi Binomial $(1,\mu)$ dengan mentransformasi $x=y/n;\; x=0,\ldots, 1$ sehingga
mempunyai nilai-tengah $\mu_X=\mu$ dan ragam Var$(X)=\sigma_X^2=\mu(1-\mu)$.
Distribusi Poisson
dengan Parameter $\theta$
Peubah acak $Y$ yang berdistribusi
Poisson mempunyai fungsi
kepadatan probabilitas
\begin{eqnarray}
f(y) & = & \frac{\theta^{y} e^{- \theta}}{y!},\;\;\;
y=0,1,2,3,\cdots \nonumber \\
& = & \exp [y \log \theta - \theta - \log y!]. \label{eq:p}
\end{eqnarray}
Pada persamaan (\ref{eq:p}) $b(\theta)= \log \theta,\;
c(\theta)=-\theta,\;d(y)=- \log y\!. $
Dengan demikian $E[Y]=\theta$ dan Var[$Y]=\theta.$
Distribusi Normal dengan Parameter $ \theta $ dan
$\sigma$
Bentuk fungsi kepadata\ointn probabilitas dari peubah acak $Y$ yang
berdistribusi Normal/Gaussian adalah
\begin{align}
f(y) & = \frac{1}{\sqrt{2\pi}\sigma} \exp \left(- \frac{1}{2}
\left( \frac{y-\theta}{\sigma}\right)^{2}\right),\; \;-\infty < y < \infty\nonumber \\
&= \exp \left( -\frac{y^{2}}{2\sigma^{2}} + \frac{y\theta}{\sigma^{2}} -
\frac{\theta^{2}}{2\sigma^{2}} - \frac{1}{2} \log (2\pi\sigma^{2})\right).\label{eq:n}
\end{align}
Pada persamaan (\ref{eq:n}) $$b(\theta)=\theta/\sigma^{2},\, d(y)
= y^{2}/(2\sigma^{2})\nonumber$$
dan $c(\theta)=-\theta^{2}/(2\sigma^{2})-\frac{1}{2} \log (2\pi\sigma^{2}).$
Di sini $\sigma\,$ adalah parameter nuisan.
Jadi,
$E[Y] = \theta $ dan Var$[Y] =\sigma^{2}$.
Distribusi Gamma dengan parameters $\theta $ dan
skala $\phi$.
Peubah acak $Y$ yang berdistribusi
Gamma mempunyai fungsi kepadatan
probabilitas
\begin{eqnarray}
f(y) &=& \frac{\theta (y \theta)^{\phi-1} e^{-y\theta}}{\Gamma(\phi)},\,
\;y>0,\nonumber \\
&=& \exp[-y\theta + (\phi-1)\log y + \phi \log \theta - \log \Gamma(\phi)].\label{eq:gm3}
\end{eqnarray}
Pada persamaan (\ref{eq:gm3}) $b(\theta)=-\theta,\, a(y)=y,\,c(\theta)=\phi \log\theta-\log
\Gamma(\phi),\, d(y)=(\phi-1) \log y.$ Maka, $E[Y]= \phi/\theta$,
Var[$Y]=\phi/\theta^{2}$. Di sini $\phi$ adalah parameter nuisan.
Karakteristik anggota keluarga eksponensial
Sebaran anggota keluarga eksponensial seperti dibicarakan di atas, masing-masing memiliki karakteristik khusus
sepetrti berikut.
-
Sebaran Gausian memiliki karakteristik
a. Sekala kontinu dengan rentang $ - \infty < y < \infty $
c. Varians tidak bergantung mean (varians konstan)
-
Sebaran Gamma memiliki karakteristik
a. Sekala kontinu dengan rentang $ 0 < y < \infty $
c. Varians berhubungan kuadratik dengan mean $\sigma=\phi \mu^2$
-
Sebaran Poisson memiliki karakteristik
a. Sekala diskrit dengan rentang $ 0 \leq y < \infty, y=0,1,2,\cdots $
c. Varians berhubungan linear dengan mean $\sigma=\phi \mu$
-
Sebaran Bernoulli (Binomial dengan $n=1$) memiliki karakteristik
a. Sekala diskrit dengan rentang biner $ y=0,1 $
b. kesimetrisan tergantung nilai $p$
Fungsi Link
Dengan sebaran data respons yang tidak selalu mengikuti sebaran Gaussian, berarti rentang data
juga tidak selelu dalam rentang seluruh bilangan real. Misalnya rentang data positif kontinu,
cacahan atau hanya biner. Semetara itu kombinasi linier dari prediktor, yang biasa disebut sebagai
prediktor linear, $\eta=\sum_{ij=0}^p x_{ij}\beta_j$ terbuka untuk mengambil nilai sembarang bilangan real. Untuk itu diperlukan sebuah fungsi yang menghubungkan dan sekaligus mensinkoronkan
antara respon dengan prediktor linier. Fungsi ini disebut fungsi penghubung (link function).
Dengan demikian fungsi link sekaligus berfungsi untuk menjaga linieritas agar prediktor tetap linier dan normalitas agar ruang rentang antar prediktor linier dan $y$ atau $\mu_y$ tetap sinkron.
Diantara fungsi- fungsi link yang dapat digunakan, ada yang disebut
fungsi link kanonik yaitu fungsi hubungan yang
terjadi pada saat $b(\theta)=\eta=\sum_{j=0}^p \beta_jx_j$.
-
Untuk distribusi binomial misalnya fungsi yang bisa dipakai adalah:
a. fungsi logit, yang nerupakan fungsi link kanonik
yaitu \[\eta=\log \left(\frac{\mu}{1-\mu}\right);\]
b. fungsi probit, yaitu \[\eta = \Phi^{-1}(\mu);\]
dimana $\Phi$ adalah fungsi kumulatif dari distribusi Normal, yaitu
\[\Phi(x)=\int_{-\infty} ^x \frac{1}{\sqrt{2\pi}}\exp\left[-\frac{1}{2}z^2\right] dz;\]
dan
c. komplementari $\log-\log$, yaitu \[\eta=\log [-\log (1-\mu)].\]
-
Untuk sebaran Gaussian fungsi link kanonik adalah identitas $\mu_i=\eta_i$
-
Untuk sebaran Gamma fungsi link kanonik resiprokal log $\frac{1}{(\mu_i)}=\eta_i$ tetapi link log juga sering
dipakai $\log(\mu_i)=\eta_i$
-
Untuk sebaran Poisson fungsi link kanonik adalah log $\log(\mu_i)=\eta_i$
Asumsi dan Komponen GLM
Model linear terampat memiliki beberapa asumsi penting, yaitu, untuk $i=1,2,...,n$ memiliki:
-
Respon $y_i$ atau galat $\epsilon$ memiliki sebaran keluarga eksponensial
-
Prediktor merupakan kombinasi linier dari beberapa $x$ yang dianggapa tidak bersifat acak.
Prediktor ini disebut prediktor linear $$\eta_i=\sum_{j}^p x_{ij}\beta_j$$
-
Ada fungsi link $g$ yang monoton dan differentiable yang
menentukan hubungan antara mean dengan prediktor linier seperi berikut
$$g(\mu_i)=\eta_i$$
Dalam prakteknya pilihan sebaran sering menjadi satu kesatuan dengan pilihan link, karena keduanya
saling berkaitan. Terutama sebaran Binomial memiliki link khas yang hanya berlaku untuk sebaran terseut
saja.
Variabel Kualitatif pada Variabel Penjelas
Misalkan selain mengandung peubah penjelas yang merupakan peubah
kualitatif (kelompok) dengan dua tingkat (misalnya L=Laki-laki dan P=perempuan), data juga mengandung
variabel respon $(Y_1,Y_2,Y_3,...)$ yang tidak semuanya bersebaran Gaussian (misalnya ada yang biner, ordinal,
ataupun kontinu yang centerung tidak simetris).
Pertanyaan mendasar dari data seperti ini adalah, apakah penyebaran
data antara kelompok yang satu (L) berbeda dengan kelompok yang lain (P).
Apakah garis regresi penduga data cukup diwakili satu garis atau dua garis
yang berbeda. Selain itu, sebaran apa yang paling pas untuk jenis respon yang dipelajari.
Tabel 1. Contoh Data dengan Berbagai Skala Variabel Respon dan variabel Kualitatif (G)
Subjek |
X |
Y1 |
Y2 |
Y3 |
G |
1 |
10 |
20 |
2 |
0 |
L |
2 |
30 |
25 |
3 |
0 |
P |
3 |
10 |
20 |
4 |
1 |
L |
4 |
10 |
20 |
0 |
1 |
P |
... |
... |
... |
... |
... |
... |
Pada tabel di atas, $X$ dan $Y_1$ mempunyai skala kontinu (interval), $Y_2$ merupakan variabel cacahan (diskrit), sedangkan $Y_3$
mempunyai skala biner (dikotomi). Variabel $G$ merupakan variabel kualitatif (faktor).
$G$ dalam prakteknya bisa merupakan salah satu pengelompokan yang bersifat kasat mata (hard group),
seperti: Jenis Kelamin, Sekolah, Lokasi asal, Perusahan Retailer, Jenis Operasi (24 jam/ tidak) dan lain-lain.
Ada kalanya kita perlu mengelompokkan berdasarkan keseluruhan karakter subjek penelitian dengan menggunakan
analisis klaster. Pengelompokkan dengan pengklasteran bisa disebut soft group karena bersifat laten.
Ada empat kemungkinan sebaran data (X,Y) jika dipisahkan berdasarkan kelompok (G), yaitu:
- kedua kelompok menyebar sama sehingga tidak perlu dibedakan
antara kelompok satu dengan yang lain sehingga cenderung membentuk satu garis lurus;
-
kedua kelompok menyebar berbeda dengan kecenderungan memiliki
kemiringan yang sama tetapi konstanta berbeda sehingga membentuk dua garis lurus sejajar ;
-
kedua kelompok menyebar berbeda dengan kecenderungan memiliki
kemiringan yang berbeda tetapi konstanta sama sehingga membentuk dua berkas garis. Dalam analisis statistika model ini dianggap sama dengan model berikutnya (yaitu dianggap sebagai model dengan garis berbeda);
-
kedua kelompok menyebar berbeda dengan kecenderungan memiliki
kemiringan maupun konstanta yang berbeda sehingga membentuk dua garis lurus berbeda ;
Sedangkan dilihat dari sebaran distribusi variabel responnya, ada 4(empat) kandidat yang penting, yaitu
Binomial (biner), Poisson (cacahan), Gamma (Positif kontinu dan tidak simetris), dan Gaussian untuk (kontinu simetris). Selain itu jenis distribusi tertentu, juga cenderung membentuk hubungan tertentu (link) yang tidak selalu linier. Gabungan antara distribusi dan link ini dalam R disebut sebagai family.
Variabel Boneka Model Paralel
Untuk menangani data dengan variabel kualitatif, kita dapat menanganinya
dengan memperkenalkan varibel boneka ( dummy variable).
Misalkan $g$ adalah variabel
kualitatif dengan $g_i=L$ atau $g_i=P$ . Kita dapat mendefinisikan
vektor $\mathbf{D}$ dengan
\begin{equation}
D_{i}= \left\{\begin{array}{cl}
1& \text{ jika } g_i=L \\
0& \text{ untuk yang lain}
\end{array}\right.
\end{equation}
Dengan demikian bentuk model antara $Y_i$ dengan variabel-variabel
lainnya dapat dituliskan sebagai
\begin{equation}
Y_i=\beta_0+\beta_1X_1+\beta_2D_i+\epsilon_i
\end{equation}
Jika diteliti lebih jauh, maka model untuk kelompok $L$ dan kelompok $P$,
masing masing adalah:
\begin{align}
L:Y_i& =\beta_0+\beta_1X_i+\beta_2+\epsilon_i\nonumber \\
&= (\beta_0+\beta_2)+ \beta_1X_1 \\
P:Y_i& =\beta_0+\beta_1X_1+\epsilon_i
\end{align}
Dengan demikian pengenalan variabel boneka $D$ di atas menunjukkan:
- model yang diperiksa adalah model linier paralel yaitu model dengan konstanta berbeda
($\beta_0$ dan $\beta_0+\beta_2$) tetapi gradien sama ($\beta_1$);
-
$\beta_2$ adalah parameter yang menentukan apakah
model untuk kedua kelompok perlu dibedakan konstantanya
Secara formal uji hipotesis $\beta_2$ adalah
- $H_0$: $\beta_2$=0 (menunjukkan model untuk kedua kelompok sama)
-
$H_A$: $\beta_2\neq 0$ (menunjukkan model untuk kedua kelompok berbeda)
Model dengan Interaksi
Apabila kita ingin memeriksa apakah selain konstantanya gradiennya juga berbeda,
kita perlu memperkenalkan peubah boneka lain yang mewakili adanya interaksi antara
peubah $X$ dengan $g$. Misalkan kita definisikan vektor
$D_X$ dengan
\begin{equation}
D_{Xi}= D_i*X_i
\end{equation}
Dengan demikian bentuk model antara $Y_i$ dengan variabel-variabel
lainnya dapat dituliskan sebagai
\begin{equation}
Y_i=\beta_0+\beta_1X_1+\beta_2D_i+\beta_3D_{Xi}+\epsilon_i
\end{equation}
Jika diteliti lebih jauh, maka sekarang model untuk kelompok $L$ dan kelompok $P$,
masing masing adalah:
\begin{align}
L:Y_i& =\beta_0+\beta_1X_i+\beta_2+\beta_3X_i+\epsilon_i\nonumber \\
&= (\beta_0+\beta_2)+ (\beta_1+\beta_3) X_1 \\
P:Y_i& =\beta_0+\beta_1X_1+\epsilon_i
\end{align}
Jadi signifikan tidaknya $\beta_2$ menentukan perlu tidaknya model dengan konstanta berbeda,
sedangkan signifikan tidaknya $\beta_3$ menentukan perlu tidaknya model dengan gradien
berbeda untuk kedua kelompok yang ada.
\begin{equation}
D_{i}= \left\{\begin{array}{cl}
1& \text{ jika } g_i=L \\
0& \text{ untuk yang lain}
\end{array}\right.
\end{equation}
Variabel Boneka dengan Konstanta Implisit
Dalam model dengan variabel dummy (boneka), terutama dengan aplikasi menggunakan komputer,
dalam hal tertentu, kita merlukan model dengan konstanta implisit.
Pada hasil komputer model ini memungkinkan perhitungan koefisien masing-masing kelompok justru menjadi
lebih eksplisit. Paling tidak ada dua kondisi kenapa model ini
bermanfaat yaitu:
-
secara teoritik pada saat nilai peubah penjelas nol, nilai
respon juga nol;
-
untuk model dengan peubah kualitatif (kelompok), model ini
memudahkan interpretasi konstanta masing- masing kelompok.
Untuk model dengan variebel kualitatif dengan konstanta implisit,
definisi peubah boneka harus dibuat secara
terpisah untuk masing- masing kelompok seperti berikut:
-
diperlukan $k$ variabel boneka untuk satu peubah
kualitatif dengan tingkat kelompok sebanyak $k$;
-
untuk peubah kualitatif $g$ dengan dua tingkat $P,L$, maka
perlu didefinisikan dua peubah boneka misalnya $D_L$ dan $D_P$ dengan
\begin{align*}
D_{Li} & = \left\{\begin{array}{cl}
1& \text{ jika } g_i=L \\
0& \text{ untuk yang lain}
\end{array}\right. \\
D_{Pi} & = \left\{\begin{array}{cl}
1& \text{ jika } g_i=P \\
0& \text{ untuk yang lain}
\end{array}\right.
\end{align*}
Sedangkan bentuk modelnya akan menjadi
\begin{equation}
Y_i=\beta_2D_{Li}+\beta_3D_{Pi}+\beta_1X_1+\epsilon_i
\end{equation}
Jika diteliti lebih jauh, maka model untuk kelompok $L$ dan kelompok $P$,
masing- masing adalah:
\begin{align*}
L:Y_i& =\beta_2+ \beta_1X_i+\epsilon_i\nonumber \\
P:Y_i& =\beta_3 + \beta_1X_1+\epsilon_i
\end{align*}
Jadi konstanta untuk kelompok $L$ adalah $\beta_2$ dan
konstanta untuk kelompok $P$ adalah $\beta_3.$
Estimasi Parameter
Metode Penduga Likelihood Maksimum
Penduga likelihood maksimum untuk model linier tergeneralisir dapat diturunkan sebagai
berikut (lihat [Lampiran 1]Dobson (1990):
\begin{equation}
l(y)=\sum_{i=1}^{n} y_{i}b(\theta_{i})+\sum_{i=1}^{n} c(\theta_{i})+
\sum_{i=1}^{n} c(\theta_{i})+\sum_{i=1}^{n} d(y_{i}),\label{eq:lgm}
\end{equation}
dengan
\begin{equation}
E[Y_{i}]=\mu_{i}=- \frac{c'(\theta_{i})}{b'(\theta_{i})} \;\;\label{eq:eyiglm}
\end{equation}
dan
\begin{equation}
g(\mu_{i})=\mathbf{x_{i}^T}\boldsymbol{\beta}=\sum_{j=1}^{p}x_{ij}\beta_{j}=
\eta_{i}.\label{eq:me}
\end{equation}
Untuk memperoleh $\hat{\mbox{$\boldsymbol{\beta}$}}$, kita gunakan
persamaan:
\[ U_{j}=\sum_{i=1}^{n}\frac{\partial l_{i}}
{\partial \beta_{j}},\;\;\]
dengan
\begin{equation}
l_{i} = y_{i}b(\theta_{i})+ c(\theta_{i})+
d(y_{i})\label{eq:eli}
\end{equation}
dan
\[
\frac{\partial l_{i}}{\partial \beta_{j}}=
\frac{\partial l_{i}}{\partial \theta_{i}} \frac{\partial \theta_{i}}{\partial \mu_{i}}
\frac{\partial \mu_{i}}{\partial \beta_{j}}. \]
Dari persamaan (\ref{eq:eli}) kita peroleh
\begin{eqnarray}
\frac{\partial l_{i}}{\partial\theta_{i}}
&=& y_{i} b'(\theta_{i}) + c'(\theta_{i}), \nonumber\\
&=& b'(\theta_{i})\left[y_{i} +\frac{
c'(\theta_{i})}{b'(\theta_{i})}\right] \nonumber\\ &=&
b'(\theta_{i})(y_{i}-\mu_{i})\; \label{r:dldt} \end{eqnarray} Dari persamaan
(\ref{eq:eyiglm}), kita peroleh
\begin{eqnarray}
\frac{\partial\mu_{i}}{\partial \theta_{i}}&=& \left(\frac{c''(\theta_{i})b'(\theta_{i}) -
b''(\theta_{i})c'(\theta_{i})} {[b'(\theta_{i})]^2}\right), \nonumber \\
&=& b'(\theta_{i})\mbox{Var}[Y_{i}]\;\;.\nonumber
\end{eqnarray}
Oleh karena itu,
\begin{equation}
\frac{\partial\theta_{i}}{\partial \mu_{i}} = \frac{1}{b'(\theta_{i})\mbox{ Var}[Y_{i}]}.
\label{r:dtdm}
\end{equation}
Sekarang
\[ \frac{\partial \mu_{i}}{\partial \beta_{j}}= \frac{\partial
\mu_{i}}{\partial \eta_{i}} \frac{\partial \eta_{i}}{\partial
\beta_{j}},\] dan dari persamaan (\ref{eq:me}) kita peroleh
\[\frac{\partial \eta_{i}}{\partial \beta_{j}}=x_{ij},\]
dan
\begin{equation}
\frac{\partial \mu_{i}}{\partial \beta_{j}}=
x_{ij}\left(\frac{\partial \mu_{i}}{\partial \eta_{i}}\right). \label{r:dmdb}
\end{equation}
Oleh karena itu
\begin{eqnarray}
\frac{\partial l_{i}}{\partial \beta_{j}}&=& \frac{b'(\theta_{i})(y_{i}-\mu_{i})}
{b'(\theta_{i})\mbox{ Var}[Y_{i}]} x_{ij}\left(\frac{\partial \mu_{i}}{\partial
\eta_{i}}\right)
\;\mbox{ berdasar (\ref{r:dldt}),(\ref{r:dtdm}),(\ref{r:dmdb})}, \nonumber \\
&=&\left(\frac{(y_{i}-\mu_{i})x_{ij}}{\mbox{Var}(Y_{i})}\right)
\left(\frac{\partial \mu_{i}}{\partial
\eta_{i}}\right),\label{r:dlidb} \end{eqnarray}
dan
\begin{equation}
U_{j} =\sum_{i=1}^{n}\frac{\partial l_{i}}{\partial \beta_{j}}
=\sum_{i=1}^{n}
\left(\frac{(y_{i}-\mu_{i})x_{ij}}{\mbox{Var}(Y_{i})}\right)
\left(\frac{\partial \mu_{i}}{\partial
\eta_{i}}\right)\label{r:dldb} \end{equation} for
$j=1,2,3,\cdots,p$. Umumnya, metode iterasi seperti
metode Newton-Raphson digunakan untuk menyelesaikan
sistim persamaan \(\mathbf {U = O}.\;\) Pendekatan iterasi ke-
$m-$th dari $f(x)=0$ dengan Newton-Raphson adalah:
\[ x^{(m)} = x^{(m-1)}- \left(\frac{f(x^{(m-1)})}{f'(x^{(m-1)})}\right),\]
dengan $x^{(m-1)}$ adalah nilai pendekatan dari $x$ setelah
iterasi ke-$(m-1)$. Dengan cara yang sama untuk persamaan
$\mathbf{ U = O},\;$ rumus iterasinya adalah:
\begin{equation} \mathbf{b}^{(m)} =\mathbf{b}^{(m-1)}
-\left[\mathbf{ U^{\prime}}^{(m-1)}\right]^{-1} \mathbf{U}^{(m-1)}
\label{f:bm}
\end{equation}
dengan \(\mathbf{ U}^{(m-1)}\) adalah vektor $ \mathbf{U}$ yang
dinilai pada $ \mathbf{\beta=b}^{(m-1)} $ dan
\begin{equation}
\mathbf {U^{\prime}}^{(m-1)} =\left(\frac{\partial^{2}l}{
\partial\beta_{j} \partial \beta_{k}}\right)^{(m-1)}
\label{m:d2ldb}
\end{equation}
adalah matriks turunan kedua dari fungsi likelihood $l$ yang
dinilai pada $ \mathbf{ \beta=b}^{(m-1)}$. Pada prakteknya
digunakan metode alternatif disebut metode skoring. Dalam
metode skoring ini matriks persamaan (\ref{m:d2ldb}) diganti
dengan suatu matriks nilai harapan
\[ E\left(\frac{\partial^{2}l}{\partial\beta_{j}\,\partial\beta_{k}}\right). \]
Matriks
di atas sama dengan negatif dari mariks ragam - koragam atau
matriks informasi dari $U_{j}$'s, adalah ${\cal
I} = E[\mathbf {UU}^{T}]$ dengan unsur $ke-(j,k)$ adalah
\begin{eqnarray}
{\cal I}_{jk}& =&
E\left(\frac{\partial l}{\partial\beta_{j}}\frac{\partial l}{\partial\beta_{k}}\right),
\nonumber\\ &=&-E\left(\frac{\partial^2l}{\partial\beta_{j}\,\partial\beta_{k}}\right)
\label{m:ijk}
\end{eqnarray}
untuk $j,k = 1,2,3,\cdots,p $ (lihat \cite[Lampiran
A](Dobson, 1990) dan [hal.341] Searle (1982). Oleh karena itu
persamaan (\ref{f:bm}) menjadi
\begin{equation}
\mathbf {b}^{(m)} = {b}^{(m-1)}+ {\cal
I}^{(m-1)}]^{-1} {U}^{(m-1)}. \nonumber
\end{equation}
Dengan mengalikan (perkalian kiri) kedua ruas dengan
$\mbox{ ${\cal I}$}^{(m-1)}$ akan menghasilkan
\begin{equation}
\mbox{ $\cal I$}^{(m-1)}\mathbf{b}^{(m)} =
\mbox{ $\cal I$}^{(m-1)}\mathbf{b}^{(m-1)}+ \mathbf{
U}^{(m-1)}. \label{f:bm2}
\end{equation}
Dari persamaan (\ref{r:dldb}) dan persamaan (\ref{m:ijk}) dan
mengetahui bahwa $E[Y_{i} -\mu_{i}]^2=\mbox{ Var}[Y_{i}],\,$ dapat
dilihat bahwa unsur $(j,k)$ dari ${\cal I}$ adalah
\begin{equation}
{\cal I}_{jk} = \sum_{i=1}^{n}\frac{x_{ij}x_{ik}}{\mbox{Var}[Y_{i}]}
\left(\frac{\partial
\mu_{i}}{\partial \eta_{i}}\right)^{2}. \label{m:ijk2}
\end{equation}
Persamaan persamaan (\ref{m:ijk2}) menunjukkan bahwa
$\mbox{ ${\cal I}$}$ dapat dinyatakan sebagai
\[
\mbox{ ${\cal I}$} = \mathbf{X^{T}W},
\]
dengan $ \mathbf{W}$ adalah matriks diagonal $N \times N$ dengan
unsur-unsur:
\begin{equation}
w_{ii} = \frac{1}{\mbox{Var}[Y_{i}]}
\left(\frac{\partial \mu_{i}}{\partial \eta_{i}}\right)^{2}. \end{equation}
Dengan menggunakan ``bobot'' yang sama, matriks $\mathbf{W}$,
persamaan \eqref{r:dldb} dapat dinyatakan dalam bentuk matriks
seperti
\begin{equation}
\frac{\partial l}{\partial \boldsymbol{\beta}} =
\mathbf{X^TW}\left(\frac{\partial
\boldsymbol{\eta}}{\partial\boldsymbol{\mu}}\right) (\mathbf{y}-
\boldsymbol{\mu})
\end{equation}
dengan $\displaystyle{\left(\frac{\partial
\boldsymbol{\eta}}{\partial \boldsymbol{\mu}}\right)}$ is suatu
matriks diagonal $N\times N$ dengan unsur diagonal ke-$i$ adalah
$\displaystyle \left(\frac{\partial {\eta_i}}{{\partial
\mu_i}}\right).$
Oleh karena itu bentuk umum dari persamaan penduga dengan
menggunakan iterasi Newton Raphson adalah
\begin{equation}
\mathbf{b}^{(m)}=\mathbf{b}^{(m-1)}+
\mathbf{X^{T}WX}^{-1}\mathbf{X^TW}
\left(\frac{\partial\boldsymbol{\eta}}{\partial\boldsymbol{\mu}}\right)
\end{equation}
atau dalam bentuknya yang asli
\begin{align}
\mathbf{b}^{(m)}= &\mathbf{b}^{(m-1)}+ \left(\mathbf{X^T}
\left(\frac{\partial \boldsymbol{\mu}}{\partial
\boldsymbol{\eta}}\right)\left({1 \over
{\text{var}(\mathbf{Y})}}\right) \left({{\partial
\boldsymbol{\mu}} \over {\partial \boldsymbol{\eta}}}\right)^T
\mathbf{X}\right)^{-1}\nonumber \\
& \hspace{1cm} \left(
\mathbf{X}^T\left(\frac{1}{\text{var}(\mathbf{Y})}\right)\left(\frac{\partial
\boldsymbol{\mu}}{\partial \boldsymbol{
\eta}}\right)\left(\mathbf{Y}-\boldsymbol{\mu}\right)\right)
\end{align}
\label{eq:n-rglm}
Dapat ditunjukkan bahwa persamaan \eqref{eq:n-rglm} identik dengan
\eqref{eq:nrwls} sehingga dikatakan penduga maksimum likelihood
untuk GLM identik dengan metode kuadrat terkecil terbobot.
Ada bentuk lain yang juga biasa dipakai dalam merumuskan bentuk
iterasi Newton-Raphson untuk GLM yang dapat diturunkan seperti
berikut ini. Berdasar persamaan (\ref{r:dldb}) dan persamaan
(\ref{m:ijk2}) dapat diunjukkan bahwa ruas kanan dari persamaan
persamaan (\ref{f:bm2}) adalah suatu vektor dengan unsur-unsur
berbentuk:
\[
\sum_{k=1}^{p} \sum_{i=1}^{n}\frac{x_{ij}x_{ik}}{\mbox{Var}[Y_{i}]}
\left(\frac{\partial\mu_{i}}{\partial\eta_{i}}\right)^{2}b_{k}^{(m-1)} +
\sum_{i=1}^{n} \frac{(y_{i}-\mu_{i})x_{ij}}{\mbox{Var}[Y_{i}]}
\left(\frac{\partial\mu_{i}}{\partial\eta_{i}}\right).
\]
yang sama dengan
\[
\sum_{i=1}^{n}\sum_{k=1}^{p} x_{ij} w_{ii}x_{ik}b_{k}^{(m-1)} +
\sum_{i=1}^{n}x_{ij} w_{ii} (y_{i}-\mu_{i})
\left(\frac{\partial\mu_{i}}{\partial\eta_{i}}\right)^{-1}.
\]
Ini berarti bahwa id dapat dinyatakan sebagai $\mathbf {X^{T}Wz}
$ dengan unsur-unsur vektor $\mathbf{z} $ adalah berbentuk:
\[
z_{i}=\sum_{k=1}^{p} x_{ik}b_{k}^{(m-1)} +
(y_{i}-\mu_{i}) \left(\frac{\partial\mu_{i}}{\partial\eta_{i}}\right)^{-1},
\]
dimana $i=1,2,3,\cdots,N $, dan, $\mu_{i} $ dan
$\partial\mu_{i}/\,
\partial \eta_{i}$ dinilsi pada $\beta = b^{(m-1)} $.
Persamaan
persamaan (\ref{f:bm2}) menjadi
\begin{equation}
\mathbf {X^{T} WXb}^{(m)}=\mathbf{ X^{T} Wz}.\label{r:ne}
\end{equation}
Selanjutnya $\hat{\beta}$ diambil sama dengan $b^{(m)}$ untuk $m$
yang terakhir. Persamaan (\ref{r:ne}) menunjukkan bahwa
penduga likelihood maksimum ekuivalen dengan penduga kuadrat terkecil terbobot
\cite[hal. 41]{bk:Dobson90}.
\section{\sf Inferensi pada Model Linier Tergeneralisir }
Jika penduga $\hat{\theta}$ konsisten, maka dia juga secara
asimptotik tak bias, yaitu
\[ \lim_{N\rightarrow \infty} E[\hat{\theta}]
= \theta.\] Hal- hal berikut merupakan konsekuensi.
-
Untuk $N$ besar, berdasar Teorema limit pusat:
\[\frac{\hat{\theta}-\theta}{\sqrt{\mbox{Var}[\hat{\theta}]}} \approx N(0,1).\]
Sama dengan(i),
\[
\frac{(\hat{\theta}-\theta)^{2}}{\mbox{Var}[\hat{\theta}]}
\approx \chi^{2}_{1}.
\]
Dalam bentuk matriks dapat dinyatakan sebagai
\begin{equation}
(\widehat{\boldsymbol{\theta}}-\boldsymbol{\theta})^{T}\mathbf{V}^{-}
(\widehat{\boldsymbol{\theta}}-\boldsymbol{\theta)} \approx
\chi^{2}_{q}.\label{d:cq}
\end{equation}
dengan $q$ adalah rank matriks $\mathbf{V}$. Sedangkan matriks
$\mathbf{ V^{-}}$ adalah:
-
invers tergeneralisir dari matriks ragam - koragam
$\mathbf{V}$ jika $\mathbf{V}$ singular, dan
- invers dari matriks ragam - koragam
$\mathbf{V}$ jika $\mathbf{V}$ nonsingular.
Untuk MLT dengan $p$ parameter dan skore terhadap $\beta_{j}$ =
$U$, maka kita memiliki: \[ U_{j} = \frac{\partial l}{\partial
\beta_{j}}\;\;j=1,2,3,\cdots,p,\] \[E[U_{j}] = 0 \;\;\mbox{[lihat
persamaan (\ref{eq:eu})]},\] dengan matriks ragam - koragam
$\mbox{ $ \cal{I}$}$=$E[\mathbf{UU^{T}}$]. Jadi analog
dengan persamaan (\ref{d:cq}) setidaknya secara asimtotik:
\begin{equation} \mathbf{U} \sim N(0,\mbox{ $\cal{I}$})
\; \mbox{ or }\; \mathbf{U}^{T} {\cal I}^{-1} \mathbf{U}\sim
\chi_{p}^{2}, \end{equation} dengan asumsi $\mbox{ $
\cal{I}$}\;$ adalah nonsingular
Dobson (1990).
\subsection{ \sf Distribusi dari Penduga Likelihood Maksimum}
Pendekatan Taylor tingkat ke-$n$ untuk fungsi $f$ pada $x=a$
adalah: \[ f(x)=f(a)+f'(a)(x-a)+\frac{1}{2} f''(a)(x-a)^{2}
+\cdots+ \frac{1}{n!}f^{n}(a)(x-a)^n. \] Dengan mengambil
pendekatan Taylor tingkat pertama pada fungsi skor
$\mathbf{U}(\beta)$ pada $\mathbf {\beta} = \mathbf{b} $ (sebagai
penduga), kita peroleh: \begin{equation} \mathbf U(\beta) \approx
U(b) + H(b)(\beta-b), \label{eq:uta} \end{equation} dengan \[
\mathbf{ U(b)}=\left[ \begin{array}{c} U_{1} \\ U_{2} \\ \vdots \\
U_{p} \end{array} \right]=\left[ \begin{array}{c}
\frac{\partial l}{\partial \beta_{1}} \\
\frac{\partial l}{\partial \beta_{2}} \\
\vdots \\
\frac{\partial l}{\partial \beta_{p}}
\end{array}
\right]_{\beta_{j}=b_{j}},
\]
and
\[
\mathbf{H(b)}=\left[
\begin{array}{cccc}
\frac{\partial^{2}l}{\partial \beta_{1}^{2}} &
\frac{\partial^{2}l}{\partial \beta_{1}\partial \beta_{2}}&
\cdots &
\frac{\partial^{2}l}{\partial \beta_{1}\partial \beta_{p}} \\
\frac{\partial^{2}l}{\partial \beta_{2}\partial \beta_{1}}&
\frac{\partial^{2}l}{\partial \beta_{2}^{2}}&
\cdots &
\frac{\partial^{2}l}{\partial \beta_{2}\partial \beta_{p}} \\
\vdots &\vdots & \ddots & \vdots \\
\frac{\partial^{2}l}{\partial \beta_{p}\partial \beta_{1}}&
\frac{\partial^{2}l}{\partial \beta_{p}\partial \beta_{2}}&
\cdots & \frac{\partial^{2}l}{\partial \beta_{p}^{2}}
\end{array}\right]_{\beta_{j}=b_{j}}.
\]
Secara asimptotik $\mathbf H$ = E[$\mathbf H$]. Berdasar
persamaan (\ref{m:ijk}) maka $\mathbf -{\cal I}$=E[$\mathbf
H$](Dobson, 1990). Oleh karena
itu persamaan (\ref{eq:uta}) menjadi:
\begin{equation}
\mathbf U(\beta) \approx U(b)-{\cal I}(\beta -b). \label{eq:uta2}
\end{equation}
Tetapi, $\mathbf b$ adalah maksimum dari $l$, akibatnya
$\mathbf U(b)$=0. Oleh karena itu persamaan (\ref{eq:uta2})
menjadi
\[
\mathbf U(\beta) \approx -{\cal I}(\beta-b)
\]
dan
\begin{equation}
\mathbf{b-\beta \approx {\cal I}^{-1} U(\beta)}.\label{eq:abb}
\end{equation}
Dengan mengambil nilai harapan dari kedua ruas persamaan
(\ref{eq:abb}), lalu menerapkan bahwa E[$\mathbf U]$=0, dapat
disimpilkan bahwa E[$\mathbf b]=\beta$. Akibatnya secara asimtotik
$\mathbf b$ adalah takbias. Lebih lanjut, matriks
ragam - koragam dari $\mathbf b-\beta$ (sebut saja, $\mathbf
V$) dapat dihitung sebagai berikut:
\begin{align}
\mathbf{V}&=E[ \boldsymbol{(b-\beta)(b-\beta)}^{T}],\nonumber \\ &= E[\mathbf {\cal
I}^{-1} U
({\cal I}^{-1} {U})^{T}], \nonumber \\
&= E[\mathbf {\cal I}^{-1}\mathbf{UU}^{T}{\cal
I}^{-1}],\nonumber
\end{align}
Karena ${\cal I}$ adalah konstan
dan simetrik, maka
\begin{align}
\mathbf{V}&=E[ \boldsymbol{(b-\beta)(b-\beta)}^{T}],\nonumber\\
&=
{\cal I}^{-1} E[\mathbf{UU}^{T}]\, \cal
{I}^{-1}\;\; \nonumber \\
&= \cal I^{-1}{\cal I}{\cal I}^{-1}={\cal
I}^{-1}.
\end{align}
Oleh karena itu
\begin{equation}
\mathbf{(b-\beta)^{T}{\mathbf{V}^{-1}}(b-\beta)}=\mathbf{(b-\beta)^{T}{\cal I}(b-\beta)} \approx \chi^{2}_{p}.
\label{r:ws}
\end{equation}
Statistik persamaan (\ref{r:ws}) disebut statistik Wald.
Statistik ini ekuivalen dengan $\mathbf{(b-\beta)} \sim N(0,
\mathbf {\cal I}^{-1})$, yang membawa konsekuensi bahwa, secara
asimtotik, untuk $N$ besar:
-
standar kesalahan (s.k.) dari penduga masing-masing $b_{j}$ adalah
\[
\mbox{s.k.}(b_{j}) = \sqrt{ v_{jj}},
\]
dengan $v_{jj}$ adalah unsur ke-$(j,j)$ dari $\mathbf {\cal
I}^{-1}$;
-
korelasi antara penduga adalah:
\[
\mbox{corr}(b_{j},b_{k})=\frac{v_{jk}}{\sqrt{v_{jj}}\sqrt{v_{kk}}}.
\]
(Lihat juga Tirta (2009))
Kecocokan model
Kecocokan model dapat dilihat dari nilai R-square, $R^2$, semakin besar nilainya (mendekati 1), semakin baik kecocokan modelnya.
$$R^2= \frac{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2-\sum_{i=1}^N \left(y_i-\hat{y}\right)^2}
{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2}.$$
(Lihat Mendenhall 1993).
Jadi $R^2$ ekuivalen dengan rasio penurunan jumlah kuadrat dari model yang digunakan
terhadap jumlah kuadrat deviasi terhadap rata-rata $\hat{y}$. Semakin besar $R^2$
berarti semakin kecil simpangan data terhadap garis regresi model. Secara ekstrim $R^2=1$
menunjukkan bahwa simpangan nilai observasi dengan nilai estimasi sama dengan 0 dan
model menjadi sempurna yaitu tidak ada data yang menyimpang dari (berada di luar)
garis regresi. Dengan kata lain semakin besar $R^2,$ semakin kecil
selisih nilai observasi dengan nilai rata-rata regresi yang berarti semakin besar manfaat garis regresi
dalam menjelaskan hubungan antara prediktor dan respon.
Pemeriksaan model dapat juga dilakukan dengan menggunakan kriteria
informasi Akaike (AIC}) yang menghitung perimbangan antara besarnya
likelihood dengan banyaknya variabel dalam model.
Besarnya AIC dihitung melalui rumus
berikut
$$
AIC=-2l(\boldsymbol{\hat{\theta}}) + 2q,
$$
dengan $l(\boldsymbol{\hat{\theta}})$ adalah nilai likelihood
dari model yang dihadapi dan $q$ adalah banyaknya parameter dalam model.
Secara umum, semakin kecil nilai AIC model yang dipakai semakin cocok.
Model yang dianggap terbaik adalah model dengan nilai AIC minimum.
Namun demikian, dengan pertimbangan aspek lain, perbedaan AIC yang tidak
terlalu besar mungkin dapat diabaikan.
Untuk
pembahasan lebih mendalam tentang AIC dapat dilihat pada Akaike (1972) Chamber & Hastie (1993) dan Venables & Ripley(1996)
Langkah-langkah dalam melakukan Pengepasan Model
-
Mengeksplorasi data untuk menentukan variabel-variabe yang berhubungan secara linier, termasuk dengan variabel kualitatif
-
Menyimak hasil GOF hasil analisis untuk melihat adanya keganjilan dan perlunya mengeksplorasi model
yang lebih baik
-
Memeriksa alternatif-alternatif model
-
Menentukan model yang dianggap terbaik
-
Menarik kesimpulan analisis berdasarkan model terbaik
Ilustrasi dengan R
Sintaks fungsi GLM
Sintaks untuk melakukan analisis regresi linier sederhana adalah dengan glm() atau
glm2() .
glm(y~x, family=...)
glm(y~x*g, family=...)
glm(y~x+g, family=...)
glm(y~g/x, family=...)
glm(y~x+g-1, family=...)
glm(y~g/x-1, family=...)
AIC(glm(...))
Pilihan sebaran dan link yang sesuai dinyatakan dalam opsi family=..., misalnya
family=binomial(link=probit), family=Gamma(link=log)
Ilustrasi Interaktif
Untuk latihan riil pengepasan GLM, silakan klik berikut ini
Ilustrasi GLM Interaktif dengan R
Rangkuman
-
Pertimbangan pengaruh variabel kualitatif (kelompok) dalam regresi, dapat dilakukan dengan mendefinisikan variabel boneka ( dummy)
-
Pertimbangan pengaruh variabel kualitatif (kelompok) dalam regresi, akan menghasilkan
salah satu model yaitu model paralel, interaksi, atau model tanpa variabel kualitatif (tidak ada pengaruh).
-
Model terbaik dapat dilihat dari nilai AIC, atau BIC terkecil dan $R^2$ terbesar (terutama $R^2$ yang tersesuaikan)
Tugas
- Koefisien determinasi $R^2$ ada yang disebut tersesuaikan Adjusted-$R^2$, cari formula untuk jenis koefisien determinasi ini. Perhatikan angkanya dalam luaran R. Dapatkan anda mendeteksi perbedaan yang mencolok antara keduanya (tersesuaikan dan tidak), kapan terjadi? Dengan kata lain, kapan Adjusted-$R^2$ menjadi penting dipertimbangkan.
-
Tentukan indikasi atau tanda-tanda perlunya mempertimbangkan variabel kualitatif dalam model regresi
-
Dalam ilustrasi menggunakan komputer, untuk analisis regresi dengan kelompok,
apa kelebihan dan kekurangan dari model dengan konstanta implisit dan model dengan konstanta eksplisit
beri ilustrasi (termasuk bentuk dan memanfaatkan matriks desainnya)
-
Tentukan dan beri contoh ilustrasi melakukan prediksi dengan menggunakan model regresi dengan
variabel kelompok. Misalnya seseorang (subjek/responden) mimiliki nilai $X$ tertentu $X=x1$ (silakan tentukan nilainya), dan dia berasal dari kelompok $g1$.
Sumber Bacaan Teori:
[1] Tirta, IM 2009.[Bab 2 Model Linear Klasik] Analisis Regresi dengan R.
UNEJ Press
[2] Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. UNEJ Press
[3] Wikipedia. Normality Test
http://en.wikipedia.org/wiki/Normality_test [Akses 28 Oktober 2014]
[4] Tirta, IM. 2015. E-Modul: Grafik dengan R. UNEJ Press
Naskah ini dibuat dengan tujuan utama sebagai dokumen contoh (IMT).