Regeresi linier berbasis distribusi normal (normal/ classical Liniear model) merupakan salah satu
analisis statistika yang banyak dipakai parapeneliti. Regresi sederhana diturunkan atas dasar beberapa asumsi penting. Dalam praktek,
masih banyak pengguna regresi yang hanya mementingkan output dari analisis regresi dan tidak serius memeriksa dan menangani asumsi yang seharusnya dipenuhi.
Tujuan
Memahami bentuk dan asumsi regresi linier klasik
Dapat melakukan pemeriksaan asumsi baik secara graphik maupun secara numerik
Dapat melakukan analisis regresi dan memeriksa kecocokan model
Dapat menginterpretasikan hasil analisis dengan benar
Misalkan hubungan antara
peubah respon ($Y_i$) dengan peubah tetap ($X_i$) untuk subjek
$i=1,2, ... n,$ ditentukan oleh
\begin{equation}
\left.\begin{array}{cccc}
Y_1&=&\beta_0 + \beta_1 X_1+\epsilon_1& \\
\vdots & \vdots & \vdots& \\
Y_i&=&\beta_0 + \beta_1 X_i+\epsilon_i&\\
\vdots & \vdots & \vdots& \\
Y_n&=&\beta_0 + \beta_1 X_n+\epsilon_n &
\end{array}
\right\} \label{eq:model1}
\end{equation}
dengan:
$X_i$ adalah peubah tetap yang
tidak bersifat acak (lebih lanjut diasumsikan $X_i$ diukur tanpa
kesalahan);
$\epsilon_i$, yaitu komponen kesalahannya,
adalah berdistribusi identik dan independen normal dengan nilai-tengah 0
dan varian konstan ($\sigma^2$), yaitu $ e_i \text{ i.i.d. } N(0,\sigma^2));$
Untuk $i \neq i^\prime$,
maka $\epsilon_i || \epsilon_{i^\prime}$ atau korelasi
$\epsilon_i$ dengan $\epsilon_{i^\prime}$ adalah 0.
Dari asumsi dapat ditentukan bahwa ekspektasi dari setiap
respon adalah
\begin{equation}
E\left[Y_i\right]=\beta_0 + \beta_1 X_i
\end{equation}
yang merupakan sebuah garis lurus yang kita sebut garis regresi
\gloss{populasi}. Sedangkan sebaran setiap pasangan $(X_i,Y_i)$ akan
berada pada atau sekitar garis tersebut sesuai dengan besarnya
$\epsilon_i$.
Bentuk Matriks dan Asumsinya
Berdasarkan uraian yang telah disebutkan
sebelumnya, bentuk model linear dapat dituliskan dengan dengan matriks
$$\mathbf{Y}=\mathbf{X}\boldsymbol{\beta}+\boldsymbol{\epsilon}.$$ Ada
beberapa asumsi mendasar dari model linier ini (sering disebut sebagai Kondisi Gauss-Markov ) diantaranya seperti berikut ini.
(i) Hubungan linier, dinyatakan dalam bentuk perkalian matriks $\mathbf{X}\boldsymbol{\beta}$;
(ii) Nilai-tengah dari kesalahan
$\epsilon_i$ yaitu $E(\epsilon_i)$ adalah 0; $E(\boldsymbol{\epsilon})=\mathbf{0};$
(iii) Ragam kesalahan
adalah konstan, yaitu var$(\epsilon_i)=\sigma^2$ dan $V(\boldsymbol{\epsilon})=\sigma^2\mathbf{I};$
(iv) distribusi kesalahan adalah
normal, yaitu $\epsilon_i\sim \text{i.i.d }\; MVN(0,\sigma^2)$ atau
$\boldsymbol{\epsilon}\sim N(\mathbf{0},\sigma^2\mathbf{I});$
(iv) distribusi respon $Y$ adalah
normal, yaitu $Y\sim \; N\left(\mathbf{X}\boldsymbol{\beta},\sigma^2\mathbf{I}\right)$.
Pemeriksaan terhadap asumsi di atas dapat dilakukan baik melalui uji
statistika maupun secara intuitif menggunakan grafik. Dalam tulisan ini
hanya dibahas pemeriksaan asumsi secara intuitif menggunakan grafik/
diagram. Pada prinsipnya kegiatan ini hampir sama dengan eksplorasi
data. Bedanya adalah eksplorasi data dilakukan sebeum melakukan
analisis, sedangkan diagnostik dilakukan setelah melakukan analisis.
Dengan demikian, jika sebelum melakukan analisis telah dilakukan
eksplorasi data pekerjaan mendiagnostik model menjadi lebih
sederhana. Berikut adalah beberapa tampilan grafik yang dapat
dimanfaatkan untuk memeriksa asumsi yang diperlukan dan memperoleh
gambaran kasar secera intuitif.
Mendeteksi Asumsi
Metode Grafik
Untuk memeriksa distribusi data, secara grafis dapat dilakukan dengan membuat
beberapa grafik dianrananya: grafik QQNorm. Grafik QQNorm pada dasarnya adalah grafik yang
menyajikan sebaran quantil normal teoritis, dengan quantil data. Apabila
datanya berdistribusi normal maka sebarannya akan mendekati garis lurus.
Penyimpangan yang sangat mencolok pada ujung-ujung grafik menunjukkan datanya
menyimpang dari distribusi normal.
Penafsiran yang lebih rinci dari bentuk-bentuk grafik QQ-Norm dapat dilihat pada
Tirta (2008).
Selain itu Paket/library lm() secara automatis menyediakan 4 macam grafik yang
dapat dipergunakan untuk mendiagnostik model diantaranya:
grafik QQNorm untuk memeriksa sebaran data;
grafik
sisa untuk melihat kelinieran dan juga kekonstannan ragam;
grafik residual baku dan nilai ekspektasi;
grafik cook( Cook's Distance) untuk memeriksa adanya. Lihat Faraway[Bab
7](2002) untuk pembahasan dan diagnostik berhubungan
dengan pencilan.Tambah ringkasan penggunaan grafik di atas menurut Faraway(2002)
Pada R grafik diagnostik digabung menjadi satu tampilan yang dapat dibuat
dengan perintah plot(NamaObjek).
Ada beberapa uji kenormalan yang biasa dipilih diantaranya Uji Saphiro-Wilk, Uji Chi-Square Pearson. Berikut adalah prinsip dari beberapa uji knormalan dari beberapa jenis uji. ...
Estimasi dan Uji hipotesis
Estimasi bentuk sederhana dengan likelihood maksimum
lihat juga http://statslab-rshiny.fmipa.unej.ac.id/RDoc/Likelihood/
Sesuai dengan
prinsip model linier normal, maka setiap peubah respon $Y_i$
merupakan \gloss{sampel} dari peubah acak yang berdistribusi normal dan
saling independen dengan nilai-tengah $E(Y_i)=\beta_0 +\beta_1X_i$ dan
ragam $\sigma^2$, yaitu $Y_i\sim N(E(Y_i),\sigma^2).$ Dengan
demikian kita peroleh seperti berikut ini.
Likelihood $Y_i$ adalah
\[L_i =
\frac{1}{\sigma\sqrt{2\pi}}\exp\left[-\frac{1}{2}\left(\frac{Y_i-\beta_0
-\beta_1X_i}{\sigma}\right)^2\right].\]
Likelihood dari $\mathbf{Y}=(Y_1,Y_2,\cdots,Y_i,\cdots,Y_n)^T$
yang komponennya saling bebas adalah \begin{align*}
L &= \prod_{i=1}^n L_i \\
& = \left[\frac{1}{\sigma\sqrt{2\pi}}\right]^n
\exp\left[-\frac{1}{2}\sum_{i=1}^n \left(\frac{Y_i-\beta_0
-\beta_1X_i}{\sigma}\right)^2\right].\\
\end{align*}
Log-likelihood $l=\;^e\log L =\ln L,$ selanjutnya
dalam banyak buku teks statistika hanya ditulis $\log L ,$ sehingga $l$ menjadi
\begin{align*}
l& =
-n\log\left(\sigma \sqrt{2\pi}\right)-\frac{1}{2}\sum_{i=1}^n
\left(\frac{Y_i-\beta_0 -\beta_1X_i}{\sigma}\right)^2 \\
& = -\frac{n}{2}\log\left(2
\pi\sigma^2\right)-\frac{1}{2\sigma^2}\sum_{i=1}^n
\left(Y_i-\beta_0 -\beta_1X_i\right)^2.
\end{align*}
Selanjutnya turunan $l$ terhadap $\beta_0,\beta_1$ dan $\sigma^2$
diperoleh sebagai berikut
\begin{align*}
\frac{\partial l}{\partial \beta_0}&=
-\frac{1}{2\sigma^2}(2)(-1)\sum_{i=1}^n \left(Y_i-\beta_0
-\beta_1X_i\right)\\
&= \frac{1}{\sigma^2}\sum_{i=1}^n \left(Y_i-\beta_0
-\beta_1X_i\right)\\
\frac{\partial l}{\partial \beta_1}&=
-\frac{1}{2\sigma^2}(2)(-1)\sum_{i=1}^n \left(Y_i-\beta_0
-\beta_1X_i\right)X_i\\
\frac{\partial l}{\partial \beta_1}&=
\frac{1}{\sigma^2}\sum_{i=1}^n \left(Y_i-\beta_0
-\beta_1X_i\right)X_i \\
\frac{\partial l}{\partial \sigma^2}&=
-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4} \sum_{i=1}^n
\left(Y_i-\beta_0 -\beta_1X_i\right)^2. \end{align*} Dari
persamaan di atas diperoleh persamaan normal untuk $\beta_0$ dan
$\beta_1$ identik dengan persamaan normal \eqref{eq:normal.ls}.
Selanjutnya dari $\partial l/ \partial \sigma^2=0$ diperoleh
\[-n\sigma^2 + \sum_{i=1}^n \left(Y_i-\beta_0
-\beta_1X_i\right)^2=0 \] sehingga penduga kemungkinan maksimum
untuk $\sigma^2$ adalah
\begin{equation*} \widehat{\sigma^2} =
\frac{1}{n}\sum_{i=1}^n \left(Y_i-\beta_0 -\beta_1X_i\right)^2.
\end{equation*} Sebenarnya estimasi $\sigma^2$ di atas berlaku
untuk kondisi $\beta_0,\beta_1$ atau $\mu$ yang diketahui. Jika
tidak diketahui, maka penduga di atas akan menjadi bias. Untuk
menghilangkan bias maka pembaginya (derajat kebebasannya) harus
dikurangi sebesar banyaknya parameter yang harus diestimasi
sebelumnya. Dalam kasus model sederhana yang kita bahas,
banyaknya parameter ada 2 yaitu ($\beta_0,\beta_1$). Dengan
demikian derajat kebebasannya menjadi $n-2$ dan bentuk penduga
$\sigma$ untuk penduga llikelihood seteleh disesuaikan manjadi
\begin{equation} \widehat{\sigma^2} = \frac{1}{n-2}\sum_{i=1}^n
\left(Y_i-\hat{\beta_0} -\hat{\beta_1}X_i\right)^2 \end{equation}
Uji Inferensial dari $\hat{\beta_j}$
Sebagaimana dijelaskan dalam langkah-langkah pemodelan stokastik,
bahwa besaran yang diperoleh dari penyelesaian model, yang berupa
penduga, harus diuji secara statistik. Untuk keperluan ini, perlu
diketahui distribusi dari penduga yang diperoleh.
Distribusi $\hat{\beta_j}$}
Setelah memperoleh estimasi dari parameter $\beta_j$, maka
selanjutya kita perlu memperoleh sifat sebaran dari penduga-
penduga tersebut. Dapat ditunjukkan (dianjurkan untuk membuktikan
sendiri) bahwa penduga-penduga yang diperoleh adalah penduga tak
bias dalam arti
\[E\left[\hat{\beta_0}\right]=\beta_0 \text{ dan }
E\left[\hat{\beta_1}\right]=\beta_1.\] Sedangkan untuk ragam
$\beta_j$ diperoleh hasil yang berbeda untuk kasus $\sigma^2$
diketahui dan $\sigma^2$ tidak diketahui.
Distribusi $\hat{\beta_j}$ bila $\sigma^2$
diketahui
Ragam dari penduga-penduga $\hat{\beta_j}$ dapat diturunkan
dengan menggunakan prinsip bahwa:
untuk suatu konstanta $c$, maka Var($cY)=c^2$ Var $(Y)$;
Bahwa $Y_i$ dan $Y_{i^\prime}$ adalah saling bebas karenanya
Var$\left[\sum Y_i]\right]= \sum \left[\text{Var}(Y_i)\right];$
Var($Y_i)=\sigma^2,$ sedang komponen yang lain berfungsi
sebagai peubah tidak acak sehingga tidak memiliki ragam dan
dalam konteks ini dapat diaggap sebagai konstanta $c$.
Dari bentuk penduga $\hat{\beta_0}$, seperti pada persamaan
\eqref{est1:b0} dan $\hat{\beta_1}$ pada persamaan
\eqref{est1:b1}, dapat lihat bahwa $\hat{\beta_j}$ merupakan
kombinasi linier dari $Y_i$ yang mempunyai ragam $\sigma^2$.
Dari kenyataan ini dapat dihitung ragam $\hat{\beta_j}$ seperti
berikut ini.
Jika $\sigma^2$ diketahui, maka ragam dari
penduga $\hat{\beta_0}$ dan $\hat{\beta_1}$ masing masing adalah:
\begin{align} \text{Var}(\hat{\beta_0})&=
\left[\frac{1}{n}+\frac{\bar{X}^2}{\sum(X_i-\bar{X})^2}\right]\sigma^2
\\
\text{Var}(\hat{\beta_1})&= \frac{\sigma^2}{\sum(X_i-\bar{X})^2}
\end{align}
Kita lihat bahwa sesungguhnya penduga $\hat{\beta_j}$ merupakan
kombinasi linier dari $Y_i$ yang berdistribusi normal. Oleh karena
itu jika $\sigma^2$ diketahui maka masing-masing penduga $\beta_j$
berdistribusi normal dengan ragam seperti pada Hasil
\ref{th:var.bet}. Dengan demikian bisa kita simpulkan hasil-hasil
berikut
Jika $\sigma^2$ diketahui dan var ($\hat{\beta_j}$) dihitung
seperti pada Hasil \ref{dl:var.bet}, maka
\begin{equation}
\frac{\hat{\beta}_j-\beta_j}{\sqrt{\text{var}(\hat{\beta_j})}}
\sim N(0,1)\end{equation}
dengan $N(0,1)$ adalah \gloss{dnb}.
Distribusi $\hat{\beta_j}$ bila $\sigma^2$
tidak diketahui
Dalam kenyataannya, $\sigma^2$ lebih sering tidak
diketahui dan harus diestimasi dari data yang ada seperti yang
telah dilakukan sebelumnya yaitu
\[s_e^2 = \widehat{\sigma^2} = \frac{1}{n-2}\sum_{i=1}^n \left(Y_i-\hat{\beta_0}
-\hat{\beta_1}X_i\right)^2\]
Apabila $\sigma^2$ tidak lagi diketahui tetapi diganti dengan
$\hat{\sigma^2}=s^2_e$, maka var$(\hat{\beta_j})$ dinotasikan
dengan $s^2(\hat{\beta_j});\;j=0,1$ menjadi
\begin{align} s^2(\hat{\beta_0})&=
\left[\frac{1}{n}+\frac{\bar{X}^2}{\sum(X_i-\bar{X})^2}\right]s_e^2
\\
&= \left[\frac{1}{n}+\frac{\left(1/n\sum X_i \right)^2}{\sum X_i^2
-1/n\left(\sum X_i\right)^2}\right]s_e^2,
\end{align}
dan
\begin{align}
s^2(\hat{\beta_1})&= \frac{s_e^2}{\sum(X_i-\bar{X})^2}\\
&=\frac{s_e^2}{\sum X_i^2 -1/n\left(\sum X_i\right)^2}.
\end{align}
Apabila $\sigma^2$ tidak lagi diketahui tetapi diganti dengan
$\hat{\sigma^2}=s^2_e$, dan var$(\hat{\beta_j})$ diganti dengan
$s^2(\hat{\beta_j});\;j=0,1$, terutatama jika ukuran sampel tidak
cukup besar, maka
\begin{equation}
\frac{\hat{\beta}_j-\beta_j}{\sqrt{s^2(\hat{\beta_j})}}=\frac{\hat{\beta}_j-\beta_j}{s(\hat{\beta_j})}\sim
t_{n-2},
\end{equation}
Hasil di atas dapat diperluas untuk banyaknya parameter lebih dari
dua misalnya $k$. Jika ukuran sampel cukup besar, maka sesuai
sifat distribusi $t$, distribusi $t$ akan mendekati N(0,1). Dengan
demikian distribusinya identik dengan sebelumnya, ketika
$\sigma^2$ diketahui.
Estimasi selang dari ${\beta_j}$
Sesuai dengan
distribusi dari $\hat{\beta_j}$, maka estimasi selang diperoleh
dengan melihat nilai $t$ atau $z$ yang membatasi prosentase atau
luas daerah dari kurva fungsi kepadatannya. Pada umumnya kita
menghitung estimasi selang yang simetrik.
Penduga selang $\beta_j$ untuk tarap kepercayaan $(1-\alpha)\times
100 $\% atau tarap signifikansi $\alpha \times 100\%$, jika
$\sigma$ diketahui atau $n$ cukup besar adalah
\begin{equation}
\hat{\beta_j}-z_{\alpha/2}\sqrt{var(\hat{\beta_j})} \le \beta_j
\le \hat{\beta_j}+z_{\alpha/2}\sqrt{var(\hat{\beta_j})}
\end{equation}
Penduga selang $\beta_j$ untuk tarap kepercayaan
$(1-\alpha)\times 100 $\%) atau tarap signifikansi $\alpha \times
100\%$, dinotasikan I.K $(1-\alpha)\times 100 $\% jika $\sigma$
tidak diketahui dan $n$ kecil adalah
\begin{equation}
\hat{\beta_j}-t_{\alpha/2,n-2}s(\hat{\beta_j}) \le \beta_j \le
\hat{\beta_j}+t_{\alpha/2,n-2}s(\hat{\beta_j})
\end{equation}
Estimasi Bentuk Matriks dengan Kuadrat Terkecil
Secara umum bentuk estimasi dari parameter regresi menggunakan Kuadrat terkecil ( least square)dapat dituliskan seperti berikut
Mengubah model menjadi eksplisit terhadap matriks kesalahan,
yaitu
$\boldsymbol{\epsilon}=\mathbf{Y}-\mathbf{X}\boldsymbol{\beta}.$
Membentuk matriks bentuk kuadrat
\begin{align}
\mathbf{Q}&=\boldsymbol{\epsilon^T\epsilon}\nonumber\\
&=(\mathbf{Y}-\mathbf{X}\boldsymbol{\beta})^T(\mathbf{Y}-\mathbf{X}\boldsymbol{\beta})
\nonumber\\
&=\mathbf{Y^T Y}-2\boldsymbol{\beta}^T\mathbf{X^T Y}+\boldsymbol{\beta}^T\mathbf{X}^T\mathbf{X}\boldsymbol{\beta}.
\end{align}
mencari turunan pertama dan kedua $\mathbf{Q}$ terhadap
$\boldsymbol{\beta}$.
\begin{align}
\frac{\partial Q}{\partial \boldsymbol{\beta}} &=- 2
\mathbf{X^T Y}+2
\mathbf{X^T X}\boldsymbol{\beta}\nonumber\\
&=- 2 \left(\mathbf{X^T Y}-
\mathbf{X^T X}\boldsymbol{\beta}\right)\\
\frac{\partial^2 \mathbf{Q}}{\partial \boldsymbol{\beta}^T
\partial
\boldsymbol{\beta}} &= 2\mathbf{X^T X.}
\end{align}
Jika turunan pertama disamakan dengan 0, maka diperoleh persamaan matriks
$\mathbf{X^T Y}=
\mathbf{X^T X}\boldsymbol{\beta}$
Selanjutnya dapat dianggap sebagai persamaan matriks biasa (dengan asumsi $\mathbf{X}$ memiliki rank penuh)
Selanjutnya dapat dianggap sebagai persamaan matriks biasa (dengan asumsi $\mathbf{X}$ memiliki rank penuh)
$\mathbf{X}\boldsymbol{\beta} = \mathbf{Y} $ dengan
$$ \mathbf{(X^T X)^{-1}X^T X}\boldsymbol{\beta} = \mathbf{(X^T X)^{-1}X^T Y}
$$
$$\widehat{\boldsymbol{\beta}}=\mathbf{(X^T X)^{-1}X^T Y}$$
dengan menggunakan prinsip bahwa $\text{Var}\left(\mathbf{AY}\right)=\mathbf{A}\text{Var}(\mathbf{Y})\mathbf{A^T}$,
dengan
$\widehat{\sigma^2}$ tidak diketahui, diganti dengan kuadrat residu digani derajat kebebasannya,
\begin{equation}
\hat{\sigma^2}=s_e^2 =
\frac{1}{n-k}\left[\mathbf{Y^T Y-\hat{\boldsymbol{\beta}}X^T Y}\right]
\label{eq:sg.h.m}
\end{equation}
dan $\mathbf{A=(X^T X)^{-1}X^T}$, yaitu $\mathbf{AA^T=(X^T X)^{-1}}$
maka diperoleh
$$var(\widehat{\boldsymbol{\beta}})=\frac{1}{n-k}\left[\mathbf{Y^T Y-\widehat{\boldsymbol{\beta}}X^T Y}\right]\left(\mathbf{X^T X}\right)^{-1} $$
Dari kedua nilai ini selanjutnya dapat ditentukan nilai $t_{j\text{hitung}}$ dari rasio $\beta_j$ dengan standar kesalahan $\hat{\beta_j}$ dan selanjutnya
nilai $p-value$ dari uji koefisien $\widehat{\beta_j}$.
Jika $p-value >5 \%$, maka $H_0$ diterima yang berarti $\widehat{\beta_j}=0$ dan koefisien $\widehat{\beta_j}$ tidak signifikan, yang berarti
tidak ada hubungan signifikan antara $X_j$ dengan $Y$.
Kecocokan model
Kecocokan model dapat dilihat dari nilai R-square, $R^2$, semakin besar nilainya (mendekati 1), semakin baik kecocokan modelnya.
$$R^2= \frac{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2-\sum_{i=1}^N \left(y_i-\hat{y}\right)^2}
{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2}.$$
(Lihat Mendenhall 1993).
Jadi $R^2$ ekuivalen dengan rasio penurunan jumlah kuadrat dari model yang digunakan
terhadap jumlah kuadrat deviasi terhadap rata-rata $\hat{y}$. Semakin besar $R^2$
berarti semakin kecil simpangan data terhadap garis regresi model. Secara ekstrim $R^2=1$
menunjukkan bahwa simpangan nilai observasi dengan nilai estimasi sama dengan 0 dan
model menjadi sempurna yaitu tidak ada data yang menyimpang dari (berada di luar)
garis regresi. Dengan kata lain semakin besar $R^2,$ semakin kecil
selisih nilai observasi dengan nilai rata-rata regresi yang berarti semakin besar manfaat garis regresi
dalam menjelaskan hubungan antara prediktor dan respon.-
Adjusted R-sq merpakan penyesuaian $R^2$ dengan derajat kebebasan masing-masing, dirumuskan dengan
$$R^2_{adj}=1-\frac{(1-R^2)(n-1)}{n-k-1}$$
(Wright & London, 2009)
Pemeriksaan model dapat juga dilakukan dengan menggunakan kriteria
informasi Akaike (AIC}) yang menghitung perimbangan antara besarnya
likelihood dengan banyaknya variabel dalam model. Besarnya AIC dihitung melalui rumus
berikut
$$
AIC=-2l(\boldsymbol{\hat{\theta}}) + 2q,
$$
dengan $l(\boldsymbol{\hat{\theta}})$ adalah nilai likelihood
dari model yang dihadapi dan $q$ adalah banyaknya parameter dalam model.
Secara umum, semakin kecil nilai AIC model yang dipakai semakin cocok.
Model yang dianggap terbaik adalah model dengan nilai AIC minimum.
Namun demikian, dengan pertimbangan aspek lain, perbedaan AIC yang tidak
terlalu besar mungkin dapat diabaikan.
Untuk
pembahasan lebih mendalam tentang AIC dapat dilihat pada Akaike (1972)Chamber & Hastie (1992) dan Venables & Ripley(1994)
Menentukan struktur data yang hubungan antar variabelnya memenuhi atau tidak memenuhi asumsi regresi
baik dengan memeriksa matriks korelasi, ataupun memeriksa matriks diagram pencar
Mencoba model dan memeriksa GOF model
Melakukan analisis sisa baik secara grafik maupun statistik
Melakukan perbaikan yang diperlukan (transformasi data)
Pada bagian ini disajikan secara naratif aktivasi data, langkah-langkah pemeriksaan asumsi, pemeriksaan GOF model sebagaimana teori yang disampaikan sebelumnya. Anda dapat mengaktifkan data dari database R, atau data yang anda miliki dalam format khusus (Tex atau CSV). Jika anda memiliki data dalam format excel, untuk saat ini anda harus mengkonversinya ke bentuk teks atau CSV terlebih dahulu.
Pilihan Data
Khusus untuk Import Data, File:
Header:
, Pemisah:
,
Kutipan:
Dari summary data yang ada, kita bisa menentukan variabel-variabel yang akan dijadikan variabel bebas (eksplanatori) dan variabel terikat (respon). Sebelum menentukan variabel bebas dan terikat (respon),
kita dapat juga membuat matriks korelasi untuk mendeteksi variabel-variabel yang terindikasi memiliki hubungan.
Hasil matriks korelasinya, atau matriks diagram pencarnya adalah sebagai berikut.
Luaran 1. Data Aktif
Tampilan yang lebih rinci dari data dapat dilihat pada Lampiran.
Diaram Pencar
Dari pilihan data yang dilakukan, kita bisa memperoleh gambaran kasar tentang hubungan $X$ dengan $Y$
(seperti kelinieran dan ada tidaknya pencilan) dengan melihat Grafik diagram pencarnya.
Variabel Numerik untuk Korelasi dan Diagram Pencar
Pilih variabel numerik untuyk plot atau korelasi
TAmpilan Grafiknya adalah:
Gambar 2. Grafik Matriks Diagram Pencar Beberapa Variabel.
Pemilihan Variabel Respon dan Eksplanatori
Dengan mencermati variabel-variabel yang bersifat kuantitatif (interval), selanjutnya kita bisa memilih
Pemeriksaan Secara Grafik
Pemeriksaan dan Uji Kenormalan Variabel $Y$
Untuk mendapatkan gambaran tentang distribusi $Y$ kita dapat memeriksa Grafik QQ-Plot, Histogram dan Box-Plot seperti berikut.
Gambar 1. Grafik Jenis
dari Variabel Respon $Y$.
Pemeriksaan Secara Numerik
Secara statistik hasi uji kenormalan menggunakan salah satu uji kenormalan
(
): adalah sebagai berikut
Luaran 3. Hasil Uji Kenormalan Variabel Respon
Luaran Terkait Regresi
Sebagian unsur dari $\mathbf{X}$ adalah
...
$\mathbf{X^T X}$ adalah
$\left(\mathbf{X^T X}\right)^{-1}$ adalah
$\mathbf{X^T Y}$ adalah
$\widehat{\boldsymbol{\beta}}=\mathbf{\left(X^T X\right)^{-1}X^T Y}$ adalah
Dengan
$\mathbf{V}=var(\widehat{\boldsymbol{\beta}})=\frac{1}{n-k}\left[\mathbf{Y^T Y-\widehat{\boldsymbol{\beta}}X^T Y}\right]\left(\mathbf{X^T X}\right)^{-1} $
dan kesalahan baku yang diperoleh dari akar kuadrat diagonal $\mathbf{V}$
Luaran Pengepasan dengan lm() pada R
Sintaks
lm(formula = "Y ~ X", data = ..., x = TRUE)
Selanjutnya kita bisa memeriksa luaran analisis regresi untuk melihat signifikansi model,
signifikansi masing-masing koefisien regresi $\boldsymbol{\beta}$ dan GOF yang ditunjukkan oleh
nilai $R^2$.
Luaran 4. Hasil Uji Regresi
Dari hasil di atas diperoleh $\boldsymbol{\hat{\beta}}=($
)$^T$
dengan standar error masing-masing sebesar $se_\beta=($
)$^T$. Nilai $t_j$ adalah $\displaystyle t_j=\frac{\hat{\beta_j}}{se_{\beta_j}}$, misalnya untuk $\hat{\beta_0}$ nilai $t_0$ diperoleh dari
$t_0=$
/=. Demikian juga nilai $t_1$ untuk $\hat{\beta_1}$, diperoleh dari
$t_1=$
/=, dengan derajat kebebasan $(dk)$=. Nilai $p-val$
masing-masing sebesar
()$^T$
yang dapat dihitung dengan
Selain melihat nilai estimasi dan signisfikansinya pada luaran di atas juga perlu melihat nilai ukuran kecocokan (GOF: Goodness Of Fit ) seperti berikut ini
Analisis Varians dari Regresi
Dari anova di atas kita memperoleh Jumlah Kuadrat Regresi (JKR) atau Sum squares Regression, (SSR), sebesar
dengan $dk=1$ sehingga menghasilkan MSR sama dengan SSR.
Sementara itu untuk sisa (residu) diperoleh Jumlah Kuadrat Error (JKE) atau Sum squares error, (SSE), sebesar
dengan $dk=n-2$
=sehingga akan menghasilkan $MSE=\frac{SSE}{n-2}$
=
Sedangkan nilai $F$ diperoleh dari rasio
$F=\frac{MSR}{MSE}$ =
/
=
Asumsi dari Regresi Linier diantaranya adalah (i) hubungan variabel $X$ dan $Y$ adalah linier, (ii) error/kesalahan berdistribusi Gaussian saling bebas dengan varians konstan
Estimasi parameter dapat dilakukan dengan Metode Likelihood dan Kuadrat Terkecil yang mengasilkan luaran yang sama
Pemeriksan asumsi dapat dilakukan secara grafik menggunakan grafik diagnostik pada R, ataupun dengan menggunakan beberapa uji statistika
Uji hipotesis terkait parameter dilakukan dengan melihat nilai p-value . Secara umum parameter dikatakan signifikan jika $p-value < 0,05$
Model yang dianggap lebih baik adalah model dengan nilai AIC atau BIC yang lebih kecil dan $R^2$ yang lebih besar
Perbaikan model dapat dilakukan diantaranya dengan menerapkan transformasi yang sesuai pada variabel $Y$ maupun $X$
Tugas
Dapatkah $R^2_{Adj}$ bernilai negatif, bilamana ini akan terjadi?
Dalam kasus regresi linier sederhana dengan 1 variabel $X$, apakah kriteria dengan AIC, BIC dan $R^2$ selalu
sejalan?
Jelaskan hubungan antara besaran Residual standard error, $R^2,$ dan sebaran data pada diagram pencar?
Apakah perbaikan yang anda lakukan dapat meningkatkan GOF model, dalam arti setelahnya asumsi menjadi terpenuhi dan model menjadi lebih baik (AIC menurun atau $R^2$ meningkat)?
Apakah perbaikan yang anda lakukan dapat membuat persyaratan asumsi menjadi sepenuhnya terpenuhi?
Akaike. 1972. Information theory and extension of maximum likelihood theory. In
B.N. Petrov and F.Csahi, editors, 2nd Symposium on
Information Theory: 267--281