UNEJ VSL Laboratorium Statistika, FMIPA Universitas Jember Jalan Kalimantan 27 Jember 68121

Regresi Linier Normal (Model Linear Klasik)

I Made Tirta, Mei 2022, Laboratorium Statistika, Jurusan Matematika FMIPA UNEJ

Latar belakang

Regeresi linier berbasis distribusi normal (normal/ classical Liniear model) merupakan salah satu analisis statistika yang banyak dipakai parapeneliti. Regresi sederhana diturunkan atas dasar beberapa asumsi penting. Dalam praktek, masih banyak pengguna regresi yang hanya mementingkan output dari analisis regresi dan tidak serius memeriksa dan menangani asumsi yang seharusnya dipenuhi.

Tujuan

Memahami bentuk dan asumsi regresi linier klasik
Dapat melakukan pemeriksaan asumsi baik secara graphik maupun secara numerik
Dapat melakukan analisis regresi dan memeriksa kecocokan model
Dapat menginterpretasikan hasil analisis dengan benar

Materi

Regresi Linier
Langkah-langkah dalam pengepasan model
Ilustrasi dengan R
Rangkuman
Daftar Bacaan
Latihan dengan Data Sendiri

Landasan Teori

Regresi Linier Sederhana

Bentuk dan Asumsi

Misalkan hubungan antara peubah respon ($Y_i$) dengan peubah tetap ($X_i$) untuk subjek $i=1,2, ... n,$ ditentukan oleh \begin{equation} \left.\begin{array}{cccc} Y_1&=&\beta_0 + \beta_1 X_1+\epsilon_1& \\ \vdots & \vdots & \vdots& \\ Y_i&=&\beta_0 + \beta_1 X_i+\epsilon_i&\\ \vdots & \vdots & \vdots& \\ Y_n&=&\beta_0 + \beta_1 X_n+\epsilon_n & \end{array} \right\} \label{eq:model1} \end{equation} dengan:

$X_i$ adalah peubah tetap yang tidak bersifat acak (lebih lanjut diasumsikan $X_i$ diukur tanpa kesalahan);
$\epsilon_i$, yaitu komponen kesalahannya, adalah berdistribusi identik dan independen normal dengan nilai-tengah 0 dan varian konstan ($\sigma^2$), yaitu $ e_i \text{ i.i.d. } N(0,\sigma^2));$
Untuk $i \neq i^\prime$, maka $\epsilon_i || \epsilon_{i^\prime}$ atau korelasi $\epsilon_i$ dengan $\epsilon_{i^\prime}$ adalah 0.

Dari asumsi dapat ditentukan bahwa ekspektasi dari setiap respon adalah \begin{equation} E\left[Y_i\right]=\beta_0 + \beta_1 X_i \end{equation} yang merupakan sebuah garis lurus yang kita sebut garis regresi \gloss{populasi}. Sedangkan sebaran setiap pasangan $(X_i,Y_i)$ akan berada pada atau sekitar garis tersebut sesuai dengan besarnya $\epsilon_i$.

Bentuk Matriks dan Asumsinya

Berdasarkan uraian yang telah disebutkan sebelumnya, bentuk model linear dapat dituliskan dengan dengan matriks $$\mathbf{Y}=\mathbf{X}\boldsymbol{\beta}+\boldsymbol{\epsilon}.$$ Ada beberapa asumsi mendasar dari model linier ini (sering disebut sebagai Kondisi Gauss-Markov ) diantaranya seperti berikut ini.

(i) Hubungan linier, dinyatakan dalam bentuk perkalian matriks $\mathbf{X}\boldsymbol{\beta}$;

(ii) Nilai-tengah dari kesalahan $\epsilon_i$ yaitu $E(\epsilon_i)$ adalah 0; $E(\boldsymbol{\epsilon})=\mathbf{0};$

konstan

(iv) distribusi kesalahan adalah normal, yaitu $\epsilon_i\sim \text{i.i.d }\; MVN(0,\sigma^2)$ atau $\boldsymbol{\epsilon}\sim N(\mathbf{0},\sigma^2\mathbf{I});$

(iv) distribusi respon $Y$ adalah normal, yaitu $Y\sim \; N\left(\mathbf{X}\boldsymbol{\beta},\sigma^2\mathbf{I}\right)$. Pemeriksaan terhadap asumsi di atas dapat dilakukan baik melalui uji statistika maupun secara intuitif menggunakan grafik. Dalam tulisan ini hanya dibahas pemeriksaan asumsi secara intuitif menggunakan grafik/ diagram. Pada prinsipnya kegiatan ini hampir sama dengan eksplorasi data. Bedanya adalah eksplorasi data dilakukan sebeum melakukan analisis, sedangkan diagnostik dilakukan setelah melakukan analisis. Dengan demikian, jika sebelum melakukan analisis telah dilakukan eksplorasi data pekerjaan mendiagnostik model menjadi lebih sederhana. Berikut adalah beberapa tampilan grafik yang dapat dimanfaatkan untuk memeriksa asumsi yang diperlukan dan memperoleh gambaran kasar secera intuitif.

Mendeteksi Asumsi

Metode Grafik

Untuk memeriksa distribusi data, secara grafis dapat dilakukan dengan membuat beberapa grafik dianrananya: grafik QQNorm. Grafik QQNorm pada dasarnya adalah grafik yang menyajikan sebaran quantil normal teoritis, dengan quantil data. Apabila datanya berdistribusi normal maka sebarannya akan mendekati garis lurus. Penyimpangan yang sangat mencolok pada ujung-ujung grafik menunjukkan datanya menyimpang dari distribusi normal. Penafsiran yang lebih rinci dari bentuk-bentuk grafik QQ-Norm dapat dilihat pada Tirta (2008).

Selain itu Paket/library lm() secara automatis menyediakan 4 macam grafik yang dapat dipergunakan untuk mendiagnostik model diantaranya:

grafik QQNorm untuk memeriksa sebaran data;
grafik sisa untuk melihat kelinieran dan juga kekonstannan ragam;
grafik residual baku dan nilai ekspektasi;
grafik cook( Cook's Distance) untuk memeriksa adanya. Lihat Faraway[Bab 7](2002) untuk pembahasan dan diagnostik berhubungan dengan pencilan.Tambah ringkasan penggunaan grafik di atas menurut Faraway(2002)

Pada R grafik diagnostik digabung menjadi satu tampilan yang dapat dibuat dengan perintah plot(NamaObjek).

Beberapa Uji Asumsi

Untuk kajian uji beberapa asumsi regresi linier dapat dilihat pada Hay-Jahans (Bab 3, 2012).

Uji kenormalan

Ada beberapa uji kenormalan yang biasa dipilih diantaranya Uji Saphiro-Wilk, Uji Chi-Square Pearson. Berikut adalah prinsip dari beberapa uji knormalan dari beberapa jenis uji. ...

Estimasi dan Uji hipotesis

Estimasi bentuk sederhana dengan likelihood maksimum

lihat juga http://statslab-rshiny.fmipa.unej.ac.id/RDoc/Likelihood/ Sesuai dengan prinsip model linier normal, maka setiap peubah respon $Y_i$ merupakan \gloss{sampel} dari peubah acak yang berdistribusi normal dan saling independen dengan nilai-tengah $E(Y_i)=\beta_0 +\beta_1X_i$ dan ragam $\sigma^2$, yaitu $Y_i\sim N(E(Y_i),\sigma^2).$ Dengan demikian kita peroleh seperti berikut ini.

Likelihood $Y_i$ adalah \[L_i = \frac{1}{\sigma\sqrt{2\pi}}\exp\left[-\frac{1}{2}\left(\frac{Y_i-\beta_0 -\beta_1X_i}{\sigma}\right)^2\right].\]
Likelihood dari $\mathbf{Y}=(Y_1,Y_2,\cdots,Y_i,\cdots,Y_n)^T$ yang komponennya saling bebas adalah \begin{align*} L &= \prod_{i=1}^n L_i \\ & = \left[\frac{1}{\sigma\sqrt{2\pi}}\right]^n \exp\left[-\frac{1}{2}\sum_{i=1}^n \left(\frac{Y_i-\beta_0 -\beta_1X_i}{\sigma}\right)^2\right].\\ \end{align*} Log-likelihood $l=\;^e\log L =\ln L,$ selanjutnya dalam banyak buku teks statistika hanya ditulis $\log L ,$ sehingga $l$ menjadi \begin{align*} l& = -n\log\left(\sigma \sqrt{2\pi}\right)-\frac{1}{2}\sum_{i=1}^n \left(\frac{Y_i-\beta_0 -\beta_1X_i}{\sigma}\right)^2 \\ & = -\frac{n}{2}\log\left(2 \pi\sigma^2\right)-\frac{1}{2\sigma^2}\sum_{i=1}^n \left(Y_i-\beta_0 -\beta_1X_i\right)^2. \end{align*}

Selanjutnya turunan $l$ terhadap $\beta_0,\beta_1$ dan $\sigma^2$ diperoleh sebagai berikut \begin{align*} \frac{\partial l}{\partial \beta_0}&= -\frac{1}{2\sigma^2}(2)(-1)\sum_{i=1}^n \left(Y_i-\beta_0 -\beta_1X_i\right)\\ &= \frac{1}{\sigma^2}\sum_{i=1}^n \left(Y_i-\beta_0 -\beta_1X_i\right)\\ \frac{\partial l}{\partial \beta_1}&= -\frac{1}{2\sigma^2}(2)(-1)\sum_{i=1}^n \left(Y_i-\beta_0 -\beta_1X_i\right)X_i\\ \frac{\partial l}{\partial \beta_1}&= \frac{1}{\sigma^2}\sum_{i=1}^n \left(Y_i-\beta_0 -\beta_1X_i\right)X_i \\ \frac{\partial l}{\partial \sigma^2}&= -\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4} \sum_{i=1}^n \left(Y_i-\beta_0 -\beta_1X_i\right)^2. \end{align*} Dari persamaan di atas diperoleh persamaan normal untuk $\beta_0$ dan $\beta_1$ identik dengan persamaan normal \eqref{eq:normal.ls}. Selanjutnya dari $\partial l/ \partial \sigma^2=0$ diperoleh \[-n\sigma^2 + \sum_{i=1}^n \left(Y_i-\beta_0 -\beta_1X_i\right)^2=0 \] sehingga penduga kemungkinan maksimum untuk $\sigma^2$ adalah \begin{equation*} \widehat{\sigma^2} = \frac{1}{n}\sum_{i=1}^n \left(Y_i-\beta_0 -\beta_1X_i\right)^2. \end{equation*} Sebenarnya estimasi $\sigma^2$ di atas berlaku untuk kondisi $\beta_0,\beta_1$ atau $\mu$ yang diketahui. Jika tidak diketahui, maka penduga di atas akan menjadi bias. Untuk menghilangkan bias maka pembaginya (derajat kebebasannya) harus dikurangi sebesar banyaknya parameter yang harus diestimasi sebelumnya. Dalam kasus model sederhana yang kita bahas, banyaknya parameter ada 2 yaitu ($\beta_0,\beta_1$). Dengan demikian derajat kebebasannya menjadi $n-2$ dan bentuk penduga $\sigma$ untuk penduga llikelihood seteleh disesuaikan manjadi \begin{equation} \widehat{\sigma^2} = \frac{1}{n-2}\sum_{i=1}^n \left(Y_i-\hat{\beta_0} -\hat{\beta_1}X_i\right)^2 \end{equation}

Uji Inferensial dari $\hat{\beta_j}$

Sebagaimana dijelaskan dalam langkah-langkah pemodelan stokastik, bahwa besaran yang diperoleh dari penyelesaian model, yang berupa penduga, harus diuji secara statistik. Untuk keperluan ini, perlu diketahui distribusi dari penduga yang diperoleh.

Distribusi $\hat{\beta_j}$}

Setelah memperoleh estimasi dari parameter $\beta_j$, maka selanjutya kita perlu memperoleh sifat sebaran dari penduga- penduga tersebut. Dapat ditunjukkan (dianjurkan untuk membuktikan sendiri) bahwa penduga-penduga yang diperoleh adalah penduga tak bias dalam arti \[E\left[\hat{\beta_0}\right]=\beta_0 \text{ dan } E\left[\hat{\beta_1}\right]=\beta_1.\] Sedangkan untuk ragam $\beta_j$ diperoleh hasil yang berbeda untuk kasus $\sigma^2$ diketahui dan $\sigma^2$ tidak diketahui.

Distribusi $\hat{\beta_j}$ bila $\sigma^2$ diketahui

Ragam dari penduga-penduga $\hat{\beta_j}$ dapat diturunkan dengan menggunakan prinsip bahwa:

untuk suatu konstanta $c$, maka Var($cY)=c^2$ Var $(Y)$;
Bahwa $Y_i$ dan $Y_{i^\prime}$ adalah saling bebas karenanya Var$\left[\sum Y_i]\right]= \sum \left[\text{Var}(Y_i)\right];$
Var($Y_i)=\sigma^2,$ sedang komponen yang lain berfungsi sebagai peubah tidak acak sehingga tidak memiliki ragam dan dalam konteks ini dapat diaggap sebagai konstanta $c$.

Dari bentuk penduga $\hat{\beta_0}$, seperti pada persamaan \eqref{est1:b0} dan $\hat{\beta_1}$ pada persamaan \eqref{est1:b1}, dapat lihat bahwa $\hat{\beta_j}$ merupakan kombinasi linier dari $Y_i$ yang mempunyai ragam $\sigma^2$. Dari kenyataan ini dapat dihitung ragam $\hat{\beta_j}$ seperti berikut ini. Jika $\sigma^2$ diketahui, maka ragam dari penduga $\hat{\beta_0}$ dan $\hat{\beta_1}$ masing masing adalah: \begin{align} \text{Var}(\hat{\beta_0})&= \left[\frac{1}{n}+\frac{\bar{X}^2}{\sum(X_i-\bar{X})^2}\right]\sigma^2 \\ \text{Var}(\hat{\beta_1})&= \frac{\sigma^2}{\sum(X_i-\bar{X})^2} \end{align} Kita lihat bahwa sesungguhnya penduga $\hat{\beta_j}$ merupakan kombinasi linier dari $Y_i$ yang berdistribusi normal. Oleh karena itu jika $\sigma^2$ diketahui maka masing-masing penduga $\beta_j$ berdistribusi normal dengan ragam seperti pada Hasil \ref{th:var.bet}. Dengan demikian bisa kita simpulkan hasil-hasil berikut Jika $\sigma^2$ diketahui dan var ($\hat{\beta_j}$) dihitung seperti pada Hasil \ref{dl:var.bet}, maka \begin{equation} \frac{\hat{\beta}_j-\beta_j}{\sqrt{\text{var}(\hat{\beta_j})}} \sim N(0,1)\end{equation} dengan $N(0,1)$ adalah \gloss{dnb}.

Distribusi $\hat{\beta_j}$ bila $\sigma^2$ tidak diketahui

Dalam kenyataannya, $\sigma^2$ lebih sering tidak diketahui dan harus diestimasi dari data yang ada seperti yang telah dilakukan sebelumnya yaitu \[s_e^2 = \widehat{\sigma^2} = \frac{1}{n-2}\sum_{i=1}^n \left(Y_i-\hat{\beta_0} -\hat{\beta_1}X_i\right)^2\] Apabila $\sigma^2$ tidak lagi diketahui tetapi diganti dengan $\hat{\sigma^2}=s^2_e$, maka var$(\hat{\beta_j})$ dinotasikan dengan $s^2(\hat{\beta_j});\;j=0,1$ menjadi \begin{align} s^2(\hat{\beta_0})&= \left[\frac{1}{n}+\frac{\bar{X}^2}{\sum(X_i-\bar{X})^2}\right]s_e^2 \\ &= \left[\frac{1}{n}+\frac{\left(1/n\sum X_i \right)^2}{\sum X_i^2 -1/n\left(\sum X_i\right)^2}\right]s_e^2, \end{align} dan \begin{align} s^2(\hat{\beta_1})&= \frac{s_e^2}{\sum(X_i-\bar{X})^2}\\ &=\frac{s_e^2}{\sum X_i^2 -1/n\left(\sum X_i\right)^2}. \end{align} Apabila $\sigma^2$ tidak lagi diketahui tetapi diganti dengan $\hat{\sigma^2}=s^2_e$, dan var$(\hat{\beta_j})$ diganti dengan $s^2(\hat{\beta_j});\;j=0,1$, terutatama jika ukuran sampel tidak cukup besar, maka \begin{equation} \frac{\hat{\beta}_j-\beta_j}{\sqrt{s^2(\hat{\beta_j})}}=\frac{\hat{\beta}_j-\beta_j}{s(\hat{\beta_j})}\sim t_{n-2}, \end{equation} Hasil di atas dapat diperluas untuk banyaknya parameter lebih dari dua misalnya $k$. Jika ukuran sampel cukup besar, maka sesuai sifat distribusi $t$, distribusi $t$ akan mendekati N(0,1). Dengan demikian distribusinya identik dengan sebelumnya, ketika $\sigma^2$ diketahui.

Estimasi selang dari ${\beta_j}$

Sesuai dengan distribusi dari $\hat{\beta_j}$, maka estimasi selang diperoleh dengan melihat nilai $t$ atau $z$ yang membatasi prosentase atau luas daerah dari kurva fungsi kepadatannya. Pada umumnya kita menghitung estimasi selang yang simetrik. Penduga selang $\beta_j$ untuk tarap kepercayaan $(1-\alpha)\times 100 $\% atau tarap signifikansi $\alpha \times 100\%$, jika $\sigma$ diketahui atau $n$ cukup besar adalah \begin{equation} \hat{\beta_j}-z_{\alpha/2}\sqrt{var(\hat{\beta_j})} \le \beta_j \le \hat{\beta_j}+z_{\alpha/2}\sqrt{var(\hat{\beta_j})} \end{equation} Penduga selang $\beta_j$ untuk tarap kepercayaan $(1-\alpha)\times 100 $\%) atau tarap signifikansi $\alpha \times 100\%$, dinotasikan I.K $(1-\alpha)\times 100 $\% jika $\sigma$ tidak diketahui dan $n$ kecil adalah \begin{equation} \hat{\beta_j}-t_{\alpha/2,n-2}s(\hat{\beta_j}) \le \beta_j \le \hat{\beta_j}+t_{\alpha/2,n-2}s(\hat{\beta_j}) \end{equation}

Estimasi Bentuk Matriks dengan Kuadrat Terkecil

Secara umum bentuk estimasi dari parameter regresi menggunakan Kuadrat terkecil ( least square)dapat dituliskan seperti berikut

Mengubah model menjadi eksplisit terhadap matriks kesalahan, yaitu $\boldsymbol{\epsilon}=\mathbf{Y}-\mathbf{X}\boldsymbol{\beta}.$
Membentuk matriks bentuk kuadrat \begin{align} \mathbf{Q}&=\boldsymbol{\epsilon^T\epsilon}\nonumber\\ &=(\mathbf{Y}-\mathbf{X}\boldsymbol{\beta})^T(\mathbf{Y}-\mathbf{X}\boldsymbol{\beta}) \nonumber\\ &=\mathbf{Y^T Y}-2\boldsymbol{\beta}^T\mathbf{X^T Y}+\boldsymbol{\beta}^T\mathbf{X}^T\mathbf{X}\boldsymbol{\beta}. \end{align}
mencari turunan pertama dan kedua $\mathbf{Q}$ terhadap $\boldsymbol{\beta}$. \begin{align} \frac{\partial Q}{\partial \boldsymbol{\beta}} &=- 2 \mathbf{X^T Y}+2 \mathbf{X^T X}\boldsymbol{\beta}\nonumber\\ &=- 2 \left(\mathbf{X^T Y}- \mathbf{X^T X}\boldsymbol{\beta}\right)\\ \frac{\partial^2 \mathbf{Q}}{\partial \boldsymbol{\beta}^T \partial \boldsymbol{\beta}} &= 2\mathbf{X^T X.} \end{align}
Jika turunan pertama disamakan dengan 0, maka diperoleh persamaan matriks $\mathbf{X^T Y}= \mathbf{X^T X}\boldsymbol{\beta}$

Selanjutnya dapat dianggap sebagai persamaan matriks biasa (dengan asumsi $\mathbf{X}$ memiliki rank penuh) Selanjutnya dapat dianggap sebagai persamaan matriks biasa (dengan asumsi $\mathbf{X}$ memiliki rank penuh) $\mathbf{X}\boldsymbol{\beta} = \mathbf{Y} $ dengan $$ \mathbf{(X^T X)^{-1}X^T X}\boldsymbol{\beta} = \mathbf{(X^T X)^{-1}X^T Y} $$ $$\widehat{\boldsymbol{\beta}}=\mathbf{(X^T X)^{-1}X^T Y}$$ dengan menggunakan prinsip bahwa $\text{Var}\left(\mathbf{AY}\right)=\mathbf{A}\text{Var}(\mathbf{Y})\mathbf{A^T}$, dengan $\widehat{\sigma^2}$ tidak diketahui, diganti dengan kuadrat residu digani derajat kebebasannya, \begin{equation} \hat{\sigma^2}=s_e^2 = \frac{1}{n-k}\left[\mathbf{Y^T Y-\hat{\boldsymbol{\beta}}X^T Y}\right] \label{eq:sg.h.m} \end{equation} dan $\mathbf{A=(X^T X)^{-1}X^T}$, yaitu $\mathbf{AA^T=(X^T X)^{-1}}$ maka diperoleh $$var(\widehat{\boldsymbol{\beta}})=\frac{1}{n-k}\left[\mathbf{Y^T Y-\widehat{\boldsymbol{\beta}}X^T Y}\right]\left(\mathbf{X^T X}\right)^{-1} $$ Dari kedua nilai ini selanjutnya dapat ditentukan nilai $t_{j\text{hitung}}$ dari rasio $\beta_j$ dengan standar kesalahan $\hat{\beta_j}$ dan selanjutnya nilai $p-value$ dari uji koefisien $\widehat{\beta_j}$. Jika $p-value >5 \%$, maka $H_0$ diterima yang berarti $\widehat{\beta_j}=0$ dan koefisien $\widehat{\beta_j}$ tidak signifikan, yang berarti tidak ada hubungan signifikan antara $X_j$ dengan $Y$.

Kecocokan model

Kecocokan model dapat dilihat dari nilai R-square, $R^2$, semakin besar nilainya (mendekati 1), semakin baik kecocokan modelnya. $$R^2= \frac{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2-\sum_{i=1}^N \left(y_i-\hat{y}\right)^2} {\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2}.$$ (Lihat Mendenhall 1993). Jadi $R^2$ ekuivalen dengan rasio penurunan jumlah kuadrat dari model yang digunakan terhadap jumlah kuadrat deviasi terhadap rata-rata $\hat{y}$. Semakin besar $R^2$ berarti semakin kecil simpangan data terhadap garis regresi model. Secara ekstrim $R^2=1$ menunjukkan bahwa simpangan nilai observasi dengan nilai estimasi sama dengan 0 dan model menjadi sempurna yaitu tidak ada data yang menyimpang dari (berada di luar) garis regresi. Dengan kata lain semakin besar $R^2,$ semakin kecil selisih nilai observasi dengan nilai rata-rata regresi yang berarti semakin besar manfaat garis regresi dalam menjelaskan hubungan antara prediktor dan respon.- Adjusted R-sq merpakan penyesuaian $R^2$ dengan derajat kebebasan masing-masing, dirumuskan dengan $$R^2_{adj}=1-\frac{(1-R^2)(n-1)}{n-k-1}$$ (Wright & London, 2009)

Pemeriksaan model dapat juga dilakukan dengan menggunakan kriteria informasi Akaike (AIC}) yang menghitung perimbangan antara besarnya likelihood dengan banyaknya variabel dalam model. Besarnya AIC dihitung melalui rumus berikut $$ AIC=-2l(\boldsymbol{\hat{\theta}}) + 2q, $$ dengan $l(\boldsymbol{\hat{\theta}})$ adalah nilai likelihood dari model yang dihadapi dan $q$ adalah banyaknya parameter dalam model. Secara umum, semakin kecil nilai AIC model yang dipakai semakin cocok. Model yang dianggap terbaik adalah model dengan nilai AIC minimum. Namun demikian, dengan pertimbangan aspek lain, perbedaan AIC yang tidak terlalu besar mungkin dapat diabaikan. Untuk pembahasan lebih mendalam tentang AIC dapat dilihat pada Akaike (1972) Chamber & Hastie (1992) dan Venables & Ripley(1994)

Remidi Model

Lihat Hay-Jahans (Bab 4, 2012).

Transformasi mengurangi outlier

Transformasi menstabilkan varians

Transformasi menormalkan sebaran

Langkah-langkah Pencocokan Model (Model Fitting)

Menentukan struktur data yang hubungan antar variabelnya memenuhi atau tidak memenuhi asumsi regresi baik dengan memeriksa matriks korelasi, ataupun memeriksa matriks diagram pencar
Mencoba model dan memeriksa GOF model
Melakukan analisis sisa baik secara grafik maupun statistik
Melakukan perbaikan yang diperlukan (transformasi data)
Menentukan dan menginterpretasikan Model Final

Ilustrasi dengan R

Pada bagian ini disajikan secara naratif aktivasi data, langkah-langkah pemeriksaan asumsi, pemeriksaan GOF model sebagaimana teori yang disampaikan sebelumnya. Anda dapat mengaktifkan data dari database R, atau data yang anda miliki dalam format khusus (Tex atau CSV). Jika anda memiliki data dalam format excel, untuk saat ini anda harus mengkonversinya ke bentuk teks atau CSV terlebih dahulu.

Pilihan Data

Khusus untuk Import Data, File:
Header: , Pemisah: , Kutipan:

Dari summary data yang ada, kita bisa menentukan variabel-variabel yang akan dijadikan variabel bebas (eksplanatori) dan variabel terikat (respon). Sebelum menentukan variabel bebas dan terikat (respon), kita dapat juga membuat matriks korelasi untuk mendeteksi variabel-variabel yang terindikasi memiliki hubungan. Hasil matriks korelasinya, atau matriks diagram pencarnya adalah sebagai berikut.

Luaran 1. Data Aktif

Tampilan yang lebih rinci dari data dapat dilihat pada Lampiran.

Diaram Pencar

Dari pilihan data yang dilakukan, kita bisa memperoleh gambaran kasar tentang hubungan $X$ dengan $Y$ (seperti kelinieran dan ada tidaknya pencilan) dengan melihat Grafik diagram pencarnya.
Variabel Numerik untuk Korelasi dan Diagram Pencar Pilih variabel numerik untuyk plot atau korelasi

TAmpilan Grafiknya adalah:

Gambar 2. Grafik Matriks Diagram Pencar Beberapa Variabel.

Pemilihan Variabel Respon dan Eksplanatori

Dengan mencermati variabel-variabel yang bersifat kuantitatif (interval), selanjutnya kita bisa memilih

Pemeriksaan Secara Grafik

Pemeriksaan dan Uji Kenormalan Variabel $Y$

Untuk mendapatkan gambaran tentang distribusi $Y$ kita dapat memeriksa Grafik QQ-Plot, Histogram dan Box-Plot seperti berikut.

Gambar 1. Grafik Jenis dari Variabel Respon $Y$.

Pemeriksaan Secara Numerik

Secara statistik hasi uji kenormalan menggunakan salah satu uji kenormalan ( ): adalah sebagai berikut
Luaran 3. Hasil Uji Kenormalan Variabel Respon

Luaran Terkait Regresi

Sebagian unsur dari $\mathbf{X}$ adalah

...

$\mathbf{X^T X}$ adalah

$\left(\mathbf{X^T X}\right)^{-1}$ adalah

$\mathbf{X^T Y}$ adalah

$\widehat{\boldsymbol{\beta}}=\mathbf{\left(X^T X\right)^{-1}X^T Y}$ adalah

Dengan $\mathbf{V}=var(\widehat{\boldsymbol{\beta}})=\frac{1}{n-k}\left[\mathbf{Y^T Y-\widehat{\boldsymbol{\beta}}X^T Y}\right]\left(\mathbf{X^T X}\right)^{-1} $

dan kesalahan baku yang diperoleh dari akar kuadrat diagonal $\mathbf{V}$

Luaran Pengepasan dengan lm() pada R

Sintaks

lm(formula = "Y ~ X", data = ..., x = TRUE)

Selanjutnya kita bisa memeriksa luaran analisis regresi untuk melihat signifikansi model, signifikansi masing-masing koefisien regresi $\boldsymbol{\beta}$ dan GOF yang ditunjukkan oleh nilai $R^2$.
Luaran 4. Hasil Uji Regresi

Dari hasil di atas diperoleh $\boldsymbol{\hat{\beta}}=($ )$^T$ dengan standar error masing-masing sebesar $se_\beta=($ )$^T$. Nilai $t_j$ adalah $\displaystyle t_j=\frac{\hat{\beta_j}}{se_{\beta_j}}$, misalnya untuk $\hat{\beta_0}$ nilai $t_0$ diperoleh dari $t_0=$/=. Demikian juga nilai $t_1$ untuk $\hat{\beta_1}$, diperoleh dari $t_1=$/=, dengan derajat kebebasan $(dk)$=. Nilai $p-val$ masing-masing sebesar ()$^T$ yang dapat dihitung dengan

2*pt(abs(t), df, lower.tail = FALSE)

[Lihat Tirta (2009) dan Hay-Jahans (2012)]

Selain melihat nilai estimasi dan signisfikansinya pada luaran di atas juga perlu melihat nilai ukuran kecocokan (GOF: Goodness Of Fit ) seperti berikut ini

Analisis Varians dari Regresi

Dari anova di atas kita memperoleh Jumlah Kuadrat Regresi (JKR) atau Sum squares Regression, (SSR), sebesar dengan $dk=1$ sehingga menghasilkan MSR sama dengan SSR. Sementara itu untuk sisa (residu) diperoleh Jumlah Kuadrat Error (JKE) atau Sum squares error, (SSE), sebesar dengan $dk=n-2$ =sehingga akan menghasilkan $MSE=\frac{SSE}{n-2}$ = Sedangkan nilai $F$ diperoleh dari rasio $F=\frac{MSR}{MSE}$ = / =

Plot Diagnostik dari Sisa

Diagnostik regresi dan remidinya dapat dilihat pada Sheather [Bab 3, 2009]. Tirta (2009)

Gambar 3. Grafik Diagnostik Regresi. Jenis Plot (1-6):

Keterangan: 1. Residuals vs Fitted 2. Normal Q-Q, 3. Scale-Location , 4. Cook's distance , 5. Residuals vs Leverage , 6. Cook's dist vs Leverage $ \frac{h[ii]}{(1 - h[ii])}$.

Perbaikan Model

Untuk sementara model dengan transformasi variabel belum bisa disajikan secara interaktif dalam format modul. Cek menu simulasi

Rangkuman

Asumsi dari Regresi Linier diantaranya adalah (i) hubungan variabel $X$ dan $Y$ adalah linier, (ii) error/kesalahan berdistribusi Gaussian saling bebas dengan varians konstan
Estimasi parameter dapat dilakukan dengan Metode Likelihood dan Kuadrat Terkecil yang mengasilkan luaran yang sama
Pemeriksan asumsi dapat dilakukan secara grafik menggunakan grafik diagnostik pada R, ataupun dengan menggunakan beberapa uji statistika
Uji hipotesis terkait parameter dilakukan dengan melihat nilai p-value . Secara umum parameter dikatakan signifikan jika $p-value < 0,05$
Model yang dianggap lebih baik adalah model dengan nilai AIC atau BIC yang lebih kecil dan $R^2$ yang lebih besar
Perbaikan model dapat dilakukan diantaranya dengan menerapkan transformasi yang sesuai pada variabel $Y$ maupun $X$

Tugas

Dapatkah $R^2_{Adj}$ bernilai negatif, bilamana ini akan terjadi?
Dalam kasus regresi linier sederhana dengan 1 variabel $X$, apakah kriteria dengan AIC, BIC dan $R^2$ selalu sejalan?
Jelaskan hubungan antara besaran Residual standard error, $R^2,$ dan sebaran data pada diagram pencar?
Apakah perbaikan yang anda lakukan dapat meningkatkan GOF model, dalam arti setelahnya asumsi menjadi terpenuhi dan model menjadi lebih baik (AIC menurun atau $R^2$ meningkat)?
Apakah perbaikan yang anda lakukan dapat membuat persyaratan asumsi menjadi sepenuhnya terpenuhi?

Sumber Bacaan

Akaike. 1972. Information theory and extension of maximum likelihood theory. In B.N. Petrov and F.Csahi, editors, 2nd Symposium on Information Theory: 267--281
J.M. Chamber and T.J. Hastie. 1992. Statistical Model in S. Chapman and Hall, London.
W.N. Venables and B.D. Ripley.1994. Modern Applied Statistics with S-plus. Springer.
Cook, R.D 1998. Regression Graphics, Ideas for Studying Regression through Graphics. Wiley International Publ.
Cook, R.D & Weisberg, S. 1999. Applied Regression Including Computing & Graphics. Wiley International Publ.
Hay-Jahans, C. 2012. An R Companion to Linear Statistical Models . CRC Pres.
Sheather, S. 2009. A Modern Appoach to Regression with R. Springer
Tirta, IM 2009. Analisis Regresi dengan R . Jember Uniersity Press
Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. Unej Press
Sahbaba B. 2012. Chapter 3. Data Exploration Biostatistics with R . Springer
Wright, D.B. & K. London, 2009Modern Regression Techniques Using R A Practical Guide for Students and Researchers. Sage
Wikipedia. Normality Test http://en.wikipedia.org/wiki/Normality_test[Akses 28 Oktober 2014]

Lampiran Data

Lampiran 1. Data Untuk Analisis. Banyak kasus yang ingin ditampilkan ( $n \leq N$) .

SUPLEMEN: Latihan dengan Data Sendiri

Input Data

Input data (khusus format CSV/TEKS)