logoUNEJ UNEJ PONSTAT Laboratorium Statistika, FMIPA Universitas Jember Jalan Kalimantan 27 Jember 68121

Regresi Linier Normal (Model Linear Klasik)


Hit Counter
Hit Counter

Latar belakang

Regeresi linier berbasis distribusi normal (normal/ classical Liniear model) merupakan salah satu analisis statistika yang banyak dipakai parapeneliti. Regresi sederhana diturunkan atas dasar beberapa asumsi penting. Dalam praktek, masih banyak pengguna regresi yang hanya mementingkan output dari analisis regresi dan tidak serius memeriksa dan menangani asumsi yang seharusnya dipenuhi.

Tujuan

  1. Memahami bentuk dan asumsi regresi linier klasik
  2. Dapat melakukan pemeriksaan asumsi baik secara graphik maupun secara numerik
  3. Dapat melakukan analisis regresi dan memeriksa kecocokan model
  4. Dapat menginterpretasikan hasil analisis dengan benar

Materi

  1. Regresi Linier
  2. Langkah-langkah dalam pengepasan model
  3. Ilustrasi dengan R
  4. Rangkuman
  5. Daftar Bacaan
  6. Latihan dengan Data Sendiri

Landasan Teori

Regresi Linier Sederhana

Misalkan hubungan antara peubah respon ($Y_i$) dengan peubah tetap ($X_i$) untuk subjek $i=1,2, ... n,$ ditentukan oleh $$ \left.\begin{array}{cccc} Y_1&=&\beta_0 + \beta_1 X_1+\epsilon_1& \\ \vdots & \vdots & \vdots& \\ Y_i&=&\beta_0 + \beta_1 X_i+\epsilon_i&\\ \vdots & \vdots & \vdots& \\ Y_n&=&\beta_0 + \beta_1 X_n+\epsilon_n & \end{array} \right\} $$ dengan: $X_i$ adalah peubah tetap yang tidak bersifat acak (lebih lanjut diasumsikan $X_i$ diukur tanpa kesalahan); $\epsilon_i$, yaitu komponen kesalahannya, adalah berdistribusi identik dan independen normal dengan nilai-tengah 0 dan varian konstan (misalnya $\sigma^2$); kesalahan individu satu dengan lainnya saling bebas, yaitu untuk $i \neq i^\prime$, maka $\epsilon_i || \epsilon_{i^\prime}$ atau korelasi $\epsilon_i$ dengan $\epsilon_{i^\prime}$ adalah 0. Dari asumsi dapat ditentukan bahwa ekspektasi dari setiap respon adalah $$ E\left[Y_i\right]=\beta_0 + \beta_1 X_i $$yang merupakan sebuah garis lurus yang kita sebut garis regresi populasi. Sedangkan sebaran setiap pasangan $(X_i,Y_i)$ akan berada pada atau sekitar garis tersebut sesuai dengan besarnya $\epsilon_i$.

Asumsi Penting

Berdasarkan uraian yang telah disebutkan sebelumnya, bentuk model linear dapat dituliskan dengan dengan matrks $$\mathbf{Y}=f(\mathbf{X},\boldsymbol{\beta})+\boldsymbol{\epsilon}.$$ Ada beberapa asumsi mendasar dari model linier ini diantaranya: Pemeriksaan terhadap asumsi di atas dapat dilakukan baik melalui uji statistika maupun secara intuitif menggunakan grafik. Dalam buku ini hanya dibahas pemeriksaan asumsi secara intuitif menggunakan grafik/ diagram. Pada prinsipnya kegiatan ini hampir sama dengan eksplorasi data. Bedanya adalah eksplorasi data dilakukan sebeum melakukan analisis, sedangkan diagnostik dilakukan setelah melakukan analisis. Dengan demikian, jika sebelum melakukan analisis telah dilakukan eksplorasi data pekerjaan mendiagnostik model menjadi lebih sederhana. Berikut adalah beberapa tampilan grafik yang dapat dimanfaatkan untuk memeriksa asumsi yang diperlukan dan memperoleh gambaran kasar secera intuitif.

Mendeteksi Asumsi

Metode Grafik

Untuk memeriksa distribusi data, secara grafis dapat dilakukan dengan membuat beberapa grafik dianrananya: grafik QQNorm. Grafik QQNorm pada dasarnya adalah grafik yang menyajikan sebaran quantil normal teoritis, dengan quantil data. Apabila datanya berdistribusi normal maka sebarannya akan mendekati garis lurus. Penyimpangan yang sangat mencolok pada ujung-ujung grafik menunjukkan datanya menyimpang dari distribusi normal. Penafsiran yang lebih rinci dari bentuk-bentuk grafik QQ-Norm dapat dilihat pada Tirta (2008).

Selain itu Paket/library lm() secara automatis menyediakan 4 macam grafik yang dapat dipergunakan untuk mendiagnostik model diantaranya:

  1. grafik QQNorm untuk memeriksa sebaran data;
  2. grafik sisa untuk melihat kelinieran dan juga kekonstannan ragam;
  3. grafik residual baku dan nilai ekspektasi;
  4. grafik cook( Cook's Distance) untuk memeriksa adanya. Lihat Faraway[Bab 7](2002) untuk pembahasan dan diagnostik berhubungan dengan pencilan.Tambah ringkasan penggunaan grafik di atas menurut Faraway(2002)
Pada R grafik diagnostik digabung menjadi satu tampilan yang dapat dibuat dengan perintah plot(NamaObjek).

Beberapa Uji Asumsi

Untuk kajian uji beberapa asumsi regresi linier dapat dilihat pada Hay-Jahans (Bab 3, 2012).

Uji kenormalan

Ada beberapa uji kenormalan yang biasa dipilih diantaranya Uji Saphiro-Wilk, Uji Chi-Square Pearson. Berikut adalah prinsip dari beberapa uji knormalan dari beberapa jenis uji. ...

Estimasi dan Uji hipotesis

Secara umum bentuk estimasi dari parameter regresi dapat dituliskan seperti berikut $$\widehat{\boldsymbol{\beta}}=\mathbf{(X^TX)^{-1}X^TY}$$ dengan $$var(\widehat{\boldsymbol{\beta}})=\frac{1}{n-k}\left[\mathbf{Y^TY-\widehat{\boldsymbol{\beta}}X^TY}\right]\left(\mathbf{X^TX}\right)^{-1} $$ Dari kedua nilai ini selanjutnya dapat ditentukan nilai $t_\text{hitung}$ dan $p-value$ dari koefisien $\widehat{\beta_j}$. Jika $p-value >5 \%$, maka $H_0$ diterima yang berarti $\widehat{\beta_j}=0$ dan koefisien $\widehat{\beta_j}$ tidak signifikan, yang berarti tidak ada hubungan signifikan antara $X_j$ dengan $Y$.

Kecocokan model

Kecocokan model dapat dilihat dari nilai R-square, $R^2$, semakin besar nilainya (mendekati 1), semakin baik kecocokan modelnya. $$R^2= \frac{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2-\sum_{i=1}^N \left(y_i-\hat{y}\right)^2} {\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2}.$$ (Lihat Mendenhall 1993). Jadi $R^2$ ekuivalen dengan rasio penurunan jumlah kuadrat dari model yang digunakan terhadap jumlah kuadrat deviasi terhadap rata-rata $\hat{y}$. Semakin besar $R^2$ berarti semakin kecil simpangan data terhadap garis regresi model. Secara ekstrim $R^2=1$ menunjukkan bahwa simpangan nilai observasi dengan nilai estimasi sama dengan 0 dan model menjadi sempurna yaitu tidak ada data yang menyimpang dari (berada di luar) garis regresi. Dengan kata lain semakin besar $R^2,$ semakin kecil selisih nilai observasi dengan nilai rata-rata regresi yang berarti semakin besar manfaat garis regresi dalam menjelaskan hubungan antara prediktor dan respon.- Adjusted R-sq merpakan penyesuaian $R^2$ dengan derajat kebebasan masing-masing, dirumuskan dengan $$R^2_{adj}=1-\frac{(1-R^2)(n-1)}{n-k-1}$$ (Wright & London, 2009)

Pemeriksaan model dapat juga dilakukan dengan menggunakan kriteria informasi Akaike (AIC}) yang menghitung perimbangan antara besarnya likelihood dengan banyaknya variabel dalam model. Besarnya AIC dihitung melalui rumus berikut $$ AIC=-2l(\boldsymbol{\hat{\theta}}) + 2q, $$ dengan $l(\boldsymbol{\hat{\theta}})$ adalah nilai likelihood dari model yang dihadapi dan $q$ adalah banyaknya parameter dalam model. Secara umum, semakin kecil nilai AIC model yang dipakai semakin cocok. Model yang dianggap terbaik adalah model dengan nilai AIC minimum. Namun demikian, dengan pertimbangan aspek lain, perbedaan AIC yang tidak terlalu besar mungkin dapat diabaikan. Untuk pembahasan lebih mendalam tentang AIC dapat dilihat pada Akaike (1972) Chamber & Hastie (1992) dan Venables & Ripley(1994)

Remidi Model

Lihat Hay-Jahans (Bab 4, 2012).

Transformasi mengurangi outlier

Transformasi menstabilkan varians

Transformasi menormalkan sebaran

Langkah-langkah Pencocokan Model (Model Fitting)

  1. Menentukan struktur data yang hubungan antar variabelnya memenuhi atau tidak memenuhi asumsi regresi baik dengan memeriksa matriks korelasi, ataupun memeriksa matriks diagram pencar
  2. Mencoba model dan memeriksa GOF model
  3. Melakukan analisis sisa baik secara grafik maupun statistik
  4. Melakukan perbaikan yang diperlukan (transformasi data)
  5. Menentukan dan menginterpretasikan Model Final

Ilustrasi dengan R

Pada bagian ini disajikan secara naratif aktivasi data, langkah-langkah pemeriksaan asumsi, pemeriksaan GOF model sebagaimana teori yang disampaikan sebelumnya. Anda dapat mengaktifkan data dari database R, atau data yang anda miliki dalam format khusus (Tex atau CSV). Jika anda memiliki data dalam format excel, untuk saat ini anda harus mengkonversinya ke bentuk teks atau CSV terlebih dahulu.

Pilihan Data

Khusus untuk Import Data, File:
Header: , Pemisah: , Kutipan:

Dari summary data yang ada, kita bisa menentukan variabel-variabel yang akan dijadikan variabel bebas (eksplanatori) dan variabel terikat (respon). Sebelum menentukan variabel bebas dan terikat (respon), kita dapat juga membuat matriks korelasi untuk mendeteksi variabel-variabel yang terindikasi memiliki hubungan. Hasil matriks korelasinya, atau matriks diagram pencarnya adalah sebagai berikut.

Luaran 1. Data Aktif

  
Tampilan yang lebih rinci dari data dapat dilihat pada Lampiran.
Diaram Pencar
Dari pilihan data yang dilakukan, kita bisa memperoleh gambaran kasar tentang hubungan $X$ dengan $Y$ (seperti kelinieran dan ada tidaknya pencilan) dengan melihat Grafik diagram pencarnya.
Variabel Numerik untuk Korelasi dan Diagram Penar
Gambar 2. Grafik Matriks Diagram Pencar Beberapa Variabel.
Pemilihan Variabel Respon dan Eksplanatori
Dengan mencermati variabel-variabel yang bersifat kuantitatif (interval), selanjutnya kita bisa memilih

Pemeriksaan Secara Grafik

Pemeriksaan dan Uji Kenormalan Variabel $Y$
Untuk mendapatkan gambaran tentang distribusi $Y$ kita dapat memeriksa Grafik QQ-Plot, Histogram dan Box-Plot seperti berikut.
Gambar 1. Grafik Jenis dari Variabel Respon $Y$.
Pemeriksaan Secara Numerik
Secara statistik hasi uji kenormalan menggunakan salah satu uji kenormalan ( ): adalah sebagai berikut
Luaran 3. Hasil Uji Kenormalan Variabel Respon

  

Pengepasan Model

Sintaks
lm(formula = "Y ~ X", data = ..., x = TRUE)
Luaran Pengepasan
Selanjutnya kita bisa memeriksa luaran analisis regresi untuk melihat signifikansi model, signifikansi masing-masing koefisien regresi $\boldsymbol{\beta}$ dan GOF yang ditunjukkan oleh nilai $R^2$.
Luaran 4. Hasil Uji Regresi
      
dengan nilai ukuran GOF seperti berikut ini

Dari hasil di atas diperoleh $\boldsymbol{\hat{\beta}}=($ )$^T$ dengan standar error masing-masing sebesar $se_\beta=($ )$^T$. Nilai $t_j$ adalah $\displaystyle t_j=\frac{\hat{\beta_j}}{se_{\beta_j}}$, misalnya untuk $\hat{\beta_0}$ nilai $t_0$ diperoleh dari $t_0=$ /=. Demikian juga nilai $t_1$ untuk $\hat{\beta_1}$, diperoleh dari $t_1=$ /=, dengan derajat kebebasan $(dk)$= . Nilai $p-val$ masing-masing sebesar ( )$^T$ yang dapat dihitung dengan

2*pt(abs(t), df, lower.tail = FALSE)
[Lihat Tirta (2009) dan Hay-Jahans (2012)]

Analisis Varians dari Regresi


Dari anova di atas kita memperoleh Jumlah Kuadrat Regresi (JKR) atau Sum squares Regression, (SSR), sebesar dengan $dk=1$ sehingga menghasilkan MSR sama dengan SSR. Sementara itu untuk sisa (residu) diperoleh Jumlah Kuadrat Error (JKE) atau Sum squares error, (SSE), sebesar dengan $dk=n-2$ = sehingga akan menghasilkan $MSE=\frac{SSE}{n-2}$ = Sedangkan nilai $F$ diperoleh dari rasio $F=\frac{MSR}{MSE}$ = / =

Plot Diagnostik dari Sisa

Diagnostik regresi dan remidinya dapat dilihat pada Sheather [Bab 3, 2009]. Tirta (2009)

Gambar 3. Grafik Diagnostik Regresi. Jenis Plot (1-6):

Keterangan: 1. Residuals vs Fitted 2. Normal Q-Q, 3. Scale-Location , 4. Cook's distance , 5. Residuals vs Leverage , 6. Cook's dist vs Leverage $ \frac{h[ii]}{(1 - h[ii])}$.

Perbaikan Model

Untuk sementara model dengan transformasi variabel belum bisa disajikan secara interaktif dalam format modul. Cek menu simulasi

Rangkuman

  1. Asumsi dari Regresi Linier diantaranya adalah (i) hubungan variabel $X$ dan $Y$ adalah linier, (ii) error/kesalahan berdistribusi Gaussian saling bebas dengan varians konstan
  2. Estimasi parameter dapat dilakukan dengan Metode Likelihood dan Kuadrat Terkecil yang mengasilkan luaran yang sama
  3. Pemeriksan asumsi dapat dilakukan secara grafik menggunakan grafik diagnostik pada R, ataupun dengan menggunakan beberapa uji statistika
  4. Uji hipotesis terkait parameter dilakukan dengan melihat nilai p-value . Secara umum parameter dikatakan signifikan jika $p-value < 0,05$
  5. Model yang dianggap lebih baik adalah model dengan nilai AIC atau BIC yang lebih kecil dan $R^2$ yang lebih besar
  6. Perbaikan model dapat dilakukan diantaranya dengan menerapkan transformasi yang sesuai pada variabel $Y$ maupun $X$

Tugas

  1. Dapatkah $R^2_{Adj}$ bernilai negatif, bilamana ini akan terjadi?
  2. Dalam kasus regresi linier sederhana dengan 1 variabel $X$, apakah kriteria dengan AIC, BIC dan $R^2$ selalu sejalan?
  3. Jelaskan hubungan antara besaran Residual standard error, $R^2,$ dan sebaran data pada diagram pencar?
  4. Apakah perbaikan yang anda lakukan dapat meningkatkan GOF model, dalam arti setelahnya asumsi menjadi terpenuhi dan model menjadi lebih baik (AIC menurun atau $R^2$ meningkat)?
  5. Apakah perbaikan yang anda lakukan dapat membuat persyaratan asumsi menjadi sepenuhnya terpenuhi?

Sumber Bacaan

  1. Akaike. 1972. Information theory and extension of maximum likelihood theory. In B.N. Petrov and F.Csahi, editors, 2nd Symposium on Information Theory: 267--281
  2. J.M. Chamber and T.J. Hastie. 1992. Statistical Model in S. Chapman and Hall, London.
  3. W.N. Venables and B.D. Ripley.1994. Modern Applied Statistics with S-plus. Springer.
  4. Cook, R.D 1998. Regression Graphics, Ideas for Studying Regression through Graphics. Wiley International Publ.
  5. Cook, R.D & Weisberg, S. 1999. Applied Regression Including Computing & Graphics. Wiley International Publ.
  6. Hay-Jahans, C. 2012. An R Companion to Linear Statistical Models . CRC Pres.
  7. Sheather, S. 2009. A Modern Appoach to Regression with R. Springer
  8. Tirta, IM 2009. Analisis Regresi dengan R . Jember Uniersity Press
  9. Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. Unej Press
  10. Sahbaba B. 2012. Chapter 3. Data Exploration Biostatistics with R . Springer
  11. Wright, D.B. & K. London, 2009Modern Regression Techniques Using R A Practical Guide for Students and Researchers. Sage
  12. Wikipedia. Normality Test http://en.wikipedia.org/wiki/Normality_test [Akses 28 Oktober 2014]

Lampiran Data

Lampiran 1. Data Untuk Analisis. Banyak kasus yang ingin ditampilkan ( $n \leq N$) .

  

SUPLEMEN: Latihan dengan Data Sendiri

Input Data

Input data (khusus format CSV/TEKS)