Regeresi linier berbasis distribusi normal (normal/ classical Liniear model) merupakan salah satu
analisis statistika yang banyak dipakai parapeneliti. Regresi sederhana diturunkan atas dasar beberapa asumsi penting. Dalam praktek,
masih banyak pengguna regresi yang hanya mementingkan output dari analisis regresi dan tidak serius memeriksa dan menangani asumsi yang seharusnya dipenuhi.
Tujuan
Memahami bentuk dan asumsi regresi linier klasik
Dapat melakukan pemeriksaan asumsi baik secara graphik maupun secara numerik
Dapat melakukan analisis regresi dan memeriksa kecocokan model
Dapat menginterpretasikan hasil analisis dengan benar
Misalkan hubungan antara
peubah respon ($Y_i$) dengan peubah tetap ($X_i$) untuk subjek
$i=1,2, ... n,$ ditentukan oleh
$$
\left.\begin{array}{cccc}
Y_1&=&\beta_0 + \beta_1 X_1+\epsilon_1& \\
\vdots & \vdots & \vdots& \\
Y_i&=&\beta_0 + \beta_1 X_i+\epsilon_i&\\
\vdots & \vdots & \vdots& \\
Y_n&=&\beta_0 + \beta_1 X_n+\epsilon_n &
\end{array}
\right\}
$$
dengan:
$X_i$ adalah peubah tetap yang
tidak bersifat acak (lebih lanjut diasumsikan $X_i$ diukur tanpa
kesalahan); $\epsilon_i$, yaitu komponen kesalahannya,
adalah berdistribusi identik dan independen normal dengan nilai-tengah 0
dan varian konstan (misalnya $\sigma^2$); kesalahan individu
satu dengan lainnya saling bebas, yaitu untuk $i \neq i^\prime$,
maka $\epsilon_i || \epsilon_{i^\prime}$ atau korelasi
$\epsilon_i$ dengan $\epsilon_{i^\prime}$ adalah 0.
Dari asumsi dapat ditentukan bahwa ekspektasi dari setiap
respon adalah
$$
E\left[Y_i\right]=\beta_0 + \beta_1 X_i
$$yang merupakan sebuah garis lurus yang kita sebut garis regresi
populasi. Sedangkan sebaran setiap pasangan $(X_i,Y_i)$ akan
berada pada atau sekitar garis tersebut sesuai dengan besarnya
$\epsilon_i$.
Asumsi Penting
Berdasarkan uraian yang telah disebutkan
sebelumnya, bentuk model linear dapat dituliskan dengan dengan matrks
$$\mathbf{Y}=f(\mathbf{X},\boldsymbol{\beta})+\boldsymbol{\epsilon}.$$ Ada
beberapa asumsi mendasar dari model linier ini diantaranya:
(i) fungsi $f$ adalah fungsi linier, i.e, $\mathbf{X}\boldsymbol{\beta}$;
(ii) nilai-tengah dari kesalahan
$\epsilon_i$ yaitu $E(\epsilon_i)$ adalah 0; $E(\boldsymbol{\epsilon})=\mathbf{0};$
(iii) ragam kesalahan
adalah konstan, yaitu var$(\epsilon_i)=\sigma^2$ dan $V(\boldsymbol{\epsilon})=\sigma^2\mathbf{I};$
(iv) distribusi kesalahan adalah
normal, yaitu $\epsilon_i\sim \text{i.i.d }\; N(0,\sigma^2)$ atau
$\boldsymbol{\epsilon}\sim N(\mathbf{0},\sigma^2\mathbf{I});$
(iv) distribusi respon $Y$ adalah
normal, yaitu $Y\sim \; N\left(\mathbf{X}\boldsymbol{\beta},\sigma^2\mathbf{I}\right)$.
Pemeriksaan terhadap asumsi di atas dapat dilakukan baik melalui uji
statistika maupun secara intuitif menggunakan grafik. Dalam buku ini
hanya dibahas pemeriksaan asumsi secara intuitif menggunakan grafik/
diagram. Pada prinsipnya kegiatan ini hampir sama dengan eksplorasi
data. Bedanya adalah eksplorasi data dilakukan sebeum melakukan
analisis, sedangkan diagnostik dilakukan setelah melakukan analisis.
Dengan demikian, jika sebelum melakukan analisis telah dilakukan
eksplorasi data pekerjaan mendiagnostik model menjadi lebih
sederhana. Berikut adalah beberapa tampilan grafik yang dapat
dimanfaatkan untuk memeriksa asumsi yang diperlukan dan memperoleh
gambaran kasar secera intuitif.
Mendeteksi Asumsi
Metode Grafik
Untuk memeriksa distribusi data, secara grafis dapat dilakukan dengan membuat
beberapa grafik dianrananya: grafik QQNorm. Grafik QQNorm pada dasarnya adalah grafik yang
menyajikan sebaran quantil normal teoritis, dengan quantil data. Apabila
datanya berdistribusi normal maka sebarannya akan mendekati garis lurus.
Penyimpangan yang sangat mencolok pada ujung-ujung grafik menunjukkan datanya
menyimpang dari distribusi normal.
Penafsiran yang lebih rinci dari bentuk-bentuk grafik QQ-Norm dapat dilihat pada
Tirta (2008).
Selain itu Paket/library lm() secara automatis menyediakan 4 macam grafik yang
dapat dipergunakan untuk mendiagnostik model diantaranya:
grafik QQNorm untuk memeriksa sebaran data;
grafik
sisa untuk melihat kelinieran dan juga kekonstannan ragam;
grafik residual baku dan nilai ekspektasi;
grafik cook( Cook's Distance) untuk memeriksa adanya. Lihat Faraway[Bab
7](2002) untuk pembahasan dan diagnostik berhubungan
dengan pencilan.Tambah ringkasan penggunaan grafik di atas menurut Faraway(2002)
Pada R grafik diagnostik digabung menjadi satu tampilan yang dapat dibuat
dengan perintah plot(NamaObjek).
Ada beberapa uji kenormalan yang biasa dipilih diantaranya Uji Saphiro-Wilk, Uji Chi-Square Pearson. Berikut adalah prinsip dari beberapa uji knormalan dari beberapa jenis uji. ...
Kecocokan model
Kecocokan model dapat dilihat dari nilai R-square, $R^2$, semakin besar nilainya (mendekati 1), semakin baik kecocokan modelnya.
$$R^2= \frac{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2-\sum_{i=1}^N \left(y_i-\hat{y}\right)^2}
{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2}.$$
(Lihat Mendenhall 1993).
Jadi $R^2$ ekuivalen dengan rasio penurunan jumlah kuadrat dari model yang digunakan
terhadap jumlah kuadrat deviasi terhadap rata-rata $\hat{y}$. Semakin besar $R^2$
berarti semakin kecil simpangan data terhadap garis regresi model. Secara ekstrim $R^2=1$
menunjukkan bahwa simpangan nilai observasi dengan nilai estimasi sama dengan 0 dan
model menjadi sempurna yaitu tidak ada data yang menyimpang dari (berada di luar)
garis regresi. Dengan kata lain semakin besar $R^2,$ semakin kecil
selisih nilai observasi dengan nilai rata-rata regresi yang berarti semakin besar manfaat garis regresi
dalam menjelaskan hubungan antara prediktor dan respon.-
Adjusted R-sq merpakan penyesuaian $R^2$ dengan derajat kebebasan masing-masing, dirumuskan dengan
$$R^2_{adj}=1-\frac{(1-R^2)(n-1)}{n-k-1}$$
(Wright & London, 2009)
Pemeriksaan model dapat juga dilakukan dengan menggunakan kriteria
informasi Akaike (AIC}) yang menghitung perimbangan antara besarnya
likelihood dengan banyaknya variabel dalam model. Besarnya AIC dihitung melalui rumus
berikut
$$
AIC=-2l(\boldsymbol{\hat{\theta}}) + 2q,
$$
dengan $l(\boldsymbol{\hat{\theta}})$ adalah nilai likelihood
dari model yang dihadapi dan $q$ adalah banyaknya parameter dalam model.
Secara umum, semakin kecil nilai AIC model yang dipakai semakin cocok.
Model yang dianggap terbaik adalah model dengan nilai AIC minimum.
Namun demikian, dengan pertimbangan aspek lain, perbedaan AIC yang tidak
terlalu besar mungkin dapat diabaikan.
Untuk
pembahasan lebih mendalam tentang AIC dapat dilihat pada Akaike (1972)Chamber & Hastie (1992) dan Venables & Ripley(1994)
Menentukan struktur data yang hubungan antar variabelnya memenuhi atau tidak memenuhi asumsi regresi
baik dengan memeriksa matriks korelasi, ataupun memeriksa matriks diagram pencar
Mencoba model dan memeriksa GOF model
Melakukan analisis sisa baik secara grafik maupun statistik
Melakukan perbaikan yang diperlukan (transformasi data)
Pada bagian ini disajikan secara naratif aktivasi data, langkah-langkah pemeriksaan asumsi, pemeriksaan GOF model sebagaimana teori yang disampaikan sebelumnya. Anda dapat mengaktifkan data dari database R, atau data yang anda miliki dalam format khusus (Tex atau CSV). Jika anda memiliki data dalam format excel, untuk saat ini anda harus mengkonversinya ke bentuk teks atau CSV terlebih dahulu.
Pilihan Data
Khusus untuk Import Data, File:
Header:
, Pemisah:
,
Kutipan:
Dari summary data yang ada, kita bisa menentukan variabel-variabel yang akan dijadikan variabel bebas (eksplanatori) dan variabel terikat (respon). Sebelum menentukan variabel bebas dan terikat (respon),
kita dapat juga membuat matriks korelasi untuk mendeteksi variabel-variabel yang terindikasi memiliki hubungan.
Hasil matriks korelasinya, atau matrks diagram pencarnya adalah sebagai berikut.
Luaran 1. Data Aktif
Tampilan yang lebih rinci dari data dapat dilihat pada Lampiran.
Dengan mencermati variabel-variabel yang bersifat kuantitatif (interval), selanjutnya kita bisa memilih
Matriks Korelasi
Pemeriksaan Secara Grafik
Diaram Pencar atau Korelasi $X$ dengan $Y$
Dari pilihan data yang dilakukan, kita bisa memperoleh gambaran kasar tentang hubungan $X$ dengan $Y$
(seperti kelinieran dan ada tidaknya pencilan) dengan melihat Grafik diagram pencarnya.
Gambar 2. Grafik
Prediktor dengan Respon.
Pemeriksaan dan Uji Kenormalan Variabel $Y$
Untuk mendapatkan gambaran tentang distribusi $Y$ kita dapat memeriksa Grafik QQ-Plot, Histogram dan Box-Plot seperti berikut.
Gambar 1. Grafik Jenis
dari Variabel Respon $Y$.
Pemeriksaan Secara Numerik
Secara statistik hasi uji kenormalan menggunakan salah satu uji kenormalan
(
): adalah sebagai berikut
Luaran 3. Hasil Uji Kenormalan Variabel Respon
Pengepasan Model
Sintaks
lm(formula = "Y ~ X", data = ..., x = TRUE)
Luaran Pengepasan
Selanjutnya kita bisa memeriksa luaran analisis regresi untuk melihat signifikansi model,
signifikansi masing-masing koefisien regresi $\boldsymbol{\beta}$ dan GOF yang ditunjukkan oleh
nilai $R^2$.
Luaran 4. Hasil Uji Regresi
dengan nilai ukuran GOF seperti berikut ini
Dari hasil di atas diperoleh $\boldsymbol{\hat{\beta}}=($
)$^T$
k standar error masing-masing sebesar $se_\beta=($
)$^T$. Nilai $t_j$ adalah $\displaystyle t_j=\frac{\hat{\beta_j}}{se_{\beta_j}}$, misalnya untuk $\hat{\beta_0}$ nilai $t_0$ diperoleh dari
$t_0=$
/=. Demikian juga nilai $t_1$ untuk $\hat{\beta_1}$, diperoleh dari
$t_1=$
/=, dengan derajat kebebasan $(dk)$=. Nilai $p-val$
masing-masing sebesar
()$^T$
yang dapat dihitung dengan
Dari anova di atas kita memperoleh Jumlah Kuadrat Regresi (JKR) atau Sum squares Regression, (SSR), sebesar
dengan $dk=1$ sehingga menghasilkan MSR sama dengan SSR.
Sementara itu untuk sisa (residu) diperoleh Jumlah Kuadrat Error (JKE) atau Sum squares error, (SSE), sebesar
dengan $dk=n-2$
=sehingga akan menghasilkan $MSE=\frac{SSE}{n-2}$
=
Sedangkan nilai $F$ diperoleh dari rasio
$F=\frac{MSR}{MSE}$ =
/
=
Asumsi dari Regresi Linier diantaranya adalah (i) hubungan variabel $X$ dan $Y$ adalah linier, (ii) error/kesalahan berdistribusi Gaussian saling bebas dengan varians konstan
Estimasi parameter dapat dilakukan dengan Metode Likelihood dan Kuadrat Terkecil yang mengasilkan luaran yang sama
Pemeriksan asumsi dapat dilakukan secara grafik menggunakan grafik diagnostik pada R, ataupun dengan menggunakan beberapa uji statistika
Uji hipotesis terkait parameter dilakukan dengan melihat nilai p-value . Secara umum parameter dikatakan signifikan jika $p-value < 0,05$
Model yang dianggap lebih baik adalah model dengan nilai AIC atau BIC yang lebih kecil dan $R^2$ yang lebih besar
Perbaikan model dapat dilakukan diantaranya dengan menerapkan transformasi yang sesuai pada variabel $Y$ maupun $X$
Tugas
Dapatkah $R^2_{Adj}$ bernilai negatif, bilamana ini akan terjadi?
Dalam kasus regresi linier sederhana dengan 1 variabel $X$, apakah kriteria dengan AIC, BIC dan $R^2$ selalu
sejalan?
Jelaskan hubungan antara besaran Residual standard error, $R^2,$ dan sebaran data pada diagram pencar?
Apakah perbaikan yang anda lakukan dapat meningkatkan GOF model, dalam arti setelahnya asumsi menjadi terpenuhi dan model menjadi lebih baik (AIC menurun atau $R^2$ meningkat)?
Apakah perbaikan yang anda lakukan dapat membuat persyaratan asumsi menjadi sepenuhnya terpenuhi?
Akaike. 1972. Information theory and extension of maximum likelihood theory. In
B.N. Petrov and F.Csahi, editors, 2nd Symposium on
Information Theory: 267--281