LN: Regresi dengan prediktor Kelompok (Dummy)

UNEJ PONSTAT
Laboratorium Statistika, FMIPA Universitas Jember Jalan Kalimantan 27 Jember 68121

On Line Dynamic Statistics Module
MSL.03: REGRESI LINEAR DENGAN DUMMY

Regresi dengan Variabel Kualitatif (Dummy)

Oleh I Made Tirta, September 2022, alamat: Laboratorium Statistika, Jurusan Matematika FMIPA Universitas Jember.

Perhatian: Halaman ini bertujuan mengilustrasikan kemampuan R-shiny dalam alanisis data online model Tutorial, tetapi Paparan Teori yang ada di halaman ini belum lengkap dan tidak bisa dijadikan acuan/rujukan, harap maklum !!!

Latar belakang

Dengan kemajuan komputer, peneliti dapat melakukan alternatif-alternatif analisis dan visualisasi dengan lebih cepat. Oleh karena itu, sekarang pengguna statistika tidak saja dituntut trampil mengaplikasikan salah satu metode statistika, tetapi juga peka dalam melihat 'keganjilan' dan mengeksplorasi model model alternatif yang lebih baik, sesuai kebutuhan. Dalam modul ini dibahas analisis regresi yang mengandung variabel kelompok yang diakomodasi dengan mendefinisikan variabel boneka (dummy). Pertanyaan mendasarnya adalah "Apakah keberadaan kelompok (pengelompokan) $G$ tersebut menyebabkan terjadinya heterogenitas dalam hubungan $X$ degan $Y$ dengan kata lain, apakah $G$ berpengaruh terhadap hubungan (regresi) antara variabel $X$ dan $Y$?

Tujuan

Dapat mengeksplorasi data multivariat secara numerik dan grafik untuk melihat variabel-variabel yang terindikasi berhubungan linier
Dapat mengeksplorasi data multivariat secara numerik dan grafik untuk melihat variabel-variabel yang terindikasi berhubungan linier dengan mempertimbangkan adanya heterogenitas akibat adanya pengelompokan pada data
Dapat memilih model yang terbaik yang mempertimbangkan adanya kelompok dengan memberikan argumentasi yang sesuai
Dapat menginterpretasikan hasil analisis final berdasarkan model yang terbaik dengan memberikan argumentasi yang sesuai

Bahasan

Regresi Linier dengan Peubah Kualitatif
Model Pararel
Model Interaksi
Ilustrasi Dengan R
Eksplorasi Model secara Grafik
Pengelompokan dengan Klaster
Eksplorasi Model secara Numerik (GOF, AIC, BIC)
Hasil Pengepasan
Menentukan Model 'Terbaik'
Analisis dengan Data Lain

Analisis Regresi

Misalkan hubungan antara peubah respon ($Y_i$) dengan peubah tetap ($X_i$) untuk subjek $i=1,2, ... n,$ ditentukan oleh $$ \left.\begin{array}{cccc} Y_1&=&\beta_0 + \beta_1 X_1+\epsilon_1& \\ \vdots & \vdots & \vdots& \\ Y_i&=&\beta_0 + \beta_1 X_i+\epsilon_i&\\ \vdots & \vdots & \vdots& \\ Y_n&=&\beta_0 + \beta_1 X_n+\epsilon_n & \end{array} \right\} $$ dengan:

$X_i$ adalah peubah tetap yang tidak bersifat acak (lebih lanjut diasumsikan $X_i$ diukur tanpa kesalahan);

$\epsilon_i$, yaitu komponen kesalahannya, adalah berdistribusi identik dan independen normal dengan nilai-tengah 0 dan varian konstan (misalnya $\sigma^2$);

kesalahan individu satu dengan lainnya saling bebas, yaitu untuk $i \neq i^\prime$, maka $\epsilon_i || \epsilon_{i^\prime}$ atau korelasi $\epsilon_i$ dengan $\epsilon_{i^\prime}$ adalah 0. Dari asumsi dapat ditentukan bahwa ekspektasi dari setiap respon adalah $$ E\left[Y_i\right]=\beta_0 + \beta_1 X_i $$yang merupakan sebuah garis lurus yang kita sebut garis regresi populasi. Sedangkan sebaran setiap pasangan $(X_i,Y_i)$ akan berada pada atau sekitar garis tersebut sesuai dengan besarnya $\epsilon_i$.

Variabel Kualitatif pada Variabel Penjelas

Misalkan beberapa peubah penjelas dalam model linier merupakan peubah kualitatif (kelompok) dengan dua tingkat (misalnya L=Laki-laki dan P=perempuan). Pertanyaan mendasar dari data seperti ini adalah, apakah penyebaran data antara kelompok yang satu (L) berbeda dengan kelompok yang lain (P). Apakah garis regresi penduga data cukup diwakili satu garis atau dua garis yang berbeda.

Tabel 1. Contoh Data dengan Variabel Kualitatif (G)

No	X	Y	G
1	10,50	20,45	L
2	15,51	25	L
3	11,50	25,05	P
4	15	35	P
...	...	...	...

Perhatikan bahwa untuk input ke R, desimal harus dinyatakan dengan titik (.), misalnya 10,50 dalam input data menjadi 10.50 !!

G dalam prakteknya bisa merupakan salah satu pengelompokan yang bersifat kasat mata (hard group, seperti: Jenis Kelamin, Sekolah, Lokasi asal, Perusahan Retailer, Jenis Operasi (24 jam/ tidak) dan lain-lain. Ada kalanya kita perlu mengelompokan berdasarkan keseluruhan karakter subjek penelitian dengan menggunakan analisis klaster. Pengelompokkan dengan pengklasteran bisa disebut soft group karena bersifat laten. Ada empat kemungkinan sebaran data (X,Y) jika dipisahkan berdasarkan kelompok (G), yaitu:

kedua kelompok menyebar sama sehingga tidak perlu dibedakan antara kelompok satu dengan yang lain sehingga cenderung membentuk satu garis lurus;
kedua kelompok menyebar berbeda dengan kecenderungan memiliki kemiringan yang sama tetapi konstanta berbeda sehingga membentuk dua garis lurus sejajar ;
kedua kelompok menyebar berbeda dengan kecenderungan memiliki kemiringan yang berbeda tetapi konstanta sama sehingga membentuk dua berkas garis. Dalam analisis statistika model ini dianggap sama dengan model berikutnya (yaitu dianggap sebagai model dengan garis berbeda);
kedua kelompok menyebar berbeda dengan kecenderungan memiliki kemiringan maupun konstanta yang berbeda sehingga membentuk dua garis lurus berbeda ;

Variabel Boneka Model Paralel

Untuk menangani data dengan variabel kualitatif, kita dapat menanganinya dengan memperkenalkan varibel boneka\index[subjek]{boneka} ({\em dummy variable}). Misalkan $g$ adalah variabel kualitatif dengan $g_i=L$ atau $g_i=P$ . Kita dapat mendefinisikan vektor $\mathbf{D}$ dengan \begin{equation} D_{i}= \left\{\begin{array}{cl} 1& \text{ jika } g_i=L \\ 0& \text{ untuk yang lain} \end{array}\right. \end{equation} Dengan demikian bentuk model antara $Y_i$ dengan variabel-variabel lainnya dapat dituliskan sebagai \begin{equation} Y_i=\beta_0+\beta_1X_1+\beta_2D_i+\epsilon_i \end{equation} Jika diteliti lebih jauh, maka model untuk kelompok $L$ dan kelompok $P$, masing masing adalah: \begin{align} L:Y_i& =\beta_0+\beta_1X_i+\beta_2+\epsilon_i\nonumber \\ &= (\beta_0+\beta_2)+ \beta_1X_1 \\ P:Y_i& =\beta_0+\beta_1X_1+\epsilon_i \end{align} Dengan demikian pengenalan variabel boneka $D$ di atas menunjukkan:

model yang diperiksa adalah model linier paralel yaitu model dengan konstanta berbeda ($\beta_0$ dan $\beta_0+\beta_2$) tetapi gradien sama ($\beta_1$);
$\beta_2$ adalah parameter yang menentukan apakah model untuk kedua kelompok perlu dibedakan konstantanya

Secara formal uji hipotesis $\beta_2$ adalah

$H_0$: $\beta_2$=0 (menunjukkan model untuk kedua kelompok sama)
$H_A$: $\beta_2\neq 0$ (menunjukkan model untuk kedua kelompok berbeda)

Model dengan Interaksi

Apabila kita ingin memeriksa apakah selain konstantanya gradiennya juga berbeda, kita perlu memperkenalkan peubah boneka lain yang mewakili adanya interaksi antara peubah $X$ dengan $g$. Misalkan kita definisikan vektor $D_X$ dengan \begin{equation} D_{Xi}= D_i*X_i \end{equation} Dengan demikian bentuk model antara $Y_i$ dengan variabel-variabel lainnya dapat dituliskan sebagai \begin{equation} Y_i=\beta_0+\beta_1X_1+\beta_2D_i+\beta_3D_{Xi}+\epsilon_i \label{eq.dummy.gabung} \end{equation} Jika diteliti lebih jauh, maka sekarang model untuk kelompok $L$ dan kelompok $P$, masing masing adalah: \begin{align} L:Y_i& =\beta_0+\beta_1X_i+\beta_2+\beta_3X_i+\epsilon_i\nonumber \\ &= (\beta_0+\beta_2)+ (\beta_1+\beta_3) X_1 \\ P:Y_i& =\beta_0+\beta_1X_1+\epsilon_i \end{align} Jadi signifikan tidaknya $\beta_2$ menentukan perlu tidaknya model dengan konstanta berbeda, sedangkan signifikan tidaknya $\beta_3$ menentukan perlu tidaknya model dengan gradien berbeda untuk kedua kelompok yang ada. \begin{equation} D_{i}= \left\{\begin{array}{cl} 1& \text{ jika } g_i=L \\ 0& \text{ untuk yang lain} \end{array}\right. \end{equation}

Variabel Boneka dengan formula tanpa intercept

Dalam model dengan variabel dummy (boneka), terutama dengan aplikasi menggunakan software R, secara otomatis R menggunakan formula dummy seperti pada persamaan \eqref{eq.dummy.gabung} dan menempatkan konstanta kelompok 1 sebagai common intercept, $\beta_0$ sedangkan konstanta untuk kelompok berikutnya diperoleh dengan menjumlahkan $\beta_0$ dengan konstanta berikutnya $\beta_2$, sehingga konstanta dari kelompok berikutnya adalah $\beta_0+\beta_2$. Model ini cocok untuk memeriksa apakah tambahan konstanta $\beta_2$ signifikan untuk membuat model terpisah? Namun bagi pemula akan lebih sulit menentukan persamaan masing-masing kelompok, karena harus menghitung jumlah dua konstanta.

Dalam hal tertentu, akan lebih mudah dipahami jika komputer dapat menghitung langsung masing-masing kelompok. Dalam R ini dikenal sebagai model dengan formula tanpa intercept. Namun model ini memiliki makna yang sangat berbeda untuk model tanpa atau dengan dummy (lihat hasil Luaran 4).

Untuk model tanpa variabel dummy, model tanpa intercept model ini tidak menghitung konstanta $\beta_0$, yang mengindikasikan bahwa secara teoritis, pada saat nilai peubah penjelas nol ($x=0$), nilai respon juga cenderung nol ($y=0$);
untuk model dengan dummy atau peubah kualitatif (kelompok), model tanpa intercept ini, sesungguhnya juga tidak menghitung common intercept $\beta_0$, tetapi komputer menghitung konstanta masing-masing kelompok secara terpisah. Formula ini memudahkan interpretasi konstanta masing- masing kelompok.

Untuk model dengan variabel kualitatif dengan konstanta implisit, definisi peubah boneka harus dibuat secara terpisah untuk masing- masing kelompok seperti berikut:

diperlukan $k$ variabel boneka untuk satu peubah kualitatif dengan tingkat kelompok sebanyak $k$;
untuk peubah kualitatif $g$ dengan dua tingkat $P,L$, maka perlu didefinisikan dua peubah boneka misalnya $D_L$ dan $D_P$ dengan \begin{align} D_{Li} & = \left\{\begin{array}{cl} 1& \text{ jika } g_i=L \\ 0& \text{ untuk yang lain} \end{array}\right. \\ D_{Pi} & = \left\{\begin{array}{cl} 1& \text{ jika } g_i=P \\ 0& \text{ untuk yang lain} \end{array}\right. \end{align} Sedangkan bentuk modelnya akan menjadi \begin{equation} Y_i=\beta_2D_{Li}+\beta_3D_{Pi}+\beta_1X_1+\epsilon_i \label{eq.dummy.pisah} \end{equation} Jika diteliti lebih jauh, maka model untuk kelompok $L$ dan kelompok $P$, masing- masing adalah: \begin{align*} L:Y_i& =\beta_2+ \beta_1X_i+\epsilon_i\nonumber \\ P:Y_i& =\beta_3 + \beta_1X_1+\epsilon_i \end{align*} Jadi konstanta untuk kelompok $L$ adalah $\beta_2$ dan konstanta untuk kelompok $P$ adalah $\beta_3.$ Dalam R formula ini ditandai dengan adanya tambahan suku -1 pada formula biasanya

Kecocokan model

Kecocokan model dapat dilihat dari nilai R-square, $R^2$, semakin besar nilainya (mendekati 1), semakin baik kecocokan modelnya. $$R^2= \frac{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2-\sum_{i=1}^N \left(y_i-\hat{y}\right)^2} {\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2}.$$ (Lihat Mendenhall 1993). Jadi $R^2$ ekuivalen dengan rasio penurunan jumlah kuadrat dari model yang digunakan terhadap jumlah kuadrat deviasi terhadap rata-rata $\hat{y}$. Semakin besar $R^2$ berarti semakin kecil simpangan data terhadap garis regresi model. Secara ekstrim $R^2=1$ menunjukkan bahwa simpangan nilai observasi dengan nilai estimasi sama dengan 0 dan model menjadi sempurna yaitu tidak ada data yang menyimpang dari (berada di luar) garis regresi. Dengan kata lain semakin besar $R^2,$ semakin kecil selisih nilai observasi dengan nilai rata-rata regresi yang berarti semakin besar manfaat garis regresi dalam menjelaskan hubungan antara prediktor dan respon. Pemeriksaan model dapat juga dilakukan dengan menggunakan kriteria informasi Akaike (AIC}) yang menghitung perimbangan antara besarnya likelihood dengan banyaknya variabel dalam model. Besarnya AIC dihitung melalui rumus berikut $$ AIC=-2l(\boldsymbol{\hat{\theta}}) + 2q, $$ dengan $l(\boldsymbol{\hat{\theta}})$ adalah nilai likelihood dari model yang dihadapi dan $q$ adalah banyaknya parameter dalam model. Secara umum, semakin kecil nilai AIC model yang dipakai semakin cocok. Model yang dianggap terbaik adalah model dengan nilai AIC minimum. Namun demikian, dengan pertimbangan aspek lain, perbedaan AIC yang tidak terlalu besar mungkin dapat diabaikan. Untuk pembahasan lebih mendalam tentang AIC dapat dilihat pada Akaike (1972) Chamber & Hastie (1992) dan Venables & Ripley(1994)

Metode

Mengeksplorasi data untuk menentukan variabel-variabe yang berhubungan secara linier, termasuk dengan variabel kualitatif
Menymak hasil GOF hasil analisis untuk melihat adanya keganjilan dan perlunya mengeksplorasi model yang lebih baik
Memeriksa alternatif-alternatif model
Menentukan model yang dianggap terbaik
Menarik kesimpulan analisis berdasarkan model terbaik

Ilustrasi dengan R

Sintaks untuk melakukan analisis regresi linier sederhana adalah

lm(y~x)
lm(y~x*g) # model umum/ interaksi
lm(y~x+g) # model paralel
lm(y~g/x) # model terpisah
lm(y~x+g-1) # model tanpa intercept bersama
lm(y~g/x-1) # model tanpa intercept bersama
AIC(lm(...))
BIC(lm(...))

Ringkasan Data

Pada bagian ini disajikan secara naratif data langkah pemeriksaan asumsi dan pemeriksaan dan pemeriksaan beberapauji GOF model seperti teori yang disampaikan sebelumnya. Ringkasan data yang dimiliki dalam analisis ini adalah:

Luaran 1. Ringkasan Data Simulasi Internal

Dari summary data yang ada, kita bisa menentukan variabel-variabel (kuantitatif) yang akan dijadikan variabel bebas (eksplanatori) dan variabel terikat (respond). Sebelum menentukan variabel bebas dan terikat (respon), kita dapat juga membuat matriks korelasi untuk mendeteksi variabel-variabel yang terindikasi memiliki hubungan. Hasil matriks korelasi dan matriks diagram pencarnya adalah sebagai berikut.

Luaran 2. Korelasi antar variabel pada data

Eksplorasi Grafik Matriks Diagram Pencar

Selain melihat matriks korelasi, kita juga bisa melihat matriks diagram pencar untuk mendapatkan gambaran variabel-variabel yang terindikasi memiliki hubungan linier. Di samping itu kita juga dapat melihat indikasi adanya heterogenitas data berdasarkan kelompok yang ada dengan memeriksa diagram pencar yang mempertimbangkan kelompok

scatterplotMatrix(~x1+x2+...,  reg.line=lm,
            diagonal=c("density", "boxplot", "histogram", "oned", "qqplot", "none"),
            smooth=FALSE/TRUE,data=..., by.groups=TRUE/FALSE)

Gambar 1. Matriks Diagram Pencar dengan/tanpa memperhatikan Kelompok dan Plot Diagonal Pertanyaan: Memperhatikan gambaran grafik diagram pencar di atas, apakah pengelompokkan berdasarkan kelompok-kelompok yang ada mengindikasikan heterogenitas dalam data (pengaruh kelompok)?

Kelompok dari Klaster K-Means

Jika pengelompokan real yang ada, dirasa tidak cukup bisa menjelaskan indikasi heterogenitas pada data, kita dapat memeriksa pengelompokan dengan menggunakan analisis klaster, salah satunya yang paling sederhana adalah K-Means. Pembahasan lebih rinci tentang analisis klaster dapat dilihat pada Tirta (2015), E-Modul: KLaster Validasi dengan ClValid. Untuk membuat data $x$ menjadi $k$ klaster dengan K-Means sintaksnya adalah.

#KMeans dari paket RcmdrMisc
KMeans(x,center=k)

Selanjutnya kita juga bisa memeriksa pengelompokan berdasarkan hasil klastering data, misalnya menggunakan KMeans dengan ukuran klaster . Hasil klaster dengan KMeans adalah sebagai berikut

Pemilihan Variabel $X,Y$ dan Kelompok

Selanjutnya kita bisa memilih variabel-variabel untuk diperiksa dan dianalisis lebih lanjut
Variabel Eksplanatori (X):
Variabel Respon (Y):
Variabel Kelompok (G):

Pemeriksaan Pengaruh Kelompok dengan Model Umum

Setelah memeriksa knormalan data, pemeriksaan diteruskan dengan memeriksa grafik pencaran dan dignostik model untuk melihat apakah asumsi kelinieran dan tidak adanya outlier bisa dianggap terpenuhi.

Eksplorasi Diagram Pencar dengan Kelompok

Dari matriks diagram pencar, kita dapat lebih menfokuskan pemeriksaan pada dua variabel yang diinginkan. Pengguna dapat memilih mengikutsertakan grafik garis regresi atau tidak. Untuk informasi lebih lengkap tentang pembuatan grafik pada R dapat dilihat pada Tirta (2015), E-Modul: Grafik dengan R .

Gambar 2. Grafik Diagram Pencar Garis Regresi

Pemeriksaan dan Uji Kenormalan Residu/ Variabel Respon

Grafik QQ-Plot dari variabel terikat/ respon adalah sebagai berikut

Gambar 2. QQ-Plot dari variabel Respon (Berdistribusi Normal jika sebaran titik membentuk garis lurus (tidak keluar dari batas sabuk keyakinan)
Secara statistik dapat juga dilakukan uji kenormalan menggunakan salah satu uji berikut Hasil uji adalah sebagai berikut ini.

Luaran 3. Hasil Uji Kenormalan Variabel Respon

Data dikatakan berdistribusi Normal, jika p-value > 5%.

Eksplorasi Numerik (GOF, AIC, BIC) Regresi dengan Kelompok

Luaran 4. Hasil Uji Regresi Model Umum (Interaksi) dari data simulasi adalah seperti berikut ini. Perhatikan koefisien yang menunjukkan selisih konstanta dan selisih kemiringan apakah singnifikan atau tidak !!

Model ini Intercept. Untuk model dengan kelompok/dummy, pilihan ini dapat digunakan untuk melihat apakah konstanta regresi perlu dipisah atau tidak.
Model kandidat ini memiliki AIC dan BIC sebesar

Indikasi ada tidaknya pengaruh kelompok dapat dilihat dari signifikan tidaknya koefisien interaksi dan koefisien selisih konstanta.
Diskusi:

Dengan melihat p-val dari luaran yang ada, bagaimana uji signifikansi dari asing-masing $\beta_j$?

Berdasarkan pemeriksaan kelompok di atas, apakah ada indikasi bahwa model regresi (i) bisa digabung, (ii) diparalel, atau (ii) dipisah?

Kenapa dengan atau tanpa intercept, nilai AIC dan BIC tetap, tetapi $R^2$ berubah?

Selanjutnya kita bisa memeriksa luaran analisis regresi untuk melihat signifikansi model, signifikansi masing-masing koefisien regresi $\boldsymbol{\beta}$ dan GOF yang ditunjukkan oleh nilai $R^2$.

Pemilihan Model Final

Dari hasil telaah di atas, maka model yang lebih eksplisit yang dianggap terbaik adalah

Luaran Analisis

Luaran 5. Hasil Uji Regresi Yang dianggap Terbaik

dengan AIC dan BIC untuk model final spesifik adalah sebesar
ANAVA Regresi

Gambar 3. Grafik Diagnostik Regresi.

Matriks Desain X

Dari model di atas, bentuk matriks desain yang dipakai adalah ( baris pertama)

Bagaimana kesimpulan anda terhadap hubungan antara $X,Y,G$ yang anda pilih?

Rangkuman

Pertimbangan pengaruh variabel kualitatif (kelompok) dalam regresi, dapat dilakukan dengan mendefinisikan variabel boneka ( dummy)
Pertimbangan pengaruh variabel kualitatif (kelompok) dalam regresi, akan menghasilkan salah satu model yaitu model paralel, interaksi, atau model tanpa variabel kualitatif (tidak ada pengaruh).
Model terbaik dapat dilihat dari nilai AIC, atau BIC terkecil dan $R^2$ terbesar (terutama $R^2$ yang tersesuaikan)

Tugas

Tentukan bentuk model matematis dari persamaan regresi yang mengandung dummy dengan banyaknya kelompok 3 (tiga) atau lebih seperti yang dirumuskan pada persamaan \eqref{eq.dummy.gabung} dan \eqref{eq.dummy.pisah}.
Koefisien determinasi $R^2$ ada yang disebut tersesuaikan Adjusted-$R^2$, cari formula untuk jenis koefisien determinasi ini. Perhatikan angkanya dalam luaran R. Dapatkan anda mendeteksi perbedaan yang mencolok antara keduanya (tersesuaikan dan tidak), kapan terjadi? Dengan kata lain, kapan Adjusted-$R^2$ menjadi penting dipertimbangkan.
Tentukan indikasi atau tanda-tanda perlunya mempertimbangkan variabel kualitatif dalam model regresi
Dalam ilustrasi menggunakan komputer, untuk analisis regresi dengan kelompok, apa kelebihan dan kekurangan dari model dengan konstanta implisit dan model dengan konstanta eksplisit beri ilustrasi (termasuk bentuk dan memanfaatkan matriks desainnya)
Tentukan dan beri contoh ilustrasi melakukan prediksi dengan menggunakan model regresi dengan variabel kelompok. Misalnya Seseorang (subjek/responden) mimiliki nilai $X$ tertentu $X=x1$ (silakan tentukan nilainya), dan dia berasal dari kelompok $g1$.
Untuk mahasiswa Jurusan Matematika FMIPA UNEJ, lakukan secara berkelompok (3-4) orang dan tulis program (skrip) pada R-Studio sehingga menghasilkan luaran yang seperti anda lihat disini (dengan data yang berbeda).

SUPLEMEN: Latihan Uji Regresi dengan Data Lain termasuk Data Import

Pilih/aktifkan salah satu data berikut yang relevan, selanjutnya lakukan eksplorasi dan periksa seperti prosedur seperti yang telah ditetapkan sebelumnya. Interpretasikan/ simpulkan hasil pengujian yang dilakukan.

Aktifkan Data Baru

Pilihan data dari database internal

Ringkasan Data

Grafik Diagram Pencar

Dari hasil di atas, maka model yang lebih eksplisit yang dianggap terbaik adalah

Luaran Pengepasan Model

Luaran 6. Hasil Pengepasan Yang dianggap Terbaik Data terpilih

Dengan luaran pengepasan

dengan AIC dan BIC untuk model final spesifik adalah sebesar
ANAVA Regresi

Anda juga bisa mencoba langsung dengan data anda sendiri Pengepasan Model/ Regresi tanpa narasi
Sumber Bacaan Teori:

Akaike. 1972. Information theory and extension of maximum likelihood theory. In In B.N. Petrov and F.Csahi, editors, 2nd Symposium on Information Theory: 267--281

J.M. Chamber and T.J. Hastie. 1992. Statistical Model in S. Chapman and Hall, London.

W.N. Venables and B.D. Ripley.1994. Modern Applied Statistics with S-plus. Springer.

Tirta, IM 2009.[Bab 2 Model Linear Klasik] Analisis Regresi dengan R. UNEJ Press

Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. UNEJ Press

Wikipedia. Normality Test http://en.wikipedia.org/wiki/Normality_test[Akses 28 Oktober 2014]

Tirta, IM. 2015. E-Modul: Grafik dengan R. UNEJ Press

MSL.03: REGRESI LINEAR DENGAN DUMMY

Regresi dengan Variabel Kualitatif (Dummy)

Latar belakang

Tujuan

Bahasan

Analisis Regresi

Variabel Kualitatif pada Variabel Penjelas

Variabel Boneka Model Paralel

Model dengan Interaksi

Variabel Boneka dengan formula tanpa intercept

Kecocokan model

Metode

Ilustrasi dengan R

Ringkasan Data

Eksplorasi Grafik Matriks Diagram Pencar

Kelompok dari Klaster K-Means

Pemilihan Variabel $X,Y$ dan Kelompok

Pemeriksaan Pengaruh Kelompok dengan Model Umum

Eksplorasi Diagram Pencar dengan Kelompok

Pemeriksaan dan Uji Kenormalan Residu/ Variabel Respon

Eksplorasi Numerik (GOF, AIC, BIC) Regresi dengan Kelompok

Pemilihan Model Final

Luaran Analisis

Matriks Desain X

Rangkuman

Tugas

SUPLEMEN: Latihan Uji Regresi dengan Data Lain termasuk Data Import

Aktifkan Data Baru

Ringkasan Data

Grafik Diagram Pencar

Luaran Pengepasan Model

Sumber Bacaan Teori: