logoUNEJ UNEJ PONSTAT Laboratorium Statistika, FMIPA Universitas Jember Jalan Kalimantan 27 Jember 68121

Regresi dengan Statistika Intensif Komputer (CIS)


Hit Counter
Hit Counter

Bootstrap

Latar belakang

Bootstrapping adalah suatu metode untuk menderivasikan estimasi yang kuat dari eror standar dan interval kepercayaan untuk mengestimasi proporsi, rerata, median, odds ratio, koefisien korelasi atau koefisien regresi. Bootstrapping juga dapat digunakan untuk mengembangkan uji hipotesis. Bootstrapping sangat berguna sebagai alternatif untuk estimasi parameter ketika peneliti merasa ragu dapat memenuhi asumsi pada data mereka. Misalnya kasus heteroskedastisitas muncul pada analisis regresi karena ukuran sampel yang kita miliki kecil. Bootstrapping juga berguna ketika inferensi parametrik tidak mungkin dilakukan atau memerlukan rumus yang sangat rumit untuk menghitung eror standaruntuk median, kuartil, persentil dan lainnya.

Tujuan

  1. Mengenal proses bootstrap dan kegunaannya.
  2. Menjelaskan prosedur estimasi parameter regresi linier dengan metode bootstrap.
  3. Dapat melihat hasil estimasi bootstrap baik secara grafik maupun numerik.

Materi

  1. Metode Bootstrap
  2. Metode Bootstrap Pasangan untuk Regresi
  3. Ilustrasi dengan R
  4. Rangkuman
  5. Daftar Bacaan
  6. Latihan dengan Data Sendiri

Landasan Teori

Metode Bootstrap

Metode bootstrap merupakan metode yang digunakan untuk mengestimasi suatu distribusi populasi yang tidak diketahui dengan distribusi empiris yang diperoleh dari proses penyampelan ulang (Efron dan Tibshirani, 1993:5). Teknik penarikan sampel metode bootstrap adalah dengan pengembalian dari sebuah sampel asli. Sampel asli merupakan sampel yang diperoleh dari hasil observasi yang diperlakukan seolah-olah sebagai populasi. Nama bootstrap sendiri diambil dari sebuah frase  “Pull up by your own Bootstrap ” yang artinya adalah bergantunglah pada sumbermu sendiri. Dalam hal ini, metode bootstrap bergantung pada sampel yang merupakan satu – satunya sumber yang dimiliki oleh seorang peneliti.
( Teknomo, 2005:1 )

Tujuan utama penggunaan bootstrap adalah untuk memperoleh estimasi parameter berdasarkan data yang minimal dengan bantuan komputer. Dalam statistika, data yang minimal dapat diartikan sebagai data yang sedikit, data yang menyimpang dari asumsi tertentu, atau bahkan data yang tidak memiliki asumsi apapun tentang distribusinya.

Jumlah Replikasi Bootstrap

Menurut (Efron dan Tibshirani, 1993 :52) terdapat beberapa hal yang perlu diperhatikan mengenai jumlah replikasi bootstrap, yaitu:
  1. Meskipun jumlah replikasi bootstrap kecil, misal B = 25, biasanya sudah cukup informatif. Tetapi dengan B = 50, sudah sangat cukup untuk memberikan estimasi $ {\mathit{se}}_{F}\left(\hat{\theta} \right) $ yang akurat.
  2. Jumlah replikasi bootstrap yang besar, misalnya B = 200, biasanya tidak perlu dilakukan dalam mengestimasi standar error (jumlah replikasi bootstrap yang besar diperlukan dalam interval konfidensi bootstrap).

Asumsi Metode Bootstrap

Menurut Teknomo (2005: 9) metode bootstrap memiliki beberapa asumsi , yaitu
  1. Sampel yang dimiliki merupakan sampel yang sesuai untuk mewakili populasi.
  2. Metode bootstrap adalah metode yang digunakan untuk mengestimasi suatu distribusi populasi yang tidak diketahui dengan distribusi empiris yang diperoleh dari proses penyampelan ulang. Setiap sampel bootstrap berdistribusi sama satu dengan lainnya, atau dapat diasumsikan bahwa sampel bootstrap berasal dari distribusi populasi yang sama, tetapi setiap sampel bootstrap saling independen.

Bias Bootstrap

Metode bootstrap dapat digunakan untuk mengestimasi bias dari estimator $ \hat{\theta} = s\left(x \right) $. Estimator bootstrap untuk bias didefinisikan sebagai , yaitu:
$ Bias_{B}^{*} = B^{-1}\sum_{b=1}^{B} \hat{\theta }^{*}\left(b \right) - \hat{\theta} $ , dengan adalah banyak replikasi bootstrap

Standard Error Bootstrap

Estimator bootstrap untuk $ se_{F}\left(\hat{\theta} \right) $, standar error dari statistik $ \hat{\theta} $ adalah estimator plug-in yang digunakan pada fungsi distribusi empiris $ \hat{F} $ pada distribusi F yang tidak diketahui. estimator bootstrap untuk $ se_{F}\left(\hat{\theta} \right) $ didefinisikan sebagai berikut : $$ se_{\hat{F}}\left(\hat{\theta}^{*} \right) = \begin{bmatrix}E_{\hat{F}} \begin{Bmatrix} \left(\hat{\theta}^{*} \right) - E_{\hat{F}}\left(\hat{\theta}^{*} \right) \end{Bmatrix}^{2}\end{bmatrix}^{\frac{1}{2}} $$ Dengan kata lain, estimator bootstrap $ se_{F}\left(\hat{\theta} \right) $ adalah standar error dari $ \hat{\theta} $ untuk set data pada sampel random berukuran n dari $ \hat{F} $. Estimator standar error bootstrap mungkin tidak akan mudah untuk diselesaikan. Oleh karena itu digunakan algoritma bootstrap untuk mendekati $ se_{F}\left(\hat{\theta} \right) $ secara numerik. Algoritma bootstrap merupakan cara komputasi untuk mendapatkan pendekatan yang baik terhadap nilai dari $ se_{F}\left(\hat{\theta}^{*} \right)$. Algoritma bootstrap untuk mengestimasi standar error $\hat{\theta}$ adalah sebagai berikut :
  1. Pilih B sampel independen bootstrap $x^{*1},x^{*1},.....,x^{*B}$, dengan tiap- tiap sampel beranggotakan n data yang ditarik dengan pengembalian dari .
  2. Evaluasi replikasi bootstrap yang bersesuaian pada setiap sampel bootstrap $\hat{\theta}^{*}\left(b\right) = s\left(x^{*b}\right)$, dengan $b = 1,2,.....,B$
  3. Mengestimasi standar error $se_{F}\left(\hat{\theta} \right)$ dengan menggunakan standar deviasi sampel dari B replikasi $$ \hat{se}_{B} = \begin{Bmatrix} \sum_{b=1}^{B}\frac{\begin{bmatrix} \hat{\theta}^{*}\left(b\right) - \hat{\theta}^{*}\left(.\right) \end{bmatrix}^{2}} {B-1} \end{Bmatrix}^{-\frac{1}{2}} $$ dengan $$ \hat{\theta}^{*}\left(.\right) = \sum_{b=1}^{B}\frac{\hat{\theta}^{*}\left(b\right)}{B} $$
Untuk mengestimasi standar error dari $\hat{\theta} = s\left(x\right)$. Masing-masing sampel bootstrap adalah sampel random yang independen berukuran $n$ dari $\hat{F}$. Banyak replikasi bootstrap B untuk mengestimasi standar error biasanya antara 25 – 200. Jika $B\rightarrow\infty$, $\hat{se}_{B}$ mendekati estimator plug-in dari $se_{F}\left(\hat{\theta}\right)$. Limit $se_{F}$ dengan B mendekati tak hingga adalah estimator bootstrap yang sesuai untuk $se_{F}\left(\hat{\theta}\right)$ : $$ \lim_{B\rightarrow\infty}\hat{se}_{B}=se_{\hat{F}}=se_{\hat{F}}\left(\hat{\theta}^{*}\right) $$ Kenyataan bahwa $\hat{se}_{B}$ mendekati $\hat{se}_{\hat{F}}$ dengan B menuju tak hingga dapat menunjukkan bahwa standar error empiris mendekati standar error populasi, jika replikasinya semakin banyak. Estimator bootstrap untuk $\hat{se}_{\hat{F}}\left(\hat{\theta}^{*}\right)$ dan pendekatannya, $\hat{se}_{B}$, disebut estimasi nonparametrik bootstrap karena estimasinya berdasarkan $\hat{B}$.

Interval Konfidensi Bootstrap

Untuk memperoleh interval konfidensi pada bootstrap terdapat beberapa metode yang dapat digunakan, salah satunya adalah bootstrap percentile interval atau interval persentil bootstrap. Misalkan dibangkitkan suatu data set $x^{*}$, kemudian dihitung replikasi bootstrap $\hat{\theta}^{*} = s\left(x^{*}\right)$. Jika $\hat{G}$ adalah fungsi distribusi komulatif dari $\hat{\theta}^{*}$, interval persentil ke-$\left(1 - 2\alpha\right)$ didefinisikan dengan persentil ke-$\alpha$ dan ke-$\left(1 - \alpha\right)$ dari $\hat{G}$: $$ \begin{bmatrix} \hat{\theta}_{\%.lo},\hat{\theta}_{\%.up} \end{bmatrix} = \begin{bmatrix} \hat{G}^{-1}\left(\alpha\right),\hat{G}^{-1}\left(1 - \alpha\right) \end{bmatrix} $$ Dengan definisi bahwa $\hat{G}^{-1}\left(\alpha\right) = \hat{\theta}^{*\left(1 - \alpha\right)}$ adalah persentil ke-$\alpha$ distribusi bootstrap, maka interval persentil dapat ditulis dengan: $$ \begin{bmatrix} \hat{\theta}_{\%.lo},\hat{\theta}_{\%.up} \end{bmatrix} = \begin{bmatrix} \hat{\theta}^{*\left(\alpha\right)},\hat{\theta}^{*\left(1 - \alpha\right)} \end{bmatrix} $$ Bentuk diatas sama dengan keadaan bootstrap yang ideal, dimana jumlah replikasi bootstrapnya tidak terbatas. Pada kenyataannya jumlah replikasi bootstrap yang digunakan terbatas. Langkah pertama yang dilakukan untuk mengestimasi interval konfidensi bootstrap adalah membentuk sejumlah b data set independen $x^{*1},x^{*2},.....,x^{*B}$. Kemudian menghitung replikasi bootstrap $\hat{\theta}^{*}\left(b\right) = s\left(x^{*b}\right)$, b = 1, 2, ....., B. Dengan persentil empiris ke-100$\alpha$ dari nilai $\hat{\theta}^{*}\left(b\right)$, yaitu nilai ke-B$\alpha$ dalam urutan replikasi B dari $\hat{\theta}^{*}$. Jadi jika B = 2000 dan $\alpha$ = 0,05, maka $\hat{\theta}_{B}^{*\left(\alpha\right)}$ adalah nilai ke-100 dari urutan replikasinya. Demikian juga $\hat{\theta}_{B}^{*\left(1-\alpha\right)}$ adalah persentil empiris ke -100(1 - $\alpha$).
Pendekatan interval persentil 1 - 2$\alpha$ adalah $$ \begin{bmatrix} \hat{\theta}_{\%.lo},\hat{\theta}_{\%.up} \end{bmatrix} \thickapprox \begin{bmatrix} \hat{\theta}_{B}^{*\left(\alpha\right)},\hat{\theta}_{B}^{*\left(1 - \alpha\right)} \end{bmatrix} $$ Interval ini tidak mengasumsikan data berdistribusi normal, namun interval ini tidak memberikan hasil yang baik kecuali dengan perulangan bootstrap paling sedikit 1000 kali.

Pembentukan Sampel Bootstrap

Metode bootstrap sangat bergantung pada estimasi dari sampel bootstrap.$\hat{F}$ adalah suatu distribusi empiris yang memberi bobot $\frac{1}{n}$ untuk setiap nilai terobservasi $x_{i}$, i = 1, 2, ……,n. Sampel bootstrap didefinisikan sebagai suatu sampel random berukuran n yang ditarik dari $\hat{F}$, katakanlah $x^{*} = \left(x_{1}^{*},x_{2}^{*},.....,x_{n}^{*}\right)$, atau dapat dinyatakan sebagai berikut : $$ \hat{F}\rightarrow\left(x_{1}^{*},x_{2}^{*},.....,x_{n}^{*}\right) $$ Notasi bintang mengindikasikan bahwa $x^{*}$ bukanlah data sebenarnya pada data set x, namun merupakan versi dari x yang telah mengalami randomisasi atau resample (penyampelan ulang). Ada cara lain untuk menyatakan (8) yaitu : data bootstrap $x_{1}^{*},x_{2}^{*},.....,x_{n}^{*}$ adalah suatu sampel random berukuran n yang ditarik dengan pengembalian dari suatu populasi yang terdiri dari n objek $\left(x_{1}^{*},x_{2}^{*},.....,x_{n}^{*}\right)$. Sebagai contoh diperoleh data $x_{1}^{*} = x_{8},x_{2}^{*} = x_{9},.....,x_{n}^{*} = x_{1}$. Data bootstrap $\left(x_{1}^{*},x_{2}^{*},.....,x_{n}^{*}\right)$ mengandung anggota- anggota dari data asli $\left(x_{1},x_{2},.....,x_{n}\right)$. Suatu nilai $x_{i}$ dapat muncul sekali, berulang kali, atau bahkan tidak muncul sama sekali. Hal ini, disebabkan oleh teknik pengambilan sampel dengan pengembalian.
Prinsip dasar pembentukan sampel bootstrap sebagai berikut :
  1. Konstruksi fungsi distribusi empiris dari sampel yaitu $\hat{F}n$ dengan peluang yang sama terambil yaitu $\frac{1}{n}$ untuk masing-masing $X_{1},X_{2},.....,X_{n}$.
  2. Dengan $\hat{F}n$ tetap, ambil sampel acak berukuran n dari $\hat{F}n$ sebut $X_{i}^{*} = x_{i}^{*}$, $X_{i}^{*} \thicksim \hat{F}n$, i = 1, 2, …..., n.

Skema diatas merupakan penggunaan metode bootstrap dalam sampel tunggal. Pada keadaan asli, F adalah suatu distribusi probabilitas yang tidak diketahui, memberikan data $x = \left(x_{1},x_{2},.....,x_{n}\right)$ dengan penyampelan secara random. Dari x tersebut dapat dihitung suatu statistik $\hat{\theta} = s\left(x\right)$. Pada bootstrap, $\hat{F}$ menghasilkan $x^{*}$ dengan penyampelan random, yang memberikan hasil $\hat{\theta}^{*} = s\left(x^{*}\right)$. Hanya terdapat satu nilai observasi $\hat{\theta}$, tetapi mampu menghasilkan banyak replikasi bootstrap $\hat{\theta}^{*}$.

Metode Bootstrap Pasangan untuk Regresi

Metode bootstrap dalam analisis regresi ada 3 jenis, salah satunya adalah metode bootstrap pasangan atau dikenal dengan resample random-x. Metode bootstrap pasangan juga biasa dikenal dengan PB (paired bootstrap). Metode bootstrap pasangan merupakan suatu metode untuk melakukan bootstrap pada regresi dengan mempertahankan korelasi pasangan variabel dependen dan variabel independennya. Prosedur estimasi parameter regresi linear sederhana dengan menggunakan metode bootstrap pasangan adalah sebagai berikut:
  1. Dalam bentuk matriks, persamaan regresi pada data yang menggunakan bootstrap pasangan dapat ditulis sebagai berikut: $$ \mathbf{Y^{*} = X^{*}}\boldsymbol{\beta + \varepsilon_{i}^{*}} $$
  2. Persamaan ini dapat diestimasi menggunakan metode kuadrat terkecil sehingga diperoleh: $$ \boldsymbol{\hat{\beta}^{*}} = \mathbf{\left(X^{*T}X^{*}\right)^{-1}X^{*T}Y{*}} $$
  3. Mengambil sampel random berukuran n dengan pengembalian, sebanyak B perulangan.
  4. Hitung estimasi parameter setiap sampel bootstrap : $$ \boldsymbol{\hat{\beta}^{*b}} = \mathbf{\left(X^{*T}X^{*}\right)^{-1}X^{*T}Y^{*b}} $$ dengan $b = 1, 2, ....., B$.
  5. Hitung rata-rata estimasi parameter dari sampel bootstrap untuk memperoleh $\hat{\beta}_{boot}^{*}$(estimasi parameter bootstrap) : $$ \hat{\beta}_{boot}^{*} = \frac{\sum_{b=1}^{B}\hat{\beta}^{*b}}{B} $$ dimana $B$ adalah banyak replikasi.
  6. Setelah didapatkan estimasi parameter bootstrap $\left(\hat{\beta}_{boot}^{*}\right)$, selanjutnya dihitung tingkat akurasi estimasi parameter yang diperoleh dengan menggunakan statistik bias, standar error, dan interval konfidensi dari bootstrap, yaitu : $$ bias_{boot} = \mathbf{B}^{-1}\sum_{b=1}^{B}\hat{\beta}^{*}\left(\beta\right) - \hat{\beta} $$ $$ \hat{se}_{B}\left(\hat{\beta}^{*}\right) = \sqrt{var^{*}\left(\hat{\beta}^{*}\right)} = \begin{Bmatrix}\frac{1}{B - 1}\sum_{b=1}^{B}\left(\hat{\beta}^{*b} - \hat{\beta}_{boot}^{*}\right)^{2}\end{Bmatrix}^{\frac{1}{2}} $$ Untuk 100$\alpha$ dan $100\left(1 - \alpha\right)$ interval konfidensi persentil bootstrap $\hat{\beta}^{*}$ adalah sebagai berikut :

    $ \hat{\beta}^{*} \thicksim N\left(\hat{\beta},\hat{se}^{2}\right) $ atau $ Z = \frac{\hat{\beta}^{*} - \hat{\beta}}{\hat{se}} \thicksim N\left(0,1\right) $

    $ \hat{\beta}_{lo} = \hat{\beta} - Z^{\left(1 - \alpha\right)}\hat{se} $ dan $ \hat{\beta}_{up} = \hat{\beta} - Z^{\left(\alpha\right)}\hat{se} $

    $ \hat{\beta}_{lo} = \hat{\beta}^{*\left(\alpha\right)} $ menunjukkan persentil ke 100$\alpha$ dari distribusi $\hat{\beta}^{*}$.

    $ \hat{\beta}_{up} = \hat{\beta}^{*\left(1 - \alpha\right)} $ menunjukkan persentil ke 100$\left(1 - \alpha\right)$ dari distribusi $\hat{\beta}^{*}$.

    Jadi, interval konfidensi persentil bootstrap untuk $\hat{\beta}^{*}$ adalah sebagai berikut :

    $ \hat{\beta}_{lower}^{*\left(\alpha\right)} < \hat{\beta}^{*} < \hat{\beta}_{upper}^{*\left(1 - \alpha\right)} $

    $ \hat{\beta}_{lower}^{*\left(\alpha\right)} $ adalah $\hat{\beta}^{*}$ ke 100$\alpha$ dari replikasi bootstrap $\hat{\beta}^{*\left(b\right)}$, untuk $b = 1, 2, ....., \mathbf{B}$ yang telah diurutkan, dan $ \hat{\beta}_{upper}^{*\left(1 - \alpha\right)} $ adalah $\hat{\beta}^{*}$ ke 100$\left(1 - \alpha\right)$ dari replikasi bootstrap $\hat{\beta}^{*\left(b\right)}$, $b = 1, 2, ....., \mathbf{B}$ yang telah diurutkan.

Ilustrasi dengan R

Pada bagian ini disajikan secara naratif aktivasi data, langkah-langkah pemeriksaan asumsi, pemeriksaan GOF model sebagaimana teori yang disampaikan sebelumnya. Anda dapat mengaktifkan data dari database R, atau data yang anda miliki dalam format khusus (Tex atau CSV). Jika anda memiliki data dalam format excel, untuk saat ini anda harus mengkonversinya ke bentuk teks atau CSV terlebih dahulu.

Pilihan Data

Khusus untuk Import Data, File:
Header: , Pemisah: , Kutipan:

Dari summary data yang ada, kita bisa menentukan variabel-variabel yang akan dijadikan variabel bebas (eksplanatori) dan variabel terikat (respon). Sebelum menentukan variabel bebas dan terikat (respon), kita dapat juga membuat matriks korelasi untuk mendeteksi variabel-variabel yang terindikasi memiliki hubungan. Hasil matriks korelasinya, atau matrks diagram pencarnya adalah sebagai berikut.

Luaran 1. Data Aktif Ukuran sampel untuk dianalisis dengan Bootstrap & MCMC (<20)

  
Tampilan yang lebih rinci dari data dapat dilihat pada Lampiran.
Dengan mencermati variabel-variabel yang bersifat kuantitatif (interval), selanjutnya kita bisa memilih
Sebaran (Untuk Bootstrap Residu hanya bisa dengan sebaran Gaussian)

Pemeriksaan Secara Grafik

Diaram Pencar $X$ dengan $Y$
Dari pilihan data yang dilakukan, kita bisa memperoleh gambaran kasar tentang hubungan $X$ dengan $Y$ (seperti kelinieran dan ada tidaknya pencilan) dengan melihat Grafik diagram pencarnya.
Gambar 2. Grafik Diagram Pencar $X$ dengan $Y$.
Pemeriksaan dan Uji Kenormalan Variabel $Y$
Untuk mendapatkan gambaran tentang distribusi $Y$ kita dapat memeriksa Grafik QQ-Plot, Histogram dan Box-Plot seperti berikut.
Gambar 1. Grafik Jenis dari Variabel Respon $Y$.
Pemeriksaan Secara Numerik
Secara statistik hasi uji kenormalan menggunakan salah satu uji kenormalan ( ): adalah sebagai berikut
Luaran 3. Hasil Uji Kenormalan Variabel Respon

  

Pengepasan Model

Sintaks
lm(formula = "Y ~ X", data = ..., x = TRUE)
Luaran Pengepasan
Selanjutnya kita bisa memeriksa luaran analisis regresi untuk melihat signifikansi model, signifikansi masing-masing koefisien regresi $\boldsymbol{\beta}$ dan GOF yang ditunjukkan oleh nilai $R^2$.
Luaran 4. Hasil Uji Regresi Jenis luaran
      
dengan nilai ukuran GOF seperti berikut ini

Dari hasil di atas diperoleh $\boldsymbol{\hat{\beta}}=($ )$^T$ dengan standar error masing-masing sebesar $se_\beta=($ )$^T$. Nilai $t_j$ adalah $\displaystyle t_j=\frac{\hat{\beta_j}}{se_{\beta_j}}$, misalnya untuk $\hat{\beta_0}$ nilai $t_0$ diperoleh dari $t_0=$ /=. Demikian juga nilai $t_1$ untuk $\hat{\beta_1}$, diperoleh dari $t_1=$ /=, dengan derajat kebebasan $(dk)$= . Nilai $p-val$ masing-masing sebesar ( )$^T$ yang dapat dihitung dengan

2*pt(abs(t), df, lower.tail = FALSE)
[Lihat Tirta (2009) dan Hay-Jahans (2012)]

Plot Diagnostik dari Sisa

Diagnostik regresi dan remidinya dapat dilihat pada Sheather [Bab 3, 2009]. Tirta (2009)

Gambar 3. Grafik Diagnostik Regresi. Jenis Plot (1-6):

Keterangan: 1. Residuals vs Fitted 2. Normal Q-Q, 3. Scale-Location , 4. Cook's distance , 5. Residuals vs Leverage , 6. Cook's dist vs Leverage $ \frac{h[ii]}{(1 - h[ii])}$.

Regresi Bootstrap

Banyaknya sampel bootstrap . Metode bootstrap (Bootstrap Residu hanya bisa dengan sebaran Gaussian)
Informasi Model

Luaran Bootstrap
      
      
Gambar 2. Grafik Diagram Pencar $X$ dengan $Y$.

Interpretasi Hasil

Berdasarkan hasil pendugaan parameter dengan bootstrap dapat terlihat bahwa semakin banyak sampel bootstrap maka akan menghasilkan nilai parameter regresi hasil bootstrap yang mendekati dengan parameter regresi hasil dari metode kuadrat terkecil. BootBias merupakan selisih (bias) antara parameter yang dihasilkan oleh metode kuadrat terkecil dengan parameter yang dihasilkan oleh regresi bootstrap.

Histogram dari nilai estimasi bootstrap untuk $\beta_{0}$ dan $\beta_{1}$ akan semakin mendekati distribusi normal apabila jumlah sampel bootsrtap semakin besar.

Pada grafik diagram pencar $X$ dengan $Y$ terdapat beberapa hal yang kita amati, yaitu :

  1. Obs. Value merupakan nilai dari bootMed yang merupakan nilai dari bootstrap median.
  2. bca 95% CI merupakan selang kepercayaan bootstrap. Parameter $\beta_{0}$ dan $\beta_{1}$ signifikan apabila Obs. Value berada pada selang kepercayaan tersebut.

Regresi dengan MCMC

untuk pembahasan yang lebih detail lihat Regresi MCMC
Jenis MCMC Banyaknya pemanasan/burned-in . Banyaknya MCMC .
      
Gambar 2. Grafik Diagram Pencar $X$ dengan $Y$.

Perbaikan Model

Untuk sementara model dengan transformasi variabel belum bisa disajikan secara interaktif dalam format modul. Cek menu simulasi

Rangkuman

  1. Asumsi dari Regresi Linier diantaranya adalah (i) hubungan variabel $X$ dan $Y$ adalah linier, (ii) error/kesalahan berdistribusi Gaussian saling bebas dengan varians konstan
  2. Estimasi parameter dapat dilakukan dengan Metode Likelihood dan Kuadrat Terkecil yang mengasilkan luaran yang sama
  3. Pemeriksan asumsi dapat dilakukan secara grafik menggunakan grafik diagnostik pada R, ataupun dengan menggunakan beberapa uji statistika
  4. Uji hipotesis terkait parameter dilakukan dengan melihat nilai p-value . Secara umum parameter dikatakan signifikan jika $p-value < 0,05$
  5. Model yang dianggap lebih baik adalah model dengan nilai AIC atau BIC yang lebih kecil dan $R^2$ yang lebih besar
  6. Perbaikan model dapat dilakukan diantaranya dengan menerapkan transformasi yang sesuai pada variabel $Y$ maupun $X$

Sumber Bacaan

  1. Akaike. 1972. Information theory and extension of maximum likelihood theory. In B.N. Petrov and F.Csahi, editors, 2nd Symposium on Information Theory: 267--281
  2. Erfon, B. and Tibshirani, R. J. 1993. An Introduction to the Bootstrap. New York: Chapman & Hall.
  3. J.M. Chamber and T.J. Hastie. 1992. Statistical Model in S. Chapman and Hall, London.
  4. W.N. Venables and B.D. Ripley.1994. Modern Applied Statistics with S-plus. Springer.
  5. Cook, R.D 1998. Regression Graphics, Ideas for Studying Regression through Graphics. Wiley International Publ.
  6. Cook, R.D & Weisberg, S. 1999. Applied Regression Including Computing & Graphics. Wiley International Publ.
  7. Hay-Jahans, C. 2012. An R Companion to Linear Statistical Models . CRC Pres.
  8. Sheather, S. 2009. A Modern Appoach to Regression with R. Springer
  9. Tirta, IM 2009. Analisis Regresi dengan R . Jember Uniersity Press
  10. Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. Unej Press
  11. Sahbaba B. 2012. Chapter 3. Data Exploration Biostatistics with R . Springer
  12. Wright, D.B. & K. London, 2009Modern Regression Techniques Using R A Practical Guide for Students and Researchers. Sage
  13. Wikipedia. Normality Test http://en.wikipedia.org/wiki/Normality_test [Akses 28 Oktober 2014]
  14. Teknomo, K. 2005. Bootstrap Sampling Tutorial. http://people.revoledu.com/kardi/tutorial/Bootstrap/bootstrap.htm [Akses 4 April 2016]

Lampiran Data

Lampiran 1. Data Untuk Analisis. Banyak kasus yang ingin ditampilkan ( $n \leq N$) .

  

SUPLEMEN: Latihan dengan Data Sendiri

Input Data

Input data (khusus format CSV/TEKS)