Metode Statistika Parametrik Dasar


Oleh I Made Tirta. 2015. Laboratorium Statistika, Jurusan Matematika FMIPA Universitas Jember


Hit Counter
Hit Counter

Deskripsi

Laman web ini dimaksudkan untuk memberikan kesempatan kepada para pengunjung (mahasiswa) untuk melakukan eksplorasi metode statistika parametrik dasar dengan mencoba berbagai data dan berbagai jenis analisis. Pada tingkat dasar, metode statistika parametriks hampir seluruhnya menggunakan asumsi bahwa data respon adalah berasal dari sebaran gaussian atau normal. Oleh karena itu sebelum melakukan uji statistika, peneliti wajib melakukan eksplorasi (baik melalui visualisasi grafik maupun uji statistika) untuk meyakinkan bahwa asumsi ini tidak dilanggar secara serius.

Objektif

Secara umum pengguna/ mahasiswa diharapkan dapat melakukan pemeriksaan asumsi, pengujian statistika, dan menginpterpretasikan hasilnya dari beberapa Uji Statstika Dasar. Secara lebih detail, hasil yang harus dicapai mahasiswa adalah sebagai berikut ini.
  1. Dapat mengaktifkan data yang sesuai dengan kebutuhan analisis, atau dapat mengimpor datanya sendiri untuk dieksplorasi.
  2. Dapat menyatakan jenis-jenis, skala dari masing-masing faktor atau variabel yang ada pada data (seperti jenis faktor, variabel, skala interval, ordinal, nominal)
  3. Dapat menampilkan visualisasi grafik yang sesuai dengan kebutuhan (misalnya memeriksa kenormalan data, memeriksa hubungan antar variabel, homogeinitas variansi, memeriksa pengaruh faktor)
  4. Secara lebih detail dapat melakukan uji untuk peneriksaan asumsi (uji kenormalan, uji homogeinitas variansi)
  5. Dapat melakukan uji yang tepat sesuai keperluan/ tujuan (misalnya uji beda, uji hubungan)
  6. Da[a menjelaskan kaitan antara hasil yang diperoleh dengan teori (rumus) terkait.
  7. Dapat menafsirkan luaran hasil analisis (baik tingkat signifikansi maupun tingkat kecocokan)
  8. Dapat melaporkan secara tertulis dan sistematis hasil ekplorasi yang diperoleh, dengan menggunakan minimal 2 jenis data/ variabel.

Petunjuk Umum

  1. Setiap kali anda berlatih menerapkan analisis statistika, anda wajib mencoba minimal untuk dua (dua) kasus yang berbeda.
  2. Buat interpretasi dari hasil yang anda peroleh baik dalam konteks terminologi statistika, maupun dalam bahasa ilmiah secara umum. MIsalnya apa artinya jika hasil ujinya signifikan, apa makna dari nilai $p-val$ yang diperoleh.
  3. Buat laporan secara naratif dan sistematis dari hasil anda melakukan analisis statistika dan lengkapi laporan anda dengan rujukan teori ringkas atau rumus yang sesuai.
  4. Bonus: Bagi mereka yang bisa menulis laporan dalam format HTML, dan rumus-rumus matematikanya ditampilkan dengan $\LaTeX$ akan diberikan bonus sebanyak (+7) poin.

1. Aktivasi Data

Untuk melatih analisis data, anda harus mengaktifkan data. Anda dapat mengaktifkan data dari database R, atau data yang anda miliki dalam format khusus (Tex atau CSV). Jika anda memiliki data dalam format excel, untuk saat ini anda harus mengkonversinya ke bentuk teks atau CSV (klik!!) terlebih dahulu.

Pilihan Data

Khusus untuk Import Data, cari file:
Header: , Pemisah: , Kutipan:

Catatan: Saat memperbarui data (ke dua kali dst ...), CHECK!/ "reset" posisi Grafik Regresi ke tanpa faktor/garis), KLIK!!!

Selanjutnya anda dapat melihat detail dari sebagian data, atau ringkasan data secara keseluruhan. Luaran 1. Data Aktif


  
Tampilan yang lebih lengkap dari data dapat dilihat pada Lampiran.
Cermati variabel-variabel/ faktor-faktor yang ada, selanjutnya pilih analisis yang sesuai kondisi data, sebaliknya pilih variabel/faktor sesuai analisis yang akan dilakukan.

Tabel 1. Jenis Analisis dan Variabel-variabel yang diperlukan
NO. JENIS UJI VARIABEL X VARIABEL Y DUMMY
0. Estimasi Mean - Interval -
1. T 1-kelompok - Interval -
2. T 2-kelompok bebas Faktor (2 kategori) interval -
3. T 2-kelompok berpasangan Interval interval -
4. Anova 1 arah Faktor (> 2 kategori) interval -
5. Anova 2 arah 2 Faktor ($\geq$) 2 kategori) interval -
6. Regresi Sederhana Interval interval -
7. Regresi dengan dummy Interval interval Faktor/ kelompok
Secara umum $Y$ diasumsikan memiliki sebaran Gaussian atau Normal, $N(\mu_Y,\sigma^2_Y)$.

Navigasi: Input Data Eksplorasi Data Uji Beda Mean Uji Anova Uji Regresi

2. Eksplorasi Data

2.1. Eksplorasi Data Global

Untuk mendapatkan gambaran variabel-varabel yang berhubungan, kita dapat dihitung matriks korelasi ataupun matriks diagram pencar dari (minimal 2) variabel kuantitatif/numerik.

Matriks Korelasi

Pilih variabel-variabel kuantitatif yang akan dihitung korelasinya

Matriks korelasi dari variabel terpilih adalah seperti luaran berikut
Luaran 2. Matriks Korelasi

Matriks Diagram Pencar

Untuk mendapatkan gambaran variabel-bariabel yang berhubungan, selain matriks korelasi dapat juga dibuat matriks diagram pencar secara global, dari variabel-variabel yang sudah terpilih di atas.
Gambar 1. Grafik Diaram Pencar

2.2. Eksplorasi Grafik Variabel Respon

Selanjutnya kita dapat melakukan pemeriksaan terhadap sebaran $Y$ apakah memiliki sebaran yang dapat dikatakan sebagai sebaran Gaussian baik secara grafik maupun secara numerik. Secara grafik kita dapat mengunakan histogram, Box-plot, atau QQ-norm untuk melihat indikasinya.
Jenis Grafik (Pilih QQ-Norm, Box-plot, atau histogram)
Gambar 2. Grafik Sebaran Data Respon ($Y$)
(Catatan: $Y$ harus bersekala interval)
Sebaran Gausian ditandai dengan grafik histogram dan Box plot yang bersifat kontinu dan simetris. Sedangkan dar QQ-Norm sebaran data membentuk garis lurus (tidak keluar dari batas atas dan batas bawah). Adanya titik yang berada di luar batas, mengindikasikan adanya pencilan (outlier).

2.3. Uji Konormalan Respon

Selain melihtat indikasi secara grafik, secara numerik kita dapat melakukan uji kenormalan dengan beberapa cara seperti berikut ini. Respon dianggap bersebaran Gaussian jika uji menghasilkan nilai $p$ lebih dari 0,05. Lakukan uji kenormalan untuk $Y$ dengan

Luaran 2. Hasil Uji Kenormalan $Y$

 
Navigasi: Input Data Eksplorasi Data Uji Beda Uji Anova Uji Regresi Detail Graf

3. Uji Beda Mean

Uji beda mean bertujuan menguji apakah mean suatu populasi (kelompok populasi) sama dengan suatu nilai tertentu, atau sama dengan nilai mean kelompok lainnya. Uji beda mean ini terdiri atas beberapa jenis yaitu uji $T$ satu dan dua kelompok dan Uji F untuk tiga kelompok atau lebih.

3.1. Uji Beda 1 Kelompok

Tujuan

  1. Menguji kebenaran klaim bahwa nilai mean suatu populasi ($\mu_Y$) mempunyai nilai tertentu $(\mu_0$)

Hipotesis

Uji dua arah, $H_0: \mu_Y=\mu_0$ vs. $H_1: \mu_Y\neq\mu_0$

Rumus Terkait

  1. \[t_{hit}=\frac{\left|\bar{x}-\mu_0\right|}{s/\sqrt{n}}\text{ dengan }s = \sqrt{\frac{\sum_{i=1}^n \left(x_i-\bar{x}\right)^2}{n-1}}\]
  2. Interval Keyakinan untuk penduga mean populasi ($\mu$) adalah \begin{equation}\bar{x} - t_{tab} s_{\bar{x}} \le \mu \le \bar{x} + t_{tab} s_{\bar{x}} \text{ dengan }s_{\bar{x}}=s/\sqrt{n} \text{ dan } t_{tab}=t_{\alpha/2,(n-1)}\end{equation}

Hasil Analisis

Untuk $Y$ yang sudah ditentukan sebelumnya, dengan $H_0=\mu_0$= .
Hasil Analisis


Kesimpulan

Dengan taraf signifikansi 5%, $H_0$ diterima jika dan hanya jika (tiga kriteria berikut ekuivalen):
  1. $p.val > 0,005$
  2. $t_{tab}>|t_{hit}|$
  3. $\mu_0\in\; $IK.95%
Perhitungan p-val
Ilustrasi ini akan lebih jelas dilihat jika nilai p-val $\pm$ 5%. Nilai p-val adalah peluang (luas area) bagian luar dari batas $|t_{hit}|,$ yaitu
  1. Untuk sample kecil, menggunakan distribusi $t_{n-1}.$ $$p-val=1-\int_{-|t_{hit|}}^{+|t_{hit}|}f(t)dt =\int_{- \infty}^{-|t_{hit}|}f(t)dt+\int_{+|t_{hit}|}^\infty f(t)dt$$
  2. Untuk sample besar, menggunakan distribusi $z=N(0,1).$ $$p-val=1-\int_{-|z_{hit|}}^{+|z_{hit}|}f(z)dz =\int_{- \infty}^{-|z_{hit}|}f(z)dz+\int_{+|z_{hit}|}^\infty f(z)dz$$

3.2. Uji Beda 2 Kelompok Saling Bebas

Pilih $X$ atau $G$ faktor yang terdiri atas tepat dua kategori

Tujuan

  1. Menguji benar tidaknya klaim yang menyatakan bahwa nilai mean dari dua kelompok ($\mu_X,\mu_Y$) sama

Hipotesis

  1. $H_0: \mu_{G_1}=\mu_{G_2}$ atau $H_0: \mu_{G_1}-\mu_{G_2}=0$
  2. $H_1: \mu_{G_1}\neq\mu_{G_2}$ atau $H_1: \mu_{G_1}-\mu_{G_2}\neq 0$

Rumus Terkait

  1. Untuk asumsi varians tidak homogen \[t_{hit}=\frac{\left|\bar{x}_{G_1}-\bar{x}_{G_2}\right|}{\sqrt{\frac{s^2_{G_1}}{n_{G_1}-1}+ \frac{s^2_{G_2}}{n_{G_2}-1}}} \]
  2. Untuk asumsi varians homogen \[t_{hit}=\frac{\left|\bar{x}_{G_1}-\bar{x}_{G_2}\right|}{s_{p}} \text{ dengan } s_p= \sqrt{\left(\frac{(n_{G_1}-1)s_{G_1}^2+(n_{G_2}-1)S_{G_2}^2}{n_{G_1}+n_{G_2}-2}\right) \left(\frac{1}{n_{G_1}}+\frac{1}{n_{G_2}}\right)} \]

Perhitungan dengan asumsi homogenitas variansi


Luaran Uji



Plot Rerata

3.3. Uji Beda Kelompok Berpasangan

Tujuan

  1. Menguji kebenaran klaim bahwa dua atribut pada populasi ($X,Y$), memiliki mean yang sama ($\mu_X=\mu_Y$).

Hipotesis

  1. $H_0: \mu_{X}=\mu_{Y}$ atau $H_0: \mu_{X}-\mu_{Y}=0$
  2. $H_1: \mu_{X}\neq\mu_{Y}$ atau $H_1: \mu_{X}-\mu_{Y}\neq 0$
Untuk Uji T dua kelompok berpasangan, pilih variabel $X (\neq Y)$ yang memiliki skala interval, yaitu:

Luaran Uji



Visualisasi Grafik

Grafik Box-Plot antara $X$ dengan $Y$
Navigasi: Input Data Eksplorasi Data Uji Beda Uji Anova Uji Regresi

4. ANAVA

4.1. ANAVA 1 Arah

Diperlukan faktor dengan 2 kategori atau lebih
Update Y?

Luaran Anova


Rerata Kelompok

Mean dan standar deviasi perkelompok

Grafik Rerata

Mean dan Standar deviasi di atas dapat juga disajikan dalam format grafik mean

Grafik Perbandingan berpasangan Pairwaise Comparisons

Selisih pasangan antar kelompok ditunjukkan oleh grafik berikut.

4.2. ANAVA 2 Arah

Faktor (variabel kualitatif) lain yang ingin diperiksa secara serempak adalah

Luaran Anova


Grafik Rerata

Grafik Rerata untuk ANAVA Dua Arah

Pairwise Comparisons

Grafik Rerata untuk ANAVA Dua Arah
Navigasi: Input Data Eksplorasi Data Uji Beda Uji Anova Uji Regresi

5. Uji Regresi

5.1. Uji Regresi Sederhana

Untuk pembahasan regresi sederhana, uraian lebih detail lihat Detail Regresi Sederhana
Variabel untuk Analisis regresi
Gambar 3. Grafik Diagram Pencar $X$ dengan $Y$.

Luaran 4. Hasil Uji Regresi

      
Ringkasan:
Eksplorasi luaran Kita juga dapat memilih jenis luaran tertentu yang disediakan oleh R
Pilihan Anda:

  
Nilai ukuran GOF seperti berikut ini

[Lihat Tirta (2009) dan Hay-Jahans (2012)]

Analisis Varians dari Regresi


Ringkasan

Plot Diagnostik dari Sisa

Diagnostik regresi dan remidinya dapat dilihat pada Sheather [Bab 3, 2009]. Tirta (2009)

Gambar 4. Grafik Diagnostik Regresi.

5.2. Uji Regresi dengan Dummy

Uraian lebih detail dari regresi dengan dummy, bisa lihat Detail Regresi Dummy
Untuk ilustrasi regresi dengan dummy, Faktor yang ingin dipertimbangkan dalam Regresi Sebelumnya adalah

Variabel untuk Analisis regresi
Gambar Final Diagram Pencar Kelompok, Regresi
(Pilih kombinasi terbaik!, Catatan: Saat memperbarui data pilihan keduanya dalam posisi tanpa)

Model Final

Dari hasil di atas, maka model yang lebih eksplisit yang dianggap terbaik adalah

Pilihan Model:

Luaran Analisis

Luaran 6. Hasil Uji Regresi Yang dianggap Terbaik

dengan AIC dan BIC untuk model final spesifik adalah sebesar

ANAVA Regresi


Grafik Diagnostik Residu

Gambar 5. Diagnostik Residu
Navigasi: Input Data Eksplorasi Data Uji Beda Uji Anova Uji Regresi Detail Regresi Detail Regresi Dummy

Tugas

  1. Ulangi Proses di atas dengan memilih data atau variabel lain yang sesuai.
  2. Buat Rumusan Hipotesis Nol dan Hiotesis Kerja dari masing-masing Uji
  3. Buat kesimpulan dari analisis data yang dilakukan (penerimaan/ penolakan $H_0$) serta makna sehari-hari dikaitkan dengan data dan variabel yang dianalisis
  4. Verifikasi hasil anda dengan menunjukkan nilai $p$-val dan ukuran-ukuran lain yang sesuai
  5. Lengkapi penjelasan anda dengan ilustrasi grafik yang sesuai

Sumber Bacaan

Jika ingin mendalami lebih jauh teori-teori yang mendasari analisis data yang ada di atas, dipersilakan membaca beberapa referensi terkait diantaranya seperti berikut ini.
  1. Akaike. 1972. Information theory and extension of maximum likelihood theory. In B.N. Petrov and F.Csahi, editors, 2nd Symposium on Information Theory: 267--281
  2. J.M. Chamber and T.J. Hastie. 1992. Statistical Model in S. Chapman and Hall, London.
  3. W.N. Venables and B.D. Ripley.1994. Modern Applied Statistics with S-plus. Springer.
  4. Cook, R.D 1998. Regression Graphics, Ideas for Studying Regression through Graphics. Wiley International Publ.
  5. Cook, R.D & Weisberg, S. 1999. Applied Regression Including Computing & Graphics. Wiley International Publ.
  6. Hay-Jahans, C. 2012. An R Companion to Linear Statistical Models . CRC Pres.
  7. Sheather, S. 2009. A Modern Appoach to Regression with R. Springer
  8. Tirta, IM 2009. Analisis Regresi dengan R . Jember Uniersity Press
  9. Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. Unej Press
  10. Sahbaba B. 2012. Chapter 3. Data Exploration Biostatistics with R . Springer
  11. Wright, D.B. & K. London, 2009. Modern Regression Techniques Using R A Practical Guide for Students and Researchers. Sage
  12. Wikipedia. Normality Test http://en.wikipedia.org/wiki/Normality_test [Akses 28 Oktober 2014]

Lampiran Data

Lampiran 1. Data Untuk Analisis. Banyak kasus yang ingin ditampilkan ( $n \leq N$) .

  

Konversi dari File Excel ke CSV/Tex

Langkah-langkah mengkonversi data dari excel ke CSV adalah seperti berikut ini.
  1. Buka data anda dalam excel, usahakan hanya ada 1 sheet yang berisi data.
  2. Judul (header) pada data hanya 1 baris (Lihat Gambar)
  3. Selanjutnya disimpan dalam format lain, dengan pilihan CSV (Comma delimited) *.csv
  4. Untuk menyimpan ke format tex, highlight bagian dari data (mulai header sampai seluruh baris data)
  5. Buka editor ascii seperti notepad dan sejenisnya, lalu paste di sana
  6. Simpan file dengan ekstensi *.txt