Modul Metode Statistika Parametrik Dasar


Oleh I Made Tirta. (Revisi 2022). Laboratorium Statistika, Jurusan Matematika FMIPA Universitas Jember

Untuk Analisis Data Sejenis tanpa Narasi klik SCOLAR

Mohon mengisi Angket Respon berikut. Terimakasih atas kesediannya mengisi Angket Respon

Deskripsi

Laman web ini dimaksudkan untuk memberikan kesempatan kepada para pengunjung (mahasiswa) untuk melakukan eksplorasi metode statistika parametrik dasar dengan mencoba berbagai data dan berbagai jenis analisis. Pada tingkat dasar, metode statistika parametriks hampir seluruhnya menggunakan asumsi bahwa data untuk peubah respon memiliki sebaran Gaussian atau Normal. Oleh karena itu sebelum melakukan uji statistika, pengguna wajib melakukan eksplorasi (baik melalui visualisasi grafik maupun uji statistika) untuk meyakinkan bahwa asumsi ini tidak dilanggar secara serius.

Objektif

Secara umum pengguna/ mahasiswa diharapkan dapat melakukan pengujian statistika dasar dengan benar dan menginpterpretasikan hasilnya dengan jelas. 'Benar' mengandung makna meyakinkan bahwa persyaratan (asumsi) terpenuhi dan prosedurnya benar. 'Jelas' berarti selain oleh para para statistikawan, interpretasinya juga mudah dipahami ilmuan yang non statistikawan. Secara lebih detail, tahapan hasil yang harus dicapai mahasiswa adalah sebagai berikut ini.

  1. Dapat mengaktifkan data yang sesuai dengan kebutuhan analisis, atau dapat mengimpor datanya sendiri untuk dieksplorasi.
  2. Dapat menyatakan jenis-jenis skala dari masing-masing faktor atau variabel yang ada pada data (seperti banyaknya kelompok pada faktor/kualitatif, rigkasan variabel kuantitatif)
  3. Dapat menampilkan visualisasi grafik yang sesuai dengan kebutuhan (misalnya memeriksa kenormalan data, memeriksa hubungan antar variabel, homogeinitas variansi, memeriksa pengaruh faktor)
  4. Secara lebih detail dapat melakukan uji untuk peneriksaan asumsi (uji kenormalan, uji homogeinitas variansi)
  5. Dapat melakukan uji yang tepat sesuai keperluan/ tujuan (misalnya uji beda, uji hubungan)
  6. Dapat menjelaskan kaitan antara hasil yang diperoleh dengan teori (rumus) terkait.
  7. Dapat menafsirkan luaran hasil analisis (baik tingkat signifikansi maupun tingkat kecocokan)
  8. Dapat melaporkan secara tertulis dan sistematis hasil ekplorasi yang diperoleh, dengan menggunakan minimal 2 jenis data atau variabel yang berbeda.

Petunjuk Umum

  1. Setiap kali anda berlatih menerapkan analisis statistika, anda wajib mencoba minimal untuk dua (dua) kasus yang berbeda.
  2. Lakukan tahapan eksplorasi data, pemeriksaan atau pengujian asumsi baik secara grafis maupun numerik.
  3. Buat interpretasi dari hasil yang anda peroleh baik dalam konteks terminologi statistika, maupun dalam bahasa ilmiah secara umum. Misalnya apa artinya jika hasil ujinya signifikan, apa makna dari nilai $p-val$ yang diperoleh.
  4. Buat laporan secara naratif dan sistematis dari hasil anda melakukan analisis statistika dan lengkapi laporan anda dengan rujukan teori ringkas atau rumus yang sesuai. Selalu jaga etika akademik: hindari plagiarisme.
  5. Bonus: Bagi mereka yang bisa menulis laporan dalam format HTML, dan rumus-rumus matematikanya ditampilkan dengan $\LaTeX$ akan diberikan bonus sebanyak (+7) poin.

Prasarat:

Teori peluang

Pemaparan teori peluang dapat dilihat pada catatan Pengantar Peluang pada alamat berikut Pengantar Teori Peluang. Ilustrasi terkait peluang dapat dibuka pada alamat Peluang dan Frekuansi Relatif.

Distribusi Normal

Materi prasarat terkait perhitungan peluang sebaran Gaussian dan $t,$ misalnya, jika ada peubah acak $X$ memiliki sebaran Gaussian $N\left(\mu_X,\sigma^2_X\right)$ atau atau $t_{n-1}.$ Pengguna diharapkan dapat menghitung

  1. $P(x_1 \lt X \lt x_2);$
  2. $P(x_1 \lt X);$
  3. $P(X \lt x_2) $
  4. $p-val$ untuk $z=z_0$ atau $t=t_0$

CATATAN:
Materi terkait distribusi Gaussian dan beberapa distribusi kontinu lainnya dapat dilihat pada alamat berikut Distribusi Kontinu Normal dan Gamma. Sementara untuk ilustrasi perhitungan nilai p-val, bisa dilihat pada alamat berikut Kuantil dan p-value

1. Aktivasi Data

Untuk berlatih analisis data, anda harus mengaktifkan data. Anda dapat mengaktifkan data dari database R, atau data yang anda miliki dalam format khusus (Text atau CSV). Jika anda memiliki data dalam format excel, untuk saat ini anda harus mengkonversinya ke bentuk teks atau CSV (klik di sini!!) terlebih dahulu.

Pilihan Data

Khusus untuk Import Data, cari file data:
Selanjutnya pilih kelengkapan berikut sesuai dengan kondisi data yang diimpor
Header: , Tanda Pemisah: , Tanda Kutipan:

Catatan: Saat memperbarui data (ke dua kali dst ...), CHECK!/ "reset" posisi Grafik Regresi ke tanpa faktor/garis), KLIK!!!

Selanjutnya anda dapat melihat detail dari sebagian data, atau ringkasan data secara keseluruhan.

Luaran 1. Data Aktif (Pilih Daftar Sebagian Data atau Ringkasan Seluruh Data)

  
Untuk pertama kali mungkin membutuhkan waktu lebih karena harus membangkitkan data terlebih dahulu. Tampilan yang lebih lengkap dari data dapat dilihat pada Lampiran.

Selanjutnya cermati variabel-variabel/ faktor-faktor yang ada, lalu pilih analisis yang sesuai kondisi data dan pilih variabel/faktor sesuai analisis yang akan dilakukan. (Simak Tabel 1)

Tabel 1. Jenis Analisis dan Jenis Variabel-variabel yang diperlukan
NO. JENIS ANALISIS VARIABEL X VARIABEL Y (RESPON) DUMMY
1. Estimasi Mean - Interval -
2. T 1-kelompok - Interval -
3. T 2-kelompok bebas Faktor (2 kategori) interval -
4. T 2-kelompok berpasangan Interval interval -
5. Anova 1 arah Faktor (> 2 kategori) interval -
6. Anova 2 arah 2 Faktor ($\geq$) 2 kategori) interval -
7. Uji Proporsi Faktor dengan 2 kategori -
8. Uji Frekuensi Faktor (>2 kategori) -
9. Regresi biasa Interval interval -
10. Interval interval Faktor/ kelompok

Secara umum, asumsi yang berlaku dalam analisis data ini (pada tabel di atas) adalah
  1. variabel respon $Y$ diasumsikan memiliki sebaran Gaussian atau Normal, $N(\mu_Y,\sigma^2_Y)$;
  2. sampel diambil secara acak dan saling bebas

Navigasi: Input Data Eksplorasi Data Uji Beda Mean Uji Anova Uji Regresi

2. Eksplorasi Data

2.1. Eksplorasi Data Global

Untuk mendapatkan gambaran variabel-variabel yang berhubungan, anda dapat menghitung matriks korelasi ataupun matriks diagram pencar dari (minimal 2) variabel kuantitatif/numerik.

Matriks Korelasi

Pilih variabel-variabel kuantitatif (numerik) yang akan dihitung korelasinya

Matriks korelasi dari variabel terpilih adalah seperti luaran berikut
Luaran 2. Matriks Korelasi

Matriks Diagram Pencar

Untuk mendapatkan gambaran variabel-bariabel yang berhubungan, selain matriks korelasi dapat juga dibuat matriks diagram pencar atau matriks diagram korelasi secara global, dari variabel-variabel yang sudah terpilih di atas.

Gambar 1. Jenis Grafik dari Variabel Terpilih

Perhatikan profil sebaran data (trendnya miring/tidak) dan kerapatan sebaran terhadap garis lurus (rapat/lebar), mengindikasikan ada tidaknya hubungan yang kuat antar variabel. Pada diagram korelasi, perhatikan pola sebaran antara variabel dengan nilai korelasinya. Di dalam diagonal kita dapat melihat apakah histogramnya relatif kontinu, simetris dan unimodal, mengindikasikan apakah variabelnya miliki sebaran Gaussian (Normal).

Bahan diskusi
Jelaskan bagaimana pola sebaran dan beri contoh
  1. dua variabel yang memiliki korelasi positif
  2. dua variabel yang memiliki korelasi negatif
  3. dua variabel yang memiliki korelasi kuat
  4. dua variabel yang memiliki korelasi lemah

2.2. Eksplorasi Grafik Variabel Respon

Selanjutnya kita dapat melakukan pemeriksaan lebih fokus terhadap sebaran $Y$ apakah memiliki sebaran yang dapat dikatakan sebagai sebaran Gaussian baik secara grafik maupun secara numerik. Secara grafik kita dapat mengunakan histogram, Box-plot, atau QQ-norm untuk melihat indikasinya.
Jenis Grafik:
(Pilih QQ-Norm, Box-plot, atau histogram)
Gambar 2. Grafik Sebaran Data Respon ($Y$, harus bersekala interval)

Sebaran Gausian ditandai dengan grafik histogram dan Box plot yang bersifat kontinu dan simetris. Sedangkan dari QQ-Norm/QQ-Plot sebaran data membentuk garis lurus (tidak keluar dari batas atas dan batas bawah). Pada Boxplot, adanya titik yang berada di luar batas, mengindikasikan adanya pencilan (outlier).

Bahan diskusi
Dengan memperhatikan pola grafik (histogram, boxplot, QQ-Norm), jelaskan apakah variabel yang anda pilih ($Y$), menunjukkan indikasi bersebaran Normal/ Gaussian?

2.3. Uji Kenormalan Respon

Selain melihat indikasi secara grafik, secara numerik kita dapat melakukan uji kenormalan dengan beberapa cara seperti berikut ini. Respon dianggap bersebaran Gaussian jika uji menghasilkan nilai $p$ lebih dari 0,05.

Hipotesis
$H_0: $ variabel $Y$ memiliki sebaran Gausian dan $H_A: $ variabel $Y$ tidak memiliki sebaran Gausian.
Kesimpulan
$H_0: $ diterima jka p-val lebih dari 5% dan $H_A: $ ditolak jika p-val kurang dari 5%.

Lakukan uji kenormalan untuk $Y$ dengan

Luaran 3. Hasil Uji Kenormalan $Y$

 

Bahan diskusi
  1. Apakah $p-val$ kurang atau lebih dari 0,05?
  2. Bagaimana kesimpulan anda, apakah respon $Y$ dapat dianggap bersebaran Gaussian?
  3. Bandingkan kesimpulan anda dengan menggunakan uji normalitas dan dengan memperhatikan pola dari grafik sebelumnya, apakah kesimpulannya sama?

Navigasi: Input Data Eksplorasi Data Uji Beda Uji Anova Uji Regresi Detail Graf

3. Estimasi parameter


Interval Keyakinan untuk penduga mean populasi $Y$ ($\mu_Y$) adalah \begin{equation}\bar{y} - t_{tab} s_{\bar{Y}} \le \mu_Y \le \bar{y} + t_{tab} s_{\bar{Y}} \text{ dengan }s_{\bar{Y}}=s_Y/\sqrt{n} \text{ dan } t_{tab}=t_{\alpha/2,(n-1)}\end{equation} dengan $\displaystyle s^2_Y=\frac{\sum_{i=1}^n (y_i-\bar{y})^2}{n-1}$
Untuk $Y$ yang sudah ditentukan sebelumnya, pada taraf signifikansi $\alpha$= (Nilai ini bisa diganti sesuai keperluan dari 1% sd 10%), hasil estimasi titik dan estimasi selang untuk mean adalah:


4. Uji Beda Mean

Uji beda mean bertujuan menguji apakah mean suatu populasi (kelompok populasi) sama dengan suatu nilai tertentu, atau sama dengan nilai mean kelompok lainnya. Uji beda mean ini terdiri atas beberapa jenis yaitu uji $T$ satu dan dua kelompok dan Uji F (Anava) untuk tiga kelompok atau lebih.

4.1. Uji Mean 1 Kelompok

Tujuan

Menguji kebenaran klaim bahwa mean suatu populasi ($\mu_Y$) mempunyai nilai tertentu $(\mu_0$)

Hipotesis

Uji dua arah, $H_0: \mu_Y=\mu_0$ vs. $H_1: \mu_Y\neq\mu_0$

Rumus Terkait

  1. \[t_{hit}=\frac{\bar{y}-\mu_0}{s/\sqrt{n}}=\frac{\bar{y}-\mu_0}{s_{\bar{Y}}}\text{ dengan } s_{\bar{Y}}=s_Y/\sqrt{n} \text{ dan }s_Y = \sqrt{\frac{\sum_{i=1}^n \left(y_i-\bar{y}\right)^2}{n-1}}\]

Hasil Analisis

Untuk $Y$ yang sudah ditentukan sebelumnya, dengan $H_0=\mu_0$= . (Nilai ini sebaiknya diganti sesuai keperluan/ rentang data)
Hasil Analisis



Perhatikan bahwa perhitungan $\displaystyle |t_{hit}|=\left|\frac{\bar{y}-\mu_0}{s_{\bar y}}\right|$ diwakili oleh abs.thit = abs(muy-mu0)/se

Penarikan Kesimpulan

Dengan taraf signifikansi 5%, $H_0$ diterima jika dan hanya jika (tiga kriteria berikut ekuivalen):
  1. $p.val > (0,05$ = 5%)
  2. $|t_{hit}| < t_{tab}$
  3. $\mu_0\in\; $IK.95%

Ketiga cara penarikan kesimpulan ini menghasilkan kesimpulan yang sama, sebagaimana ditunjukkan pada hasil analisis dan visualisasi pada Plot Analisis Gambar 3.

Plot Hasil Analisis
Gambar 3. Visualisasi IK, P-Val, dan T-Tabel
Perhatikan nilai $p-val,\; t_{tab},\; t_{hit}$ dan $IK-95$%
Perhitungan p-val

Ilustrasi ini akan lebih jelas dilihat jika nilai p-val $\pm$ 5%. Nilai p-val adalah peluang terjadinya kealahan menolak H0 yang benar yang secara grafik digambarkan sev-bagai luas area bagian luar dari batas $|t_{hit}|,$ yaitu $P\left(T \gt |t_{hit}|\right)$, nilai p-val yang baik adalah tidak melebihi batas signifikansi yang dipakai ($\alpha$), seperti diilustrasikan pada Gambar 5.$

  1. Untuk sample kecil, menggunakan distribusi $t_{n-1}.$ $$p-val=1-\int_{-|t_{hit|}}^{+|t_{hit}|}f(t)dt =\int_{- \infty}^{-|t_{hit}|}f(t)dt+\int_{+|t_{hit}|}^\infty f(t)dt$$
  2. Untuk sample besar, menggunakan distribusi $z=N(0,1).$ $$p-val=1-\int_{-|z_{hit|}}^{+|z_{hit}|}f(z)dz =\int_{- \infty}^{-|z_{hit}|}f(z)dz+\int_{+|z_{hit}|}^\infty f(z)dz$$
Gambar 4. Ilustrasi $p-val$. Untuk memahami, ubah-ubah nilai $H_0$ sekitar batas atas/ bawah $IK-95$%
Bahan Diskusi
  1. Tuliskan rumusan $H_0$ dan $H_A$ dari data, variabel dan nilai $\mu_0$ yang anda pilih?
  2. Dari luaran analisis yang ada, apakah kesimpulan terhadap $H_0$ (diterima/ ditolak) dengan menggunakan kriteria berikut ini.
    • membandingkan nilai p.Val dengan taraf signifikansi yang digunakan?
    • membandingkan nilai T.hitung dan T.tabel?
    • melihat nilai Interval Keyakinan dari beda mean yang dihasilkan R, apakah memuat nilai $\mu_0$?

4.2. Uji Beda 2 Kelompok Saling Bebas

Pilih $X$ atau $G$, faktor yang terdiri atas tepat dua kategori (lihat lagi ringkasan data)

Tujuan

  1. Menguji bisa diterima tidaknya klaim yang menyatakan bahwa nilai mean dari dua kelompok ($\mu_X,\mu_Y$) sama

Hipotesis

  1. $H_0: \mu_{G_1}=\mu_{G_2}$ atau $H_0: \mu_{G_1}-\mu_{G_2}=0$
  2. $H_1=H_A: \mu_{G_1}\neq\mu_{G_2}$ atau $H_1=H_A: \mu_{G_1}-\mu_{G_2}\neq 0$

Rumus Terkait

Rumus umum \[t_{hit}=\frac{\bar{y}_{G_1}-\bar{y}_{G_2}}{s_{p}}\]
  1. Untuk asumsi variansi tidak homogen \[sp =\sqrt{\frac{s^2_{G_1}}{n_{G_1}}+ \frac{s^2_{G_2}}{n_{G_2}}} \]
  2. Untuk asumsi variansi homogen \[s_p= \sqrt{\left(\frac{(n_{G_1}-1)s_{G_1}^2+(n_{G_2}-1)s_{G_2}^2}{n_{G_1}+n_{G_2}-2}\right) \left(\frac{1}{n_{G_1}}+\frac{1}{n_{G_2}}\right)} \]
  3. $$s_{G}^2=\frac{\sum_{i=1}^{n_{G}}(y_i-\bar{y})^2}{n_G-1}$$

Uji homogenitas variansi

Melakukan uji homogenitas variansi dengan:



Berdasarkan hasil uji homogenitas, maka perhitungan uji bisa dilakukan dengan asumsi homogenitas variansi


Luaran Uji



Plot Rerata

Plot rerata memberikan gambaran posisi rata-rata sample dan IK 95% dari masing-masing kelompok. Ada gap yang cukup lebar pada kedua interval menunjukkan adanya beda yang signifikan antara kedua mean (Namun, lebih banyak sebagai visualisasi, sedangkan hasil yang lebih akurat harus dilihat pada hasil uji statistik, terutama pada kondisi gap yang sempit).

Gambar 5. Plot Rerata dengan asumsi varians tidak homogen

Nilai rata-rata, standar deviasi dan ukuran Sampel per kelompok

	   
Bahan Diskusi
  1. Tuliskan rumusan $H_0$ dan $H_A$ dari data, variabel dan kelompok yang anda pilih?
  2. Apakah variansnya termasuk homogen/ atau tidak, jelaskan?
  3. Dari luaran analisis yang ada, apakah kesimpulan terhadap $H_0$ (diterima/ ditolak) dengan menggunakan kriteria berikut ini.
    • membandingkan nilai p.Val dengan taraf signifikansi yang digunakan?
    • membandingkan nilai T.hitung dan T.tabel?
    • melihat nilai Interval Keyakinan dari beda mean yang dihasilkan R, apakah memuat nilai 0?

4.3. Uji Beda Kelompok Berpasangan

Tujuan

  1. Menguji bisa diterima tidaknya klaim bahwa dua atribut pada populasi ($X,Y$), memiliki mean yang sama ($\mu_X=\mu_Y$).

Hipotesis

  1. $H_0: \mu_{X-Y}=0$
  2. $H_1: \mu_{X-Y}\neq 0$
Untuk Uji T dua kelompok berpasangan, pilih variabel $X (\neq Y)$ yang memiliki skala interval, yaitu:

Luaran Uji


Visualisasi Grafik

Gambar 6. Grafik Box-Plot antara $X$ dengan $Y$

Navigasi: Input Data Eksplorasi Data Uji Beda Uji Anova Uji Regresi

5. ANAVA

5.1. ANAVA 1 Arah

Tujuan

Untuk mengetahui apakah 3 kelompok atau lebih (dalam 1 faktor) memiliki mean yang sama

Asumsi

  1. Pengelompokan/Faktor terdiri atas tiga kelompok atau lebih, yang saling bebas
  2. Peubah (atribut) kelompok yang dibandingkan bersekala interval dan bersebaran Gaussian/ Normal dengan varians homogen

Rumus/ Teori terkait

Misalkan yang diperiksa adalah faktor dengan $p$ kelompok, masing-masing kelompok memiliki $n_i, i=1,2,3,\cdots,p$ sampel.

Sumber Keragaman Jumlah Kuadrat (JK=SS) Derajat bebas (db) Rata-rata Kuadrat (RK=MS) Nilai F
Antar Kelompok (Kolom) $SSB=JKK$ $p-1$ $MSB=RKK=\frac{JKK}{p-1}$ $F=\frac{RKK}{RKE}$
Dalam Kelompok $SSW=JKE$ $n-p$ $MSW=RKE=\frac{JKE}{n-p}$ $\sim F_{(p-1,n-p)}$
$$F=RKK/RKE\sim F_{(p-1,n-p)}\text{ dengan } n=\sum n_i \text{ dan }$$ $$JKT=\sum_{i=1}^p \sum_{j=1}^{n_i} y_{ij}^2-\frac{\bar{y}^2_{..}}{n};\;\; \bar{y}_{..}=\frac{\sum_{i=1}^p \sum_{j=1}^{n_i} y_{ij}}{n};\;\;RKT=\frac{JKT}{n-1}$$ $$JKK=\sum_{i=1}^p \bar{y}_{i.}^2-\frac{\bar{y}^2_{..}}{n};\; \bar{y}_{i.}=\frac{\sum_{j=1}^{n_i} y_{ij}}{n_i};\;\;RKK=\frac{JKK}{p-1}$$ $$JKE=JKT-JKK=\sum_{i=1}^p \sum_{j=1}^{n_i} y_{ij}^2-\sum_{i=1}^p \bar{y}_{i.}^2;\;\; RKE=\frac{JKE}{n-p}$$ $JKT:$ Jumlah kuadrat total, $JKK:$ Jumlah kuadrat kelompok, $JKE:$ Jumlah kuadrat error
RK: rata-rata kuadrat =JK/db

Hipotesis

  1. $H_0:$ Mean semua kelompok adalah sama $\mu_i=\mu_{j},\text{ untuk }\forall i,j$
  2. $H_1:$ Tidak semua Mean kelompok sama, $\exists i\neq j\; $ sedemikian hingga $\mu_i\neq\mu_{j}$
Diperlukan faktor dengan 2 kategori atau lebih
Update Y?

Luaran Anova


Catatan:

Grafik Perbandingan berpasangan Pairwaise Comparisons

Selisih pasangan antar kelompok ditunjukkan oleh grafik berikut.
Gambar 8. Grafik interval berpasangan Anova Satu Arah




Bahan Diskusi
  1. Bagaimana hasil uji hipotesis secara keseluruhan, apakah diterima, atau ditolak?
  2. Jelaskan hasilnya baik menggunakan hasil luaran anova maupun luaran grafik
  3. Jika ditolak, pasangan-pasangan kelompok mana yang berbeda signifikan?

5.2. ANAVA 2 Arah (Faktor)

Tujuan

  1. Ingin mengetahui apakah mean kelompok-kelompok dalam faktor I sama atau tidak
  2. Ingin mengetahui apakah mean kelompok-kelompok dalam faktor II sama atau tidak
  3. Ingin mengetahui apakah ada interaksi antara faktor I dan faktor II

Hipotesis

Sesuai dengan tujuan, ada 3 hipotesis yang harus diuji:
  1. Untuk Faktor I $Ho:\forall i,j $ dalam faktor I, $\mu_i =\mu_j$ dengan $H_A$ ada $i\neq j $ dengan $\mu_i\neq\mu_j$
  2. Untuk Faktor II $Ho:\forall u,v $ dalam faktor II, $\mu_u =\mu_v$ dengan $H_A$ ada $u\neq v $ dengan $\mu_u\neq\mu_v$
  3. $H_0$ tidak ada interaksi dan $H_A$ ada interaksi antara faktor I dan faktor II
Faktor (variabel kualitatif) lain yang ingin diperiksa secara serempak adalah

Luaran Anova


Catatan:

Grafik Rerata

Grafik Rerata untuk ANAVA Dua Arah Gambar 9. Grafik Rata-rata Anova Dua Arah

Pairwise Comparisons

Gambar 10. Interval berpasangan untuk ANAVA Dua Arah



Bahan Diskusi
  1. Bagaimana hasil uji hipotesis 1, secara keseluruhan, untuk Faktor I, apakah diterima, atau ditolak?
  2. Bagaimana hasil uji hipotesis 2, secara keseluruhan, untuk Faktor II, apakah diterima, atau ditolak?
  3. Bagaimana hasil uji hipotesis, 3, apakah ada interaksi antara Faktor I dengan Faktor II
  4. Jelaskan hasilnya baik menggunakan hasil luaran anova maupun luaran grafik
  5. Jika ada hipotesis yang ditolak, pasangan-pasangan kelompok mana yang berbeda signifikan?
Navigasi: Input Data Eksplorasi Data Uji Beda Uji Anova Uji Regresi

6. DATA FREKUENSI DAN TABEL KONTINGENSI

6.1 Uji Proporsi

Tujuan

Untuk menguji apakah satu kelompok (dari dua kelompok yang ada) dalam populasi memiliki proporsi tertentu ($p_0$) $$z_0=\frac{\hat{p}-p_0}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\text{ dengan } \hat{p}=\frac{n(S)}{n}$$
  1. $H_0:\; p=p_0$
  2. $H_A=H_1:\; p\neq p_0$
Pilih faktor tepat dengan 2 kategori/ kelompok
Gambar 11. Grafik Proporsi dua kelompok Hipotesis Ho (proporsi): . IK (proporsi): .


6.2 Uji Proporsi 2 Faktor

Tujuan

Untuk menguji apakah proporsi dari dua faktor sama
Faktor 2 harus tepat dengan 2 kategori/ kelompok

Hasil Analisis



Plot Tabel
Gambar 11. Grafik Proporsi dua kelompok

6.2 Uji Frekuensi 1 Faktor

Tujuan

Untuk menguji apakah kelompok-kelompok dari faktor yang diperiksa dalam populasi memiliki frekuensi yang sama
  1. $H_0:f_{Gi}=f_{Gj}\; \forall i,j$
  2. $H_A=H_1:\exists i,j, \ni\; f_{Gi}\neq f_{Gj} $
Pilih faktor dengan 2 atau lebih kategori/ kelompok
Gambar 12. Grafik Frekuensi Kelompok (>2)





$$\chi^2_0=\sum_{i=1}^p r_i^2 =\sum_{i=1}^p\left[\frac{n_i-E(n_i)}{\sqrt{E(n_i)}}\right]^2\sim \chi^2_{p-1}$$


6.3. Uji Frekuensi 2 Faktor

Tujuan

Untuk menguji apakah 2 faktor yang diperiksa dalam populasi memiliki keterkaitan
  1. $H_0:$ Klasifikasi dari dua faktor saling independen
  2. $H_1:$ Klasifikasi dari dua faktor tidak inependen
Gambar 13. Grafik Frekuensi 2 Faktor

Tabel Data

Tabel Ekspektasi
Ekspektasi dihitung dari $$E_{ij}=\frac{B_i\times K_j }{N}; \;\;$$ $B_i$=Jumlah baris ke-i dan $K_j$= Jumlah kolom ke j. Misalnya untuk baris ke dan kolom ke diperoleh ekspektasi


Secara keseluruhan diperoleh Tabel Ekspektasi seperti berikut:

Tabel Residu Pearson
Residu Pearson diperoleh dari $$r_{ij}=\frac{n_{ij}-E_{ij}}{\sqrt{E_{ij}}}\;\text{dengan } E_{ij}=E\left(n_{ij}\right)$$

Tabel Residu baku

$$\chi^2_0=\sum_{j=1}^k\sum_{i=1}^p r_{ij}^2 =\sum_{j=1}^k\sum_{i=1}^p\left[\frac{n_{ij}-E(n_{ij})}
{\sqrt{E(n_{ij})}}\right]^2\sim \chi^2_{\nu};\;\nu=(p-1)(k-1)$$

Hasil Uji




Bahan Diskusi
  1. Apakah bedanya antara anova dengan uji beda frekuensi? beri 1-2 ilustrasi
  2. Apakah frekuensi dari tiap-tiap kelompok yang anda uji berbeda signifikan atau tidak?

6. Uji Korelasi dan Regresi

Tujuan

  1. Menguji apakah dua atribut populasi ($X,Y$) memiliki korelasi yang signifikan)
  2. Bagaimana bentuk hubungan linier antara kedua atribut $(X,Y)$ secara fungsional ($Y=\hat{\beta_0}+\hat{\beta_1}X $). Dengan kata lain bagaimana nilai estimasi $\hat{\beta_0},\hat{\beta_1}$

Asumsi

  1. Variabel/ atribut $Y$ memiliki sebaran gaussian
  2. Hubungan antara $X$ dengan $Y$ adalah linier
  3. Variabel/ atribut $Y$ memiliki varians yang konstan

Uji korelasi (Produk Momen)

Hipotesis
Korelasi antara $X,Y$
$H_0: \rho_{XY}=0$
$H_1: \rho_{XY} \neq 0 $
Rumus Terkait
$$r_{XY}=\frac{S_{XY}}{S_XS_Y}$$ dengan kovarian sampel $XY= S_{XY}=\frac{1}{n-1}\sum_{i=1}^n\left( X_i-\bar{X}\right) \left( Y_i-\bar{Y} \right)$,
dan $S_X=\sqrt{\frac{1}{n-1}\sum_{i=1}^n\left( X_i-\bar{X}\right)^2}$ serta $S_Y=\sqrt{\frac{1}{n-1}\sum_{i=1}^n\left( Y_i-\bar{Y}\right)^2}$
$Z_{iX}=\frac{X_i-\bar{X}}{S_X}\text{ dan }Z_{iY}=\frac{Y_i-\bar{Y}}{S_Y}$

Tunjukkan bahwa:
$$r_{XY}=\frac{\sum_{i=1}^nZ_{iX} Z_{iY}}{n-1}$$

Pengujian korelasi
$$ t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \text{ yang berdistribusi } t_{n-2} $$

Uji Regresi

$H_1: \beta_0 \neq 0 $ atau $\beta_1\neq 0$

Dengan menggunakan metode Kuadrat Terkecil (OLS) atau Likelihood Maksimum diperoleh (lihat Tirta 2009) \begin{align} \hat{\beta_0} & = \frac{1}{n} \sum_{i=1}^n Y_i - \beta_1 \frac{1}{n}\sum_{i=1}^n X_i \nonumber\\ &=\bar{Y}-\beta_1 \bar{X} \end{align} \begin{align} \hat{\beta_1} & =\frac{\sum Y_i (X_i -\bar{X})} { \sum \left(X_i-\bar{X}\right)^2} \end{align}

Selain masalah koefisien ($\hat{\beta_0}$ dan $\hat{\beta_1}$ dan signifikansinya) ada ukuran yang menunjukkan kecocokan model, yaitu koefisien determinasi ($R^2$) yang dihitung sebagai berikut \begin{align} R^2&= \frac{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2-\sum_{i=1}^N \left(y_i-\hat{y}\right)^2} {\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2}\\ &=1-\frac{SSE}{SS_Y}\\ &=1-\frac{JKK}{JK_Y}.\end{align} (Lihat Mendenhall 1993). Pilih variabel (atribut) untuk Analisis regresi, selanjutnya simak kondisi diagram pencarnya.

Gambar 12. Grafik Diagram Pencar menggambarkan hubungan $X$ dengan $Y$. Apakah ada indikasi (tren) hubungan linier? Apakah sebaran data cukup mengumpul?

6.1 Uji Korelasi

Perhitungan koefisien dan uji korelasi untuk jenis Korelasi: ,
      
      
$H_0$ diterima (tidak ada korelasi) jika $p-Val$ lebih dari 5%

5. Uji Regresi

Untuk pembahasan regresi sederhana, uraian lebih detail lihat Detail Regresi Sederhana

Luaran 4. Hasil Uji Regresi

      
Ringkasan:
Nilai ukuran GOF seperti berikut ini

[Lihat Tirta (2009) dan Hay-Jahans (2012)]

Hubungan antara Korelasi, Standar deviasi dan Koefisien Regresi

Dari rumus-rumus koefisien korelasi produk momen dan koefisien regresi ($b=\hat{\beta_1}$) diperoleh hubungan seperti berikut ini. Untuk Jumlah Kuadrat $SS$ dan Mean Kuadrat $MS$ bisa dilihat pada luaran anova regresi $$b=\hat{\beta_1}=\frac{r_{xy}s_y }{s_x},$$ dengan $$se_{\hat{\beta_1}}=\sqrt{\frac{mse}{ssx}} \text{ dengan } ssx=\sum_{1=1}^n ({x-\bar{x}})^2$$ sedangkan untuk konstanta diperoleh dengan $$a=\hat{\beta_0}= \bar{y}-{\hat{\beta}_1}\bar{x}$$ dengan $$se_{\hat{\beta_0}}=\sqrt{\left(\frac{1}{n}+\frac{\bar{x}^2}{ssx}\right)\times mse}$$ Pada ilustrasi di atas diperoleh Koefisien $\hat{\beta_1}$ = (korelasi $r_{XY}$) $\times$ (deviasi baku $Y$) / (deviasi baku $X$)

Analisis Varians dari Regresi


Ringkasan

  1. Jumlah Kuadrat Regresi (JKR) atau Sum squares Regression, (SSR)= dengan $dk=1$ sehingga MSR = SSR.
  2. Untuk sisa (residu), Jumlah Kuadrat Error (JKE) atau Sum squares error, (SSE)= dengan $dk=n-2$ = dan $MSE=\frac{SSE}{n-2}$ =
  3. $F=\frac{MSR}{MSE}$ = / =

Plot Diagnostik dari Sisa

Diagnostik regresi dan remidinya dapat dilihat pada Sheather [Bab 3, 2009]. Tirta (2009)

Gambar 14. Grafik Diagnostik Regresi.

Tugas
  1. Ulangi Proses di atas dengan memilih data atau variabel lain yang sesuai.
  2. Buat Rumusan Hipotesis Nol dan Hiotesis Kerja dari masing-masing Uji
  3. Buat kesimpulan dari analisis data yang dilakukan (penerimaan/ penolakan $H_0$) serta makna sehari-hari dikaitkan dengan data dan variabel yang dianalisis
  4. Verifikasi hasil anda dengan menunjukkan nilai $p$-val dan ukuran-ukuran lain yang sesuai
  5. Lengkapi penjelasan anda dengan ilustrasi grafik yang sesuai
Bahan Diskusi
  1. Tentukan bunyi rumusan H0 untuk korelasi?
  2. Apakah besar kecilnya nilai korelasi sama dengan signifikan tidaknya korelasi tersebut.
  3. Mungkinkah nilai korelasinya kecil kurang dari 0,5 tetapi signifikan?
  4. Bagaimana rumusan H0 untuk koefisien regresi?
  5. Bagaimana menentukan apakah koefisien regresinya signifikan/ tidak?
  6. Apa maknanya jika koefisien regresinya signifikan/ tidak?
  7. Apa yang diukur/ dijelaskan oleh nilai R-sq?
  8. Apa artinya jika koefisien regresinya signifikan tetapi R-sq kecil?
  9. Jelaskan pertanyaan di atas terkait data yang anda uji/ modelkan dan beri kesimpulan dan makna dari hasil analisis/ pemodelan data yang anda lakukan
Navigasi: Input Data Eksplorasi Data Uji Beda Uji Anova Uji Regresi Detail Regresi

Sumber Bacaan

Jika ingin mendalami lebih jauh teori-teori yang mendasari analisis data yang ada di atas, dipersilakan membaca beberapa referensi terkait diantaranya seperti berikut ini.
  1. Akaike. 1972. Information theory and extension of maximum likelihood theory. In B.N. Petrov and F.Csahi, editors, 2nd Symposium on Information Theory: 267--281
  2. J.M. Chamber and T.J. Hastie. 1992. Statistical Model in S. Chapman and Hall, London.
  3. W.N. Venables and B.D. Ripley.1994. Modern Applied Statistics with S-plus. Springer.
  4. Cook, R.D 1998. Regression Graphics, Ideas for Studying Regression through Graphics. Wiley International Publ.
  5. Cook, R.D & Weisberg, S. 1999. Applied Regression Including Computing & Graphics. Wiley International Publ.
  6. Hay-Jahans, C. 2012. An R Companion to Linear Statistical Models . CRC Pres.
  7. Sheather, S. 2009. A Modern Appoach to Regression with R. Springer
  8. Tirta, IM 2009. Analisis Regresi dengan R . Jember Uniersity Press
  9. Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. Unej Press
  10. Sahbaba B. 2012. Chapter 3. Data Exploration Biostatistics with R . Springer
  11. Wright, D.B. & K. London, 2009. Modern Regression Techniques Using R A Practical Guide for Students and Researchers. Sage
  12. Wikipedia. Normality Test http://en.wikipedia.org/wiki/Normality_test [Akses 28 Oktober 2014]

Lampiran Data

Lampiran 1. Data Untuk Analisis. Banyak kasus yang ingin ditampilkan ( $n \leq N$) .

  

Konversi dari File Excel ke CSV/Tex

Langkah-langkah mengkonversi data dari excel ke CSV adalah seperti berikut ini.
  1. Buka data anda dalam excel, usahakan hanya ada 1 sheet yang berisi data.
  2. Judul (header) pada data hanya 1 baris (Lihat Gambar)
  3. Selanjutnya disimpan dalam format lain, dengan pilihan CSV (Comma delimited) *.csv
  4. Untuk menyimpan ke format tex, highlight bagian dari data (mulai header sampai seluruh baris data)
  5. Buka editor ascii seperti notepad dan sejenisnya, lalu paste di sana
  6. Simpan file dengan ekstensi *.txt