Modul Metode Statistika Parametrik Dasar

Oleh I Made Tirta. (Revisi 2022). Laboratorium Statistika, Jurusan Matematika FMIPA Universitas Jember
Untuk Analisis Data Sejenis tanpa Narasi klik SCOLAR

Mohon mengisi Angket Respon berikut. Terimakasih atas kesediannya mengisi Angket Respon

Deskripsi

Laman web ini dimaksudkan untuk memberikan kesempatan kepada para pengunjung (mahasiswa) untuk melakukan eksplorasi metode statistika parametrik dasar dengan mencoba berbagai data dan berbagai jenis analisis. Pada tingkat dasar, metode statistika parametriks hampir seluruhnya menggunakan asumsi bahwa data untuk peubah respon memiliki sebaran Gaussian atau Normal. Oleh karena itu sebelum melakukan uji statistika, pengguna wajib melakukan eksplorasi (baik melalui visualisasi grafik maupun uji statistika) untuk meyakinkan bahwa asumsi ini tidak dilanggar secara serius.

Objektif

Secara umum pengguna/ mahasiswa diharapkan dapat melakukan pengujian statistika dasar dengan benar dan menginpterpretasikan hasilnya dengan jelas. 'Benar' mengandung makna meyakinkan bahwa persyaratan (asumsi) terpenuhi dan prosedurnya benar. 'Jelas' berarti selain oleh para para statistikawan, interpretasinya juga mudah dipahami ilmuan yang non statistikawan. Secara lebih detail, tahapan hasil yang harus dicapai mahasiswa adalah sebagai berikut ini.

Dapat mengaktifkan data yang sesuai dengan kebutuhan analisis, atau dapat mengimpor datanya sendiri untuk dieksplorasi.
Dapat menyatakan jenis-jenis skala dari masing-masing faktor atau variabel yang ada pada data (seperti banyaknya kelompok pada faktor/kualitatif, rigkasan variabel kuantitatif)
Dapat menampilkan visualisasi grafik yang sesuai dengan kebutuhan (misalnya memeriksa kenormalan data, memeriksa hubungan antar variabel, homogeinitas variansi, memeriksa pengaruh faktor)
Secara lebih detail dapat melakukan uji untuk peneriksaan asumsi (uji kenormalan, uji homogeinitas variansi)
Dapat melakukan uji yang tepat sesuai keperluan/ tujuan (misalnya uji beda, uji hubungan)
Dapat menjelaskan kaitan antara hasil yang diperoleh dengan teori (rumus) terkait.
Dapat menafsirkan luaran hasil analisis (baik tingkat signifikansi maupun tingkat kecocokan)
Dapat melaporkan secara tertulis dan sistematis hasil ekplorasi yang diperoleh, dengan menggunakan minimal 2 jenis data atau variabel yang berbeda.

Petunjuk Umum

Setiap kali anda berlatih menerapkan analisis statistika, anda wajib mencoba minimal untuk dua (dua) kasus yang berbeda.
Lakukan tahapan eksplorasi data, pemeriksaan atau pengujian asumsi baik secara grafis maupun numerik.
Buat interpretasi dari hasil yang anda peroleh baik dalam konteks terminologi statistika, maupun dalam bahasa ilmiah secara umum. Misalnya apa artinya jika hasil ujinya signifikan, apa makna dari nilai $p-val$ yang diperoleh.
Buat laporan secara naratif dan sistematis dari hasil anda melakukan analisis statistika dan lengkapi laporan anda dengan rujukan teori ringkas atau rumus yang sesuai. Selalu jaga etika akademik: hindari plagiarisme.
Bonus: Bagi mereka yang bisa menulis laporan dalam format HTML, dan rumus-rumus matematikanya ditampilkan dengan $\LaTeX$ akan diberikan bonus sebanyak (+7) poin.

Prasarat:

Teori peluang

Pemaparan teori peluang dapat dilihat pada catatan Pengantar Peluang pada alamat berikut Pengantar Teori Peluang. Ilustrasi terkait peluang dapat dibuka pada alamat Peluang dan Frekuansi Relatif.

Distribusi Normal

Materi prasarat terkait perhitungan peluang sebaran Gaussian dan $t,$ misalnya, jika ada peubah acak $X$ memiliki sebaran Gaussian $N\left(\mu_X,\sigma^2_X\right)$ atau atau $t_{n-1}.$ Pengguna diharapkan dapat menghitung

$P(x_1 \lt X \lt x_2);$
$P(x_1 \lt X);$
$P(X \lt x_2) $
$p-val$ untuk $z=z_0$ atau $t=t_0$

CATATAN:
Materi terkait distribusi Gaussian dan beberapa distribusi kontinu lainnya dapat dilihat pada alamat berikut Distribusi Kontinu Normal dan Gamma. Sementara untuk ilustrasi perhitungan nilai p-val, bisa dilihat pada alamat berikut Kuantil dan p-value

1. Aktivasi Data

Untuk berlatih analisis data, anda harus mengaktifkan data. Anda dapat mengaktifkan data dari database R, atau data yang anda miliki dalam format khusus (Text atau CSV). Jika anda memiliki data dalam format excel, untuk saat ini anda harus mengkonversinya ke bentuk teks atau CSV (klik di sini!!) terlebih dahulu.

Pilihan Data

Khusus untuk Import Data, cari file data:
Selanjutnya pilih kelengkapan berikut sesuai dengan kondisi data yang diimpor

Header: ,

Tanda Pemisah: ,

Tanda Kutipan:

Catatan: Saat memperbarui data (ke dua kali dst ...), CHECK!/ "reset" posisi Grafik Regresi ke tanpa faktor/garis), KLIK!!!

Selanjutnya anda dapat melihat detail dari sebagian data, atau ringkasan data secara keseluruhan.

Luaran 1. Data Aktif (Pilih Daftar Sebagian Data atau Ringkasan Seluruh Data)

Untuk pertama kali mungkin membutuhkan waktu lebih karena harus membangkitkan data terlebih dahulu. Tampilan yang lebih lengkap dari data dapat dilihat pada Lampiran.

Selanjutnya cermati variabel-variabel/ faktor-faktor yang ada, lalu pilih analisis yang sesuai kondisi data dan pilih variabel/faktor sesuai analisis yang akan dilakukan. (Simak Tabel 1)

Tabel 1. Jenis Analisis dan Jenis Variabel-variabel yang diperlukan

NO.	JENIS ANALISIS	VARIABEL X	VARIABEL Y (RESPON)	DUMMY
1.	Estimasi Mean	-	Interval	-
2.	T 1-kelompok	-	Interval	-
3.	T 2-kelompok bebas	Faktor (2 kategori)	interval	-
4.	T 2-kelompok berpasangan	Interval	interval	-
5.	Anova 1 arah	Faktor (> 2 kategori)	interval	-
6.	Anova 2 arah	2 Faktor ($\geq$) 2 kategori)	interval	-
7.	Uji Proporsi	Faktor dengan 2 kategori		-
8.	Uji Frekuensi	Faktor (>2 kategori)		-
9.	Regresi biasa	Interval	interval	-
10.	Interval	interval	Faktor/ kelompok

Secara umum, asumsi yang berlaku dalam analisis data ini (pada tabel di atas) adalah

variabel respon $Y$ diasumsikan memiliki sebaran Gaussian atau Normal, $N(\mu_Y,\sigma^2_Y)$;
sampel diambil secara acak dan saling bebas

Navigasi:

2. Eksplorasi Data

2.1. Eksplorasi Data Global

Untuk mendapatkan gambaran variabel-variabel yang berhubungan, anda dapat menghitung matriks korelasi ataupun matriks diagram pencar dari (minimal 2) variabel kuantitatif/numerik.

Matriks Korelasi

Pilih variabel-variabel kuantitatif (numerik) yang akan dihitung korelasinya

Matriks korelasi dari variabel terpilih adalah seperti luaran berikut
Luaran 2. Matriks Korelasi

Matriks Diagram Pencar

Untuk mendapatkan gambaran variabel-bariabel yang berhubungan, selain matriks korelasi dapat juga dibuat matriks diagram pencar atau matriks diagram korelasi secara global, dari variabel-variabel yang sudah terpilih di atas.

Gambar 1. Jenis Grafik dari Variabel Terpilih

Perhatikan profil sebaran data (trendnya miring/tidak) dan kerapatan sebaran terhadap garis lurus (rapat/lebar), mengindikasikan ada tidaknya hubungan yang kuat antar variabel. Pada diagram korelasi, perhatikan pola sebaran antara variabel dengan nilai korelasinya. Di dalam diagonal kita dapat melihat apakah histogramnya relatif kontinu, simetris dan unimodal, mengindikasikan apakah variabelnya miliki sebaran Gaussian (Normal).

Bahan diskusi

Jelaskan bagaimana pola sebaran dan beri contoh

dua variabel yang memiliki korelasi positif
dua variabel yang memiliki korelasi negatif
dua variabel yang memiliki korelasi kuat
dua variabel yang memiliki korelasi lemah

2.2. Eksplorasi Grafik Variabel Respon

Selanjutnya kita dapat melakukan pemeriksaan lebih fokus terhadap sebaran $Y$ apakah memiliki sebaran yang dapat dikatakan sebagai sebaran Gaussian baik secara grafik maupun secara numerik. Secara grafik kita dapat mengunakan histogram, Box-plot, atau QQ-norm untuk melihat indikasinya.

Jenis Grafik:
(Pilih QQ-Norm, Box-plot, atau histogram)

Gambar 2. Grafik Sebaran Data Respon ($Y$, harus bersekala interval)

Sebaran Gausian ditandai dengan grafik histogram dan Box plot yang bersifat kontinu dan simetris. Sedangkan dari QQ-Norm/QQ-Plot sebaran data membentuk garis lurus (tidak keluar dari batas atas dan batas bawah). Pada Boxplot, adanya titik yang berada di luar batas, mengindikasikan adanya pencilan (outlier).

Bahan diskusi

Dengan memperhatikan pola grafik (histogram, boxplot, QQ-Norm), jelaskan apakah variabel yang anda pilih ($Y$), menunjukkan indikasi bersebaran Normal/ Gaussian?

2.3. Uji Kenormalan Respon

Selain melihat indikasi secara grafik, secara numerik kita dapat melakukan uji kenormalan dengan beberapa cara seperti berikut ini. Respon dianggap bersebaran Gaussian jika uji menghasilkan nilai $p$ lebih dari 0,05.

Hipotesis
$H_0: $ variabel $Y$ memiliki sebaran Gausian dan $H_A: $ variabel $Y$ tidak memiliki sebaran Gausian.
Kesimpulan
$H_0: $ diterima jka p-val lebih dari 5% dan $H_A: $ ditolak jika p-val kurang dari 5%.

Lakukan uji kenormalan untuk $Y$ dengan

Luaran 3. Hasil Uji Kenormalan $Y$

Bahan diskusi

Apakah $p-val$ kurang atau lebih dari 0,05?
Bagaimana kesimpulan anda, apakah respon $Y$ dapat dianggap bersebaran Gaussian?
Bandingkan kesimpulan anda dengan menggunakan uji normalitas dan dengan memperhatikan pola dari grafik sebelumnya, apakah kesimpulannya sama?

Navigasi:

3. Estimasi parameter

Interval Keyakinan untuk penduga mean populasi $Y$ ($\mu_Y$) adalah \begin{equation}\bar{y} - t_{tab} s_{\bar{Y}} \le \mu_Y \le \bar{y} + t_{tab} s_{\bar{Y}} \text{ dengan }s_{\bar{Y}}=s_Y/\sqrt{n} \text{ dan } t_{tab}=t_{\alpha/2,(n-1)}\end{equation} dengan $\displaystyle s^2_Y=\frac{\sum_{i=1}^n (y_i-\bar{y})^2}{n-1}$
Untuk $Y$ yang sudah ditentukan sebelumnya, pada taraf signifikansi $\alpha$= (Nilai ini bisa diganti sesuai keperluan dari 1% sd 10%), hasil estimasi titik dan estimasi selang untuk mean adalah:

4. Uji Beda Mean

Uji beda mean bertujuan menguji apakah mean suatu populasi (kelompok populasi) sama dengan suatu nilai tertentu, atau sama dengan nilai mean kelompok lainnya. Uji beda mean ini terdiri atas beberapa jenis yaitu uji $T$ satu dan dua kelompok dan Uji F (Anava) untuk tiga kelompok atau lebih.

4.1. Uji Mean 1 Kelompok

Tujuan

Menguji kebenaran klaim bahwa mean suatu populasi ($\mu_Y$) mempunyai nilai tertentu $(\mu_0$)

Hipotesis

Uji dua arah, $H_0: \mu_Y=\mu_0$ vs. $H_1: \mu_Y\neq\mu_0$

Rumus Terkait

\[t_{hit}=\frac{\bar{y}-\mu_0}{s/\sqrt{n}}=\frac{\bar{y}-\mu_0}{s_{\bar{Y}}}\text{ dengan } s_{\bar{Y}}=s_Y/\sqrt{n} \text{ dan }s_Y = \sqrt{\frac{\sum_{i=1}^n \left(y_i-\bar{y}\right)^2}{n-1}}\]

Hasil Analisis

Untuk $Y$ yang sudah ditentukan sebelumnya, dengan $H_0=\mu_0$= . (Nilai ini sebaiknya diganti sesuai keperluan/ rentang data)

Hasil Analisis

Perhatikan bahwa perhitungan $\displaystyle |t_{hit}|=\left|\frac{\bar{y}-\mu_0}{s_{\bar y}}\right|$ diwakili oleh abs.thit = abs(muy-mu0)/se

Penarikan Kesimpulan

Dengan taraf signifikansi 5%, $H_0$ diterima jika dan hanya jika (tiga kriteria berikut ekuivalen):

$p.val > (0,05$ = 5%)
$|t_{hit}| < t_{tab}$
$\mu_0\in\; $IK.95%

Ketiga cara penarikan kesimpulan ini menghasilkan kesimpulan yang sama, sebagaimana ditunjukkan pada hasil analisis dan visualisasi pada Plot Analisis Gambar 3.

Plot Hasil Analisis

Gambar 3. Visualisasi IK, P-Val, dan T-Tabel
Perhatikan nilai $p-val,\; t_{tab},\; t_{hit}$ dan $IK-95$%

Perhitungan p-val

Ilustrasi ini akan lebih jelas dilihat jika nilai p-val $\pm$ 5%. Nilai p-val adalah peluang terjadinya kealahan menolak H0 yang benar yang secara grafik digambarkan sev-bagai luas area bagian luar dari batas $|t_{hit}|,$ yaitu $P\left(T \gt |t_{hit}|\right)$, nilai p-val yang baik adalah tidak melebihi batas signifikansi yang dipakai ($\alpha$), seperti diilustrasikan pada Gambar 5.$

Untuk sample kecil, menggunakan distribusi $t_{n-1}.$ $$p-val=1-\int_{-|t_{hit|}}^{+|t_{hit}|}f(t)dt =\int_{- \infty}^{-|t_{hit}|}f(t)dt+\int_{+|t_{hit}|}^\infty f(t)dt$$
Untuk sample besar, menggunakan distribusi $z=N(0,1).$ $$p-val=1-\int_{-|z_{hit|}}^{+|z_{hit}|}f(z)dz =\int_{- \infty}^{-|z_{hit}|}f(z)dz+\int_{+|z_{hit}|}^\infty f(z)dz$$

Gambar 4. Ilustrasi $p-val$. Untuk memahami, ubah-ubah nilai $H_0$ sekitar batas atas/ bawah $IK-95$%

Bahan Diskusi

Tuliskan rumusan $H_0$ dan $H_A$ dari data, variabel dan nilai $\mu_0$ yang anda pilih?
Dari luaran analisis yang ada, apakah kesimpulan terhadap $H_0$ (diterima/ ditolak) dengan menggunakan kriteria berikut ini.
- membandingkan nilai p.Val dengan taraf signifikansi yang digunakan?
- membandingkan nilai T.hitung dan T.tabel?
- melihat nilai Interval Keyakinan dari beda mean yang dihasilkan R, apakah memuat nilai $\mu_0$?

4.2. Uji Beda 2 Kelompok Saling Bebas

Pilih $X$ atau $G$, faktor yang terdiri atas tepat dua kategori (lihat lagi ringkasan data)

Tujuan

Menguji bisa diterima tidaknya klaim yang menyatakan bahwa nilai mean dari dua kelompok ($\mu_X,\mu_Y$) sama

Hipotesis

$H_0: \mu_{G_1}=\mu_{G_2}$ atau $H_0: \mu_{G_1}-\mu_{G_2}=0$
$H_1=H_A: \mu_{G_1}\neq\mu_{G_2}$ atau $H_1=H_A: \mu_{G_1}-\mu_{G_2}\neq 0$

Rumus Terkait

Rumus umum \[t_{hit}=\frac{\bar{y}_{G_1}-\bar{y}_{G_2}}{s_{p}}\]

Untuk asumsi variansi homogen \[s_p= \sqrt{\left(\frac{(n_{G_1}-1)s_{G_1}^2+(n_{G_2}-1)s_{G_2}^2}{n_{G_1}+n_{G_2}-2}\right) \left(\frac{1}{n_{G_1}}+\frac{1}{n_{G_2}}\right)} \]
Untuk asumsi variansi tidak homogen \[sp =\sqrt{\frac{s^2_{G_1}}{n_{G_1}}+ \frac{s^2_{G_2}}{n_{G_2}}} \] dengan penyesuaian uji dan derajat bebas yang disebut Welch-Satterthwaite $$ df=\frac{\left(\frac{s_{G_1}^2}{n_{G_1}}+\frac{s_{G_2}^2}{n_{G_2}}\right)^2} {\frac{1}{n_{G_1}-1}\left(\frac{s_{G_1}^2}{n_{G_1}}\right)^2 +\frac{1}{n_{G_2}-1}\left(\frac{s_{G_2}^2}{n_{G_2}}\right)^2}$$ Penyesuaian ini biasanya menghasilkan $df$ yang tidak bulat, namun tetap dapat digunakan untuk menghitung $p-val$ dari $t$

Uji homogenitas variansi

Melakukan uji homogenitas variansi dengan:

Berdasarkan hasil uji homogenitas, maka perhitungan uji bisa dilakukan dengan asumsi homogenitas variansi

Luaran Uji

Plot Rerata

Plot rerata memberikan gambaran posisi rata-rata sample dan IK 95% dari masing-masing kelompok. Ada gap yang cukup lebar pada kedua interval menunjukkan adanya beda yang signifikan antara kedua mean (Namun, lebih banyak sebagai visualisasi, sedangkan hasil yang lebih akurat harus dilihat pada hasil uji statistik, terutama pada kondisi gap yang sempit).

Gambar 5. Plot Rerata dengan asumsi varians tidak homogen

Nilai rata-rata, standar deviasi dan ukuran Sampel per kelompok

Bahan Diskusi

Tuliskan rumusan $H_0$ dan $H_A$ dari data, variabel dan kelompok yang anda pilih?
Apakah variansnya termasuk homogen/ atau tidak, jelaskan?
Dari luaran analisis yang ada, apakah kesimpulan terhadap $H_0$ (diterima/ ditolak) dengan menggunakan kriteria berikut ini.
- membandingkan nilai p.Val dengan taraf signifikansi yang digunakan?
- membandingkan nilai T.hitung dan T.tabel?
- melihat nilai Interval Keyakinan dari beda mean yang dihasilkan R, apakah memuat nilai 0?

4.3. Uji Beda Kelompok Berpasangan

Tujuan

Menguji bisa diterima tidaknya klaim bahwa dua atribut pada populasi ($X,Y$), memiliki mean yang sama ($\mu_X=\mu_Y$).

Hipotesis

$H_0: \mu_{X-Y}=0$
$H_1: \mu_{X-Y}\neq 0$

Untuk Uji T dua kelompok berpasangan, pilih variabel $X (\neq Y)$ yang memiliki skala interval, yaitu:

Luaran Uji

Visualisasi Grafik

Gambar 6. Grafik Box-Plot antara $X$ dengan $Y$

Navigasi:

5. ANAVA

5.1. ANAVA 1 Arah

Tujuan

Untuk mengetahui apakah 3 kelompok atau lebih (dalam 1 faktor) memiliki mean yang sama

Asumsi

Pengelompokan/Faktor terdiri atas tiga kelompok atau lebih, yang saling bebas
Peubah (atribut) kelompok yang dibandingkan bersekala interval dan bersebaran Gaussian/ Normal dengan varians homogen

Rumus/ Teori terkait

Misalkan yang diperiksa adalah faktor dengan $p$ kelompok, masing-masing kelompok memiliki $n_i, i=1,2,3,\cdots,p$ sampel.

Sumber Keragaman	Jumlah Kuadrat (JK=SS)	Derajat bebas (db)	Rata-rata Kuadrat (RK=MS)	Nilai F
Antar Kelompok (Kolom)	$SSB=JKK$	$p-1$	$MSB=RKK=\frac{JKK}{p-1}$	$F=\frac{RKK}{RKE}$
Dalam Kelompok	$SSW=JKE$	$n-p$	$MSW=RKE=\frac{JKE}{n-p}$	$\sim F_{(p-1,n-p)}$

$$F=RKK/RKE\sim F_{(p-1,n-p)}\text{ dengan } n=\sum n_i \text{ dan }$$ $$JKT=\sum_{i=1}^p \sum_{j=1}^{n_i} y_{ij}^2-\frac{\bar{y}^2_{..}}{n};\;\; \bar{y}_{..}=\frac{\sum_{i=1}^p \sum_{j=1}^{n_i} y_{ij}}{n};\;\;RKT=\frac{JKT}{n-1}$$ $$JKK=\sum_{i=1}^p \bar{y}_{i.}^2-\frac{\bar{y}^2_{..}}{n};\; \bar{y}_{i.}=\frac{\sum_{j=1}^{n_i} y_{ij}}{n_i};\;\;RKK=\frac{JKK}{p-1}$$ $$JKE=JKT-JKK=\sum_{i=1}^p \sum_{j=1}^{n_i} y_{ij}^2-\sum_{i=1}^p \bar{y}_{i.}^2;\;\; RKE=\frac{JKE}{n-p}$$ $JKT:$ Jumlah kuadrat total, $JKK:$ Jumlah kuadrat kelompok, $JKE:$ Jumlah kuadrat error
RK: rata-rata kuadrat =JK/db

Hipotesis

$H_0:$ Mean semua kelompok adalah sama $\mu_i=\mu_{j},\text{ untuk }\forall i,j$
$H_1:$ Tidak semua Mean kelompok sama, $\exists i\neq j\; $ sedemikian hingga $\mu_i\neq\mu_{j}$

Diperlukan faktor dengan 2 kategori atau lebih

Update Y?

Luaran Anova

Catatan:

MS (mean Square) diperoleh dari SS (SUm Square) dibagi derajat bebas (Df)
Rasio antara MS Faktor dengan MS Residu, menghasilkan F hitung
F tabel (tidak dimunculkan) memiliki Df = Df (MS), DF (Residu)

Grafik Perbandingan berpasangan Pairwaise Comparisons

Selisih pasangan antar kelompok ditunjukkan oleh grafik berikut.

Gambar 8. Grafik interval berpasangan Anova Satu Arah

Bahan Diskusi

Bagaimana hasil uji hipotesis secara keseluruhan, apakah diterima, atau ditolak?
Jelaskan hasilnya baik menggunakan hasil luaran anova maupun luaran grafik
Jika ditolak, pasangan-pasangan kelompok mana yang berbeda signifikan?

5.2. ANAVA 2 Arah (Faktor)

Tujuan

Ingin mengetahui apakah mean kelompok-kelompok dalam faktor I sama atau tidak
Ingin mengetahui apakah mean kelompok-kelompok dalam faktor II sama atau tidak
Ingin mengetahui apakah ada interaksi antara faktor I dan faktor II

Hipotesis

Sesuai dengan tujuan, ada 3 hipotesis yang harus diuji:

Untuk Faktor I $Ho:\forall i,j $ dalam faktor I, $\mu_i =\mu_j$ dengan $H_A$ ada $i\neq j $ dengan $\mu_i\neq\mu_j$
Untuk Faktor II $Ho:\forall u,v $ dalam faktor II, $\mu_u =\mu_v$ dengan $H_A$ ada $u\neq v $ dengan $\mu_u\neq\mu_v$
$H_0$ tidak ada interaksi dan $H_A$ ada interaksi antara faktor I dan faktor II

Faktor (variabel kualitatif) lain yang ingin diperiksa secara serempak adalah

Luaran Anova

Catatan:

` F hitung untuk Faktor masing-masing komponen diperoleh dari MS komponen terkait dibagi dengan MS Residu

Grafik Rerata

Grafik Rerata untuk ANAVA Dua Arah Gambar 9. Grafik Rata-rata Anova Dua Arah

Pairwise Comparisons

Gambar 10. Interval berpasangan untuk ANAVA Dua Arah

Bahan Diskusi

Bagaimana hasil uji hipotesis 1, secara keseluruhan, untuk Faktor I, apakah diterima, atau ditolak?
Bagaimana hasil uji hipotesis 2, secara keseluruhan, untuk Faktor II, apakah diterima, atau ditolak?
Bagaimana hasil uji hipotesis, 3, apakah ada interaksi antara Faktor I dengan Faktor II
Jelaskan hasilnya baik menggunakan hasil luaran anova maupun luaran grafik
Jika ada hipotesis yang ditolak, pasangan-pasangan kelompok mana yang berbeda signifikan?

Navigasi:

6. DATA FREKUENSI DAN TABEL KONTINGENSI

6.1 Uji Proporsi

Tujuan

Untuk menguji apakah satu kelompok (dari dua kelompok yang ada) dalam populasi memiliki proporsi tertentu ($p_0$) $$z_0=\frac{\hat{p}-p_0}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\text{ dengan } \hat{p}=\frac{n(S)}{n}$$

$H_0:\; p=p_0$
$H_A=H_1:\; p\neq p_0$

Pilih faktor tepat dengan 2 kategori/ kelompok

Gambar 11. Grafik Proporsi dua kelompok Hipotesis Ho (proporsi): . IK (proporsi): .

6.2 Uji Proporsi 2 Faktor

Tujuan

Untuk menguji apakah proporsi dari dua faktor sama

Faktor 2 harus tepat dengan 2 kategori/ kelompok

Hasil Analisis

Plot Tabel

Gambar 11. Grafik Proporsi dua kelompok

6.2 Uji Frekuensi 1 Faktor

Tujuan

Untuk menguji apakah kelompok-kelompok dari faktor yang diperiksa dalam populasi memiliki frekuensi yang sama

$H_0:f_{Gi}=f_{Gj}\; \forall i,j$
$H_A=H_1:\exists i,j, \ni\; f_{Gi}\neq f_{Gj} $

Pilih faktor dengan 2 atau lebih kategori/ kelompok

Gambar 12. Grafik Frekuensi Kelompok (>2)

$$\chi^2_0=\sum_{i=1}^p r_i^2 =\sum_{i=1}^p\left[\frac{n_i-E(n_i)}{\sqrt{E(n_i)}}\right]^2\sim \chi^2_{p-1}$$

6.3. Uji Frekuensi 2 Faktor

Tujuan

Untuk menguji apakah 2 faktor yang diperiksa dalam populasi memiliki keterkaitan

$H_0:$ Klasifikasi dari dua faktor saling independen
$H_1:$ Klasifikasi dari dua faktor tidak inependen

Gambar 13. Grafik Frekuensi 2 Faktor

Tabel Data

Tabel Ekspektasi

Ekspektasi dihitung dari $$E_{ij}=\frac{B_i\times K_j }{N}; \;\;$$ $B_i$=Jumlah baris ke-i dan $K_j$= Jumlah kolom ke j. Misalnya untuk baris ke dan kolom ke diperoleh ekspektasi

Secara keseluruhan diperoleh Tabel Ekspektasi seperti berikut:

Tabel Residu Pearson

Residu Pearson diperoleh dari $$r_{ij}=\frac{n_{ij}-E_{ij}}{\sqrt{E_{ij}}}\;\text{dengan } E_{ij}=E\left(n_{ij}\right)$$

Tabel Residu baku

$$\chi^2_0=\sum_{j=1}^k\sum_{i=1}^p r_{ij}^2 =\sum_{j=1}^k\sum_{i=1}^p\left[\frac{n_{ij}-E(n_{ij})} {\sqrt{E(n_{ij})}}\right]^2\sim \chi^2_{\nu};\;\nu=(p-1)(k-1)$$

Hasil Uji

Bahan Diskusi

Apakah bedanya antara anova dengan uji beda frekuensi? beri 1-2 ilustrasi
Apakah frekuensi dari tiap-tiap kelompok yang anda uji berbeda signifikan atau tidak?

6. Uji Korelasi dan Regresi

Tujuan

Menguji apakah dua atribut populasi ($X,Y$) memiliki korelasi yang signifikan)
Bagaimana bentuk hubungan linier antara kedua atribut $(X,Y)$ secara fungsional ($Y=\hat{\beta_0}+\hat{\beta_1}X $). Dengan kata lain bagaimana nilai estimasi $\hat{\beta_0},\hat{\beta_1}$

Asumsi

Variabel/ atribut $Y$ memiliki sebaran gaussian
Hubungan antara $X$ dengan $Y$ adalah linier
Variabel/ atribut $Y$ memiliki varians yang konstan

Uji korelasi (Produk Momen)

Hipotesis

Korelasi antara $X,Y$
$H_0: \rho_{XY}=0$
$H_1: \rho_{XY} \neq 0 $

Rumus Terkait

$$r_{XY}=\frac{S_{XY}}{S_XS_Y}$$ dengan kovarian sampel $XY= S_{XY}=\frac{1}{n-1}\sum_{i=1}^n\left( X_i-\bar{X}\right) \left( Y_i-\bar{Y} \right)$,
dan $S_X=\sqrt{\frac{1}{n-1}\sum_{i=1}^n\left( X_i-\bar{X}\right)^2}$ serta $S_Y=\sqrt{\frac{1}{n-1}\sum_{i=1}^n\left( Y_i-\bar{Y}\right)^2}$
$Z_{iX}=\frac{X_i-\bar{X}}{S_X}\text{ dan }Z_{iY}=\frac{Y_i-\bar{Y}}{S_Y}$

Tunjukkan bahwa:
$$r_{XY}=\frac{\sum_{i=1}^nZ_{iX} Z_{iY}}{n-1}$$

Pengujian korelasi

$$ t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \text{ yang berdistribusi } t_{n-2} $$

Uji Regresi

$H_1: \beta_0 \neq 0 $ atau $\beta_1\neq 0$

Dengan menggunakan metode Kuadrat Terkecil (OLS) atau Likelihood Maksimum diperoleh (lihat Tirta 2009) \begin{align} \hat{\beta_0} & = \frac{1}{n} \sum_{i=1}^n Y_i - \beta_1 \frac{1}{n}\sum_{i=1}^n X_i \nonumber\\ &=\bar{Y}-\beta_1 \bar{X} \end{align} \begin{align} \hat{\beta_1} & =\frac{\sum Y_i (X_i -\bar{X})} { \sum \left(X_i-\bar{X}\right)^2} \end{align}

Selain masalah koefisien ($\hat{\beta_0}$ dan $\hat{\beta_1}$ dan signifikansinya) ada ukuran yang menunjukkan kecocokan model, yaitu koefisien determinasi ($R^2$) yang dihitung sebagai berikut \begin{align} R^2&= \frac{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2-\sum_{i=1}^N \left(y_i-\hat{y}\right)^2} {\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2}\\ &=1-\frac{SSE}{SS_Y}\\ &=1-\frac{JKK}{JK_Y}.\end{align} (Lihat Mendenhall 1993). Pilih variabel (atribut) untuk Analisis regresi, selanjutnya simak kondisi diagram pencarnya.

Gambar 12. Grafik Diagram Pencar menggambarkan hubungan $X$ dengan $Y$. Apakah ada indikasi (tren) hubungan linier? Apakah sebaran data cukup mengumpul?

6.1 Uji Korelasi

Perhitungan koefisien dan uji korelasi untuk jenis Korelasi: ,

$H_0$ diterima (tidak ada korelasi) jika $p-Val$ lebih dari 5%

5. Uji Regresi

Untuk pembahasan regresi sederhana, uraian lebih detail lihat Detail Regresi Sederhana

Luaran 4. Hasil Uji Regresi

Ringkasan:

$\boldsymbol{\hat{\beta}}=($ )$^T$
Standar error $se_\beta=($ )$^T$.
Nilai $\displaystyle t_j=\frac{\hat{\beta_j}}{se_{\beta_j}}$, untuk $\beta_0$, $t_0=$/=. Untuk $\hat{\beta_1},$ $t_1=$/=,
Derajat Kebebasan $(dk)$=.
Nilai $p-val$ masing-masing sebesar ()$^T$

Nilai ukuran GOF seperti berikut ini

[Lihat Tirta (2009) dan Hay-Jahans (2012)]

Hubungan antara Korelasi, Standar deviasi dan Koefisien Regresi

Dari rumus-rumus koefisien korelasi produk momen dan koefisien regresi ($b=\hat{\beta_1}$) diperoleh hubungan seperti berikut ini. Untuk Jumlah Kuadrat $SS$ dan Mean Kuadrat $MS$ bisa dilihat pada luaran anova regresi $$b=\hat{\beta_1}=\frac{r_{xy}s_y }{s_x},$$ dengan $$se_{\hat{\beta_1}}=\sqrt{\frac{mse}{ssx}} \text{ dengan } ssx=\sum_{1=1}^n ({x-\bar{x}})^2$$ sedangkan untuk konstanta diperoleh dengan $$a=\hat{\beta_0}= \bar{y}-{\hat{\beta}_1}\bar{x}$$ dengan $$se_{\hat{\beta_0}}=\sqrt{\left(\frac{1}{n}+\frac{\bar{x}^2}{ssx}\right)\times mse}$$ Pada ilustrasi di atas diperoleh Koefisien $\hat{\beta_1}$ = (korelasi $r_{XY}$) $\times$ (deviasi baku $Y$) / (deviasi baku $X$)

Analisis Varians dari Regresi

Ringkasan

Jumlah Kuadrat Regresi (JKR) atau Sum squares Regression, (SSR)= dengan $dk=1$ sehingga MSR = SSR.
Untuk sisa (residu), Jumlah Kuadrat Error (JKE) atau Sum squares error, (SSE)= dengan $dk=n-2$ = dan $MSE=\frac{SSE}{n-2}$ =
$F=\frac{MSR}{MSE}$ = / =

Plot Diagnostik dari Sisa

Diagnostik regresi dan remidinya dapat dilihat pada Sheather [Bab 3, 2009]. Tirta (2009)

Gambar 14. Grafik Diagnostik Regresi.

Tugas

Ulangi Proses di atas dengan memilih data atau variabel lain yang sesuai.
Buat Rumusan Hipotesis Nol dan Hiotesis Kerja dari masing-masing Uji
Buat kesimpulan dari analisis data yang dilakukan (penerimaan/ penolakan $H_0$) serta makna sehari-hari dikaitkan dengan data dan variabel yang dianalisis
Verifikasi hasil anda dengan menunjukkan nilai $p$-val dan ukuran-ukuran lain yang sesuai
Lengkapi penjelasan anda dengan ilustrasi grafik yang sesuai

Bahan Diskusi

Tentukan bunyi rumusan H0 untuk korelasi?
Apakah besar kecilnya nilai korelasi sama dengan signifikan tidaknya korelasi tersebut.
Mungkinkah nilai korelasinya kecil kurang dari 0,5 tetapi signifikan?
Bagaimana rumusan H0 untuk koefisien regresi?
Bagaimana menentukan apakah koefisien regresinya signifikan/ tidak?
Apa maknanya jika koefisien regresinya signifikan/ tidak?
Apa yang diukur/ dijelaskan oleh nilai R-sq?
Apa artinya jika koefisien regresinya signifikan tetapi R-sq kecil?
Jelaskan pertanyaan di atas terkait data yang anda uji/ modelkan dan beri kesimpulan dan makna dari hasil analisis/ pemodelan data yang anda lakukan

Navigasi:

Sumber Bacaan

Jika ingin mendalami lebih jauh teori-teori yang mendasari analisis data yang ada di atas, dipersilakan membaca beberapa referensi terkait diantaranya seperti berikut ini.

Akaike. 1972. Information theory and extension of maximum likelihood theory. In B.N. Petrov and F.Csahi, editors, 2nd Symposium on Information Theory: 267--281
J.M. Chamber and T.J. Hastie. 1992. Statistical Model in S. Chapman and Hall, London.
W.N. Venables and B.D. Ripley.1994. Modern Applied Statistics with S-plus. Springer.
Cook, R.D 1998. Regression Graphics, Ideas for Studying Regression through Graphics. Wiley International Publ.
Cook, R.D & Weisberg, S. 1999. Applied Regression Including Computing & Graphics. Wiley International Publ.
Hay-Jahans, C. 2012. An R Companion to Linear Statistical Models . CRC Pres.
Sheather, S. 2009. A Modern Appoach to Regression with R. Springer
Tirta, IM 2009. Analisis Regresi dengan R . Jember Uniersity Press
Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. Unej Press
Sahbaba B. 2012. Chapter 3. Data Exploration Biostatistics with R . Springer
Wright, D.B. & K. London, 2009. Modern Regression Techniques Using R A Practical Guide for Students and Researchers. Sage
Wikipedia. Normality Test http://en.wikipedia.org/wiki/Normality_test[Akses 28 Oktober 2014]

Lampiran Data

Lampiran 1. Data Untuk Analisis. Banyak kasus yang ingin ditampilkan ( $n \leq N$) .

Konversi dari File Excel ke CSV/Tex

Langkah-langkah mengkonversi data dari excel ke CSV adalah seperti berikut ini.

Buka data anda dalam excel, usahakan hanya ada 1 sheet yang berisi data.
Judul (header) pada data hanya 1 baris (Lihat Gambar)
Selanjutnya disimpan dalam format lain, dengan pilihan CSV (Comma delimited) *.csv
Untuk menyimpan ke format tex, highlight bagian dari data (mulai header sampai seluruh baris data)
Buka editor ascii seperti notepad dan sejenisnya, lalu paste di sana
Simpan file dengan ekstensi *.txt