Laman web ini dimaksudkan untuk memberikan kesempatan kepada para pengunjung (mahasiswa) untuk melakukan eksplorasi metode statistika parametrik dasar dengan mencoba berbagai data dan berbagai jenis analisis.
Pada tingkat dasar, metode statistika parametriks hampir seluruhnya menggunakan asumsi bahwa
data untuk peubah respon memiliki sebaran Gaussian atau Normal.
Oleh karena itu sebelum melakukan uji statistika, pengguna wajib melakukan eksplorasi
(baik melalui visualisasi grafik maupun uji statistika) untuk meyakinkan bahwa asumsi ini tidak dilanggar secara serius.
Objektif
Secara umum pengguna/ mahasiswa diharapkan dapat melakukan pengujian statistika dasar dengan benar dan menginpterpretasikan hasilnya
dengan jelas. 'Benar' mengandung makna meyakinkan bahwa persyaratan (asumsi) terpenuhi dan prosedurnya benar. 'Jelas' berarti selain oleh para
para statistikawan, interpretasinya juga mudah dipahami ilmuan yang non statistikawan. Secara lebih detail, tahapan hasil yang harus dicapai mahasiswa adalah sebagai berikut ini.
Dapat mengaktifkan data yang sesuai dengan kebutuhan analisis, atau dapat mengimpor datanya sendiri untuk
dieksplorasi.
Dapat menyatakan jenis-jenis skala dari masing-masing faktor atau variabel yang ada pada data
(seperti banyaknya kelompok pada faktor/kualitatif, rigkasan variabel kuantitatif)
Dapat menampilkan visualisasi grafik yang sesuai dengan kebutuhan (misalnya memeriksa kenormalan data, memeriksa hubungan antar variabel, homogeinitas variansi, memeriksa pengaruh faktor)
Secara lebih detail dapat melakukan uji untuk peneriksaan asumsi (uji kenormalan, uji homogeinitas variansi)
Dapat melakukan uji yang tepat sesuai keperluan/ tujuan (misalnya uji beda, uji hubungan)
Dapat menjelaskan kaitan antara hasil yang diperoleh dengan teori (rumus) terkait.
Dapat menafsirkan luaran hasil analisis (baik tingkat signifikansi maupun tingkat kecocokan)
Dapat melaporkan secara tertulis dan sistematis hasil ekplorasi yang diperoleh, dengan menggunakan minimal 2 jenis data atau variabel yang
berbeda.
Petunjuk Umum
Setiap kali anda berlatih menerapkan analisis statistika, anda wajib mencoba minimal untuk dua (dua) kasus yang berbeda.
Lakukan tahapan eksplorasi data, pemeriksaan atau pengujian asumsi baik secara grafis maupun numerik.
Buat interpretasi dari hasil yang anda peroleh baik dalam konteks terminologi statistika,
maupun dalam bahasa ilmiah secara umum. Misalnya apa artinya jika hasil ujinya signifikan, apa makna dari nilai $p-val$ yang diperoleh.
Buat laporan secara naratif dan sistematis dari hasil anda melakukan analisis statistika dan lengkapi laporan anda dengan
rujukan teori ringkas atau rumus yang sesuai. Selalu jaga etika akademik: hindari plagiarisme.
Bonus: Bagi mereka yang bisa menulis laporan dalam format HTML, dan rumus-rumus matematikanya ditampilkan dengan $\LaTeX$ akan diberikan bonus sebanyak (+7) poin.
Materi prasarat terkait perhitungan peluang sebaran Gaussian dan $t,$
misalnya, jika ada peubah acak $X$ memiliki sebaran Gaussian $N\left(\mu_X,\sigma^2_X\right)$ atau
atau $t_{n-1}.$ Pengguna diharapkan dapat menghitung
$P(x_1 \lt X \lt x_2);$
$P(x_1 \lt X);$
$P(X \lt x_2) $
$p-val$ untuk $z=z_0$ atau $t=t_0$
CATATAN:
Materi terkait distribusi Gaussian dan beberapa distribusi kontinu lainnya dapat dilihat pada alamat berikut
Distribusi Kontinu Normal dan Gamma.
Sementara untuk ilustrasi perhitungan nilai p-val, bisa dilihat pada alamat berikut
Kuantil dan p-value
Untuk berlatih analisis data, anda harus mengaktifkan data. Anda dapat mengaktifkan data
dari database R, atau data yang anda miliki dalam format khusus (Text atau CSV). Jika anda memiliki data dalam format excel,
untuk saat ini anda harus mengkonversinya ke bentuk teks atau CSV (klik di sini!!) terlebih dahulu.
Pilihan Data
Khusus untuk Import Data,
cari file data:
Selanjutnya pilih kelengkapan berikut sesuai dengan kondisi data yang diimpor
Selanjutnya anda dapat melihat detail dari sebagian data, atau ringkasan data secara keseluruhan.
Luaran 1. Data Aktif (Pilih Daftar Sebagian Data atau Ringkasan Seluruh Data)
Untuk pertama kali mungkin membutuhkan waktu lebih karena harus membangkitkan data terlebih dahulu. Tampilan yang lebih lengkap dari data dapat dilihat pada Lampiran.
Selanjutnya cermati variabel-variabel/ faktor-faktor yang ada, lalu pilih analisis
yang sesuai kondisi data dan pilih variabel/faktor sesuai analisis yang akan dilakukan.
(Simak Tabel 1)
Tabel 1. Jenis Analisis dan Jenis Variabel-variabel yang diperlukan
NO.
JENIS ANALISIS
VARIABEL X
VARIABEL Y (RESPON)
DUMMY
1.
Estimasi Mean
-
Interval
-
2.
T 1-kelompok
-
Interval
-
3.
T 2-kelompok bebas
Faktor (2 kategori)
interval
-
4.
T 2-kelompok berpasangan
Interval
interval
-
5.
Anova 1 arah
Faktor (> 2 kategori)
interval
-
6.
Anova 2 arah
2 Faktor ($\geq$) 2 kategori)
interval
-
7.
Uji Proporsi
Faktor dengan 2 kategori
-
8.
Uji Frekuensi
Faktor (>2 kategori)
-
9.
Regresi biasa
Interval
interval
-
10.
Interval
interval
Faktor/ kelompok
Secara umum, asumsi yang berlaku dalam analisis data ini (pada tabel di atas) adalah
variabel respon $Y$ diasumsikan memiliki sebaran Gaussian atau Normal, $N(\mu_Y,\sigma^2_Y)$;
Untuk mendapatkan gambaran variabel-variabel yang berhubungan,
anda dapat menghitung matriks korelasi ataupun matriks diagram pencar
dari (minimal 2) variabel kuantitatif/numerik.
Matriks Korelasi
Pilih variabel-variabel kuantitatif (numerik) yang akan dihitung korelasinya
Matriks korelasi dari variabel terpilih adalah seperti luaran berikut
Luaran 2. Matriks Korelasi
Matriks Diagram Pencar
Untuk mendapatkan gambaran variabel-bariabel yang berhubungan, selain matriks korelasi dapat juga dibuat matriks diagram pencar
atau matriks diagram korelasi secara
global, dari variabel-variabel yang sudah terpilih di atas.
Gambar 1. Jenis Grafik
dari Variabel Terpilih
Perhatikan profil sebaran data (trendnya miring/tidak) dan kerapatan sebaran terhadap garis lurus (rapat/lebar), mengindikasikan
ada tidaknya hubungan yang kuat antar variabel. Pada diagram korelasi, perhatikan pola sebaran antara variabel dengan nilai
korelasinya.
Di dalam diagonal kita dapat melihat apakah histogramnya relatif kontinu, simetris dan unimodal, mengindikasikan apakah
variabelnya miliki sebaran Gaussian (Normal).
Selanjutnya kita dapat melakukan pemeriksaan lebih fokus terhadap sebaran $Y$ apakah memiliki
sebaran yang
dapat dikatakan sebagai sebaran Gaussian baik secara grafik maupun secara numerik. Secara grafik kita dapat mengunakan
histogram, Box-plot, atau QQ-norm untuk melihat indikasinya.
Jenis Grafik:
(Pilih QQ-Norm, Box-plot, atau histogram)
Gambar 2. Grafik Sebaran Data Respon ($Y$, harus bersekala interval)
Sebaran Gausian ditandai dengan grafik histogram dan Box plot yang bersifat kontinu dan simetris.
Sedangkan dari QQ-Norm/QQ-Plot sebaran data membentuk garis lurus (tidak keluar dari batas atas dan batas bawah).
Pada Boxplot, adanya titik yang berada di luar batas, mengindikasikan adanya pencilan (outlier).
Bahan diskusi
Dengan memperhatikan pola grafik (histogram, boxplot, QQ-Norm),
jelaskan apakah variabel yang anda pilih ($Y$), menunjukkan indikasi bersebaran Normal/ Gaussian?
Selain melihat indikasi secara grafik, secara numerik kita dapat melakukan uji kenormalan dengan beberapa cara
seperti berikut ini. Respon dianggap bersebaran Gaussian jika uji menghasilkan nilai $p$ lebih dari 0,05.
Hipotesis
$H_0: $ variabel $Y$ memiliki sebaran Gausian dan $H_A: $ variabel $Y$ tidak memiliki sebaran Gausian.
Kesimpulan
$H_0: $ diterima jka p-val lebih dari 5% dan $H_A: $ ditolak jika p-val kurang dari 5%.
Lakukan uji kenormalan untuk $Y$ dengan
Luaran 3. Hasil Uji Kenormalan $Y$
Bahan diskusi
Apakah $p-val$ kurang atau lebih dari 0,05?
Bagaimana kesimpulan anda, apakah respon $Y$ dapat dianggap bersebaran Gaussian?
Bandingkan kesimpulan anda dengan menggunakan uji normalitas dan dengan memperhatikan pola dari grafik sebelumnya,
apakah kesimpulannya sama?
Uji beda mean bertujuan menguji apakah mean suatu populasi (kelompok populasi) sama dengan suatu
nilai tertentu, atau sama dengan nilai mean kelompok lainnya. Uji beda mean ini terdiri atas beberapa jenis yaitu uji $T$ satu dan
dua kelompok dan Uji F (Anava) untuk tiga kelompok atau lebih.
Menguji kebenaran klaim bahwa mean suatu populasi ($\mu_Y$) mempunyai nilai tertentu $(\mu_0$)
Hipotesis
Uji dua arah, $H_0: \mu_Y=\mu_0$ vs. $H_1: \mu_Y\neq\mu_0$
Rumus Terkait
\[t_{hit}=\frac{\bar{y}-\mu_0}{s/\sqrt{n}}=\frac{\bar{y}-\mu_0}{s_{\bar{Y}}}\text{ dengan }
s_{\bar{Y}}=s_Y/\sqrt{n} \text{ dan }s_Y = \sqrt{\frac{\sum_{i=1}^n
\left(y_i-\bar{y}\right)^2}{n-1}}\]
Hasil Analisis
Untuk $Y$ yang sudah ditentukan sebelumnya, dengan $H_0=\mu_0$=
.
(Nilai ini sebaiknya diganti sesuai keperluan/ rentang data)
Hasil Analisis
Perhatikan bahwa perhitungan $\displaystyle
|t_{hit}|=\left|\frac{\bar{y}-\mu_0}{s_{\bar y}}\right|$ diwakili oleh abs.thit = abs(muy-mu0)/se
Penarikan Kesimpulan
Dengan taraf signifikansi 5%, $H_0$ diterima jika dan hanya jika (tiga kriteria berikut ekuivalen):
$p.val > (0,05$ = 5%)
$|t_{hit}| < t_{tab}$
$\mu_0\in\; $IK.95%
Ketiga cara penarikan kesimpulan ini menghasilkan kesimpulan yang sama, sebagaimana ditunjukkan pada hasil analisis
dan visualisasi pada
Plot Analisis Gambar 3.
Plot Hasil Analisis
Gambar 3. Visualisasi IK, P-Val, dan T-Tabel
Perhatikan nilai $p-val,\; t_{tab},\; t_{hit}$ dan $IK-95$%
Perhitungan p-val
Ilustrasi ini akan lebih jelas dilihat jika nilai p-val $\pm$ 5%.
Nilai p-val adalah peluang terjadinya kealahan menolak H0 yang benar yang secara grafik digambarkan sev-bagai luas area
bagian luar dari batas $|t_{hit}|,$ yaitu $P\left(T \gt |t_{hit}|\right)$,
nilai p-val yang baik adalah tidak melebihi batas signifikansi yang dipakai ($\alpha$),
seperti diilustrasikan pada Gambar 5.$
Untuk sample kecil, menggunakan distribusi $t_{n-1}.$
$$p-val=1-\int_{-|t_{hit|}}^{+|t_{hit}|}f(t)dt =\int_{- \infty}^{-|t_{hit}|}f(t)dt+\int_{+|t_{hit}|}^\infty f(t)dt$$
Untuk sample besar, menggunakan distribusi $z=N(0,1).$
$$p-val=1-\int_{-|z_{hit|}}^{+|z_{hit}|}f(z)dz =\int_{- \infty}^{-|z_{hit}|}f(z)dz+\int_{+|z_{hit}|}^\infty f(z)dz$$
Gambar 4. Ilustrasi $p-val$. Untuk memahami, ubah-ubah nilai $H_0$ sekitar batas atas/ bawah $IK-95$%
Bahan Diskusi
Tuliskan rumusan $H_0$ dan $H_A$ dari data, variabel dan nilai $\mu_0$ yang anda pilih?
Dari luaran analisis yang ada, apakah kesimpulan terhadap $H_0$ (diterima/ ditolak) dengan menggunakan kriteria berikut ini.
membandingkan nilai p.Val dengan taraf signifikansi yang digunakan?
membandingkan nilai T.hitung dan T.tabel?
melihat nilai Interval Keyakinan dari beda mean yang dihasilkan R, apakah memuat nilai $\mu_0$?
Berdasarkan hasil uji homogenitas, maka perhitungan uji bisa dilakukan
dengan asumsi homogenitas variansi
Luaran Uji
Plot Rerata
Plot rerata memberikan gambaran posisi rata-rata sample dan IK 95% dari masing-masing
kelompok. Ada gap yang cukup lebar pada kedua interval menunjukkan adanya beda yang signifikan antara kedua mean (Namun,
lebih banyak sebagai visualisasi, sedangkan hasil yang lebih akurat harus dilihat pada hasil uji statistik, terutama
pada kondisi gap yang sempit).
Gambar 5. Plot Rerata dengan asumsi varians tidak homogen
Nilai rata-rata, standar deviasi dan ukuran Sampel per kelompok
Bahan Diskusi
Tuliskan rumusan $H_0$ dan $H_A$ dari data, variabel dan kelompok yang anda pilih?
Apakah variansnya termasuk homogen/ atau tidak, jelaskan?
Dari luaran analisis yang ada, apakah kesimpulan terhadap $H_0$ (diterima/ ditolak) dengan menggunakan kriteria berikut ini.
membandingkan nilai p.Val dengan taraf signifikansi yang digunakan?
membandingkan nilai T.hitung dan T.tabel?
melihat nilai Interval Keyakinan dari beda mean yang dihasilkan R, apakah memuat nilai 0?
Untuk menguji apakah satu kelompok (dari dua kelompok yang ada) dalam populasi memiliki proporsi tertentu ($p_0$)
$$z_0=\frac{\hat{p}-p_0}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\text{ dengan } \hat{p}=\frac{n(S)}{n}$$
$H_0:\; p=p_0$
$H_A=H_1:\; p\neq p_0$
Pilih faktor tepat dengan 2 kategori/ kelompok
Gambar 11. Grafik Proporsi dua kelompok
Hipotesis
Ho (proporsi): .
IK (proporsi): .
6.2 Uji Proporsi 2 Faktor
Tujuan
Untuk menguji apakah proporsi dari dua faktor sama
Faktor 2 harus tepat dengan 2 kategori/ kelompok
Hasil AnalisisPlot Tabel
Gambar 11. Grafik Proporsi dua kelompok
6.2 Uji Frekuensi 1 Faktor
Tujuan
Untuk menguji apakah kelompok-kelompok dari faktor yang diperiksa dalam populasi memiliki frekuensi yang sama
$H_0:f_{Gi}=f_{Gj}\; \forall i,j$
$H_A=H_1:\exists i,j, \ni\; f_{Gi}\neq f_{Gj} $
Pilih faktor dengan 2 atau lebih kategori/ kelompok
Untuk menguji apakah 2 faktor yang diperiksa dalam populasi memiliki keterkaitan
$H_0:$ Klasifikasi dari dua faktor saling independen
$H_1:$ Klasifikasi dari dua faktor tidak inependen
Gambar 13. Grafik Frekuensi 2 Faktor
Tabel Data
Tabel Ekspektasi
Ekspektasi dihitung dari
$$E_{ij}=\frac{B_i\times K_j }{N}; \;\;$$
$B_i$=Jumlah baris ke-i dan $K_j$= Jumlah kolom ke j.
Misalnya untuk baris ke
dan kolom ke
diperoleh ekspektasi
Secara keseluruhan diperoleh Tabel Ekspektasi seperti berikut:
Tabel Residu Pearson
Residu Pearson diperoleh dari
$$r_{ij}=\frac{n_{ij}-E_{ij}}{\sqrt{E_{ij}}}\;\text{dengan } E_{ij}=E\left(n_{ij}\right)$$
Tabel Residu baku
$$\chi^2_0=\sum_{j=1}^k\sum_{i=1}^p r_{ij}^2 =\sum_{j=1}^k\sum_{i=1}^p\left[\frac{n_{ij}-E(n_{ij})}
{\sqrt{E(n_{ij})}}\right]^2\sim \chi^2_{\nu};\;\nu=(p-1)(k-1)$$
Menguji apakah dua atribut populasi ($X,Y$) memiliki korelasi yang signifikan)
Bagaimana bentuk hubungan linier antara kedua atribut $(X,Y)$ secara fungsional
($Y=\hat{\beta_0}+\hat{\beta_1}X $). Dengan kata lain
bagaimana nilai estimasi $\hat{\beta_0},\hat{\beta_1}$
Asumsi
Variabel/ atribut $Y$ memiliki sebaran gaussian
Hubungan antara $X$ dengan $Y$ adalah linier
Variabel/ atribut $Y$ memiliki varians yang konstan
Uji korelasi (Produk Momen)
Hipotesis
Korelasi antara $X,Y$
$H_0: \rho_{XY}=0$
$H_1: \rho_{XY} \neq 0 $
Rumus Terkait
$$r_{XY}=\frac{S_{XY}}{S_XS_Y}$$
dengan kovarian sampel $XY= S_{XY}=\frac{1}{n-1}\sum_{i=1}^n\left( X_i-\bar{X}\right) \left( Y_i-\bar{Y} \right)$, dan $S_X=\sqrt{\frac{1}{n-1}\sum_{i=1}^n\left( X_i-\bar{X}\right)^2}$ serta $S_Y=\sqrt{\frac{1}{n-1}\sum_{i=1}^n\left( Y_i-\bar{Y}\right)^2}$
$Z_{iX}=\frac{X_i-\bar{X}}{S_X}\text{ dan }Z_{iY}=\frac{Y_i-\bar{Y}}{S_Y}$
$$
t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \text{ yang berdistribusi } t_{n-2}
$$
Uji Regresi
$H_1: \beta_0 \neq 0 $ atau $\beta_1\neq 0$
Dengan menggunakan metode Kuadrat Terkecil (OLS) atau Likelihood Maksimum diperoleh (lihat Tirta 2009)
\begin{align}
\hat{\beta_0} & = \frac{1}{n} \sum_{i=1}^n Y_i - \beta_1
\frac{1}{n}\sum_{i=1}^n X_i \nonumber\\
&=\bar{Y}-\beta_1 \bar{X}
\end{align}
\begin{align}
\hat{\beta_1} & =\frac{\sum
Y_i (X_i -\bar{X})} { \sum \left(X_i-\bar{X}\right)^2}
\end{align}
Selain masalah koefisien ($\hat{\beta_0}$ dan $\hat{\beta_1}$ dan signifikansinya) ada ukuran yang menunjukkan kecocokan model, yaitu
koefisien determinasi ($R^2$) yang dihitung sebagai berikut
\begin{align}
R^2&= \frac{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2-\sum_{i=1}^N \left(y_i-\hat{y}\right)^2}
{\displaystyle\sum_{i=1}^N \left(y_i-\bar{y}\right)^2}\\
&=1-\frac{SSE}{SS_Y}\\
&=1-\frac{JKK}{JK_Y}.\end{align}
(Lihat Mendenhall 1993).
Pilih variabel (atribut) untuk Analisis regresi, selanjutnya
simak kondisi diagram pencarnya.
Gambar 12. Grafik Diagram Pencar menggambarkan hubungan $X$ dengan $Y$.
Apakah ada indikasi (tren) hubungan linier? Apakah sebaran data cukup mengumpul?
6.1 Uji Korelasi
Perhitungan koefisien dan uji korelasi untuk jenis Korelasi:
,
$H_0$ diterima (tidak ada korelasi) jika $p-Val$ lebih dari 5%
Hubungan antara Korelasi, Standar deviasi dan Koefisien Regresi
Dari rumus-rumus koefisien korelasi produk momen dan koefisien regresi ($b=\hat{\beta_1}$) diperoleh hubungan seperti berikut ini. Untuk Jumlah Kuadrat $SS$ dan Mean Kuadrat $MS$ bisa dilihat pada luaran anova regresi
$$b=\hat{\beta_1}=\frac{r_{xy}s_y }{s_x},$$
dengan
$$se_{\hat{\beta_1}}=\sqrt{\frac{mse}{ssx}} \text{ dengan } ssx=\sum_{1=1}^n ({x-\bar{x}})^2$$
sedangkan untuk konstanta diperoleh dengan
$$a=\hat{\beta_0}= \bar{y}-{\hat{\beta}_1}\bar{x}$$
dengan
$$se_{\hat{\beta_0}}=\sqrt{\left(\frac{1}{n}+\frac{\bar{x}^2}{ssx}\right)\times mse}$$
Pada ilustrasi di atas diperoleh
Koefisien $\hat{\beta_1}$
=
(korelasi $r_{XY}$) $\times$
(deviasi baku $Y$) /
(deviasi baku $X$)
Ulangi Proses di atas dengan memilih data atau variabel lain yang sesuai.
Buat Rumusan Hipotesis Nol dan Hiotesis Kerja dari masing-masing Uji
Buat kesimpulan dari analisis data yang dilakukan (penerimaan/ penolakan $H_0$) serta makna sehari-hari dikaitkan dengan data dan variabel yang dianalisis
Verifikasi hasil anda dengan menunjukkan nilai $p$-val dan ukuran-ukuran lain yang sesuai
Lengkapi penjelasan anda dengan ilustrasi grafik yang sesuai
Bahan Diskusi
Tentukan bunyi rumusan H0 untuk korelasi?
Apakah besar kecilnya nilai korelasi sama dengan signifikan tidaknya korelasi tersebut.
Mungkinkah nilai korelasinya kecil kurang dari 0,5 tetapi signifikan?
Jika ingin mendalami lebih jauh teori-teori yang mendasari analisis data yang ada di atas, dipersilakan membaca beberapa referensi terkait diantaranya seperti berikut ini.
Akaike. 1972. Information theory and extension of maximum likelihood theory. In
B.N. Petrov and F.Csahi, editors, 2nd Symposium on
Information Theory: 267--281