Laman web ini dimaksudkan untuk memberikan kesempatan kepada para pengunjung (mahasiswa) untuk melakukan eksplorasi metode statistika parametrik dasar dengan mencoba berbagai data dan berbagai jenis analisis.
Pada tingkat dasar, metode statistika parametriks hampir seluruhnya menggunakan asumsi bahwa data respon adalah berasal dari sebaran gaussian atau normal. Oleh karena itu sebelum melakukan uji statistika, peneliti wajib melakukan eksplorasi (baik melalui visualisasi grafik maupun uji statistika) untuk meyakinkan bahwa asumsi ini tidak dilanggar secara serius.
Objektif
Secara umum pengguna/ mahasiswa diharapkan dapat melakukan pemeriksaan asumsi, pengujian statistika, dan menginpterpretasikan hasilnya dari beberapa Uji Statstika Dasar. Secara lebih detail, hasil yang harus dicapai mahasiswa adalah sebagai berikut ini.
Dapat mengaktifkan data yang sesuai dengan kebutuhan analisis, atau dapat mengimpor datanya sendiri untuk
dieksplorasi.
Dapat menyatakan jenis-jenis, skala dari masing-masing faktor atau variabel yang ada pada data (seperti jenis faktor, variabel, skala interval, ordinal, nominal)
Dapat menampilkan visualisasi grafik yang sesuai dengan kebutuhan (misalnya memeriksa kenormalan data, memeriksa hubungan antar variabel, homogeinitas variansi, memeriksa pengaruh faktor)
Secara lebih detail dapat melakukan uji untuk peneriksaan asumsi (uji kenormalan, uji homogeinitas variansi)
Dapat melakukan uji yang tepat sesuai keperluan/ tujuan (misalnya uji beda, uji hubungan)
Da[a menjelaskan kaitan antara hasil yang diperoleh dengan teori (rumus) terkait.
Dapat menafsirkan luaran hasil analisis (baik tingkat signifikansi maupun tingkat kecocokan)
Dapat melaporkan secara tertulis dan sistematis hasil ekplorasi yang diperoleh, dengan menggunakan minimal 2 jenis data/ variabel.
Petunjuk Umum
Setiap kali anda berlatih menerapkan analisis statistika, anda wajib mencoba minimal untuk dua (dua) kasus yang berbeda.
Buat interpretasi dari hasil yang anda peroleh baik dalam konteks terminologi statistika,
maupun dalam bahasa ilmiah secara umum. MIsalnya apa artinya jika hasil ujinya signifikan, apa makna dari nilai $p-val$ yang diperoleh.
Buat laporan secara naratif dan sistematis dari hasil anda melakukan analisis statistika dan lengkapi laporan anda dengan rujukan teori ringkas atau rumus yang sesuai.
Bonus: Bagi mereka yang bisa menulis laporan dalam format HTML, dan rumus-rumus matematikanya ditampilkan dengan $\LaTeX$ akan diberikan bonus sebanyak (+7) poin.
Untuk melatih analisis data, anda harus mengaktifkan data. Anda dapat mengaktifkan data dari database R, atau data yang anda miliki dalam format khusus (Tex atau CSV). Jika anda memiliki data dalam format excel, untuk saat ini anda harus mengkonversinya ke bentuk teks atau CSV (klik!!) terlebih dahulu.
Selanjutnya anda dapat melihat detail dari sebagian data, atau ringkasan data secara keseluruhan.
Luaran 1. Data Aktif
Tampilan yang lebih lengkap dari data dapat dilihat pada Lampiran.
Cermati variabel-variabel/ faktor-faktor yang ada, selanjutnya pilih analisis
yang sesuai kondisi data, sebaliknya pilih variabel/faktor sesuai analisis yang akan dilakukan.
Tabel 1. Jenis Analisis dan Variabel-variabel yang diperlukan
NO.
JENIS UJI
VARIABEL X
VARIABEL Y
DUMMY
0.
Estimasi Mean
-
Interval
-
1.
T 1-kelompok
-
Interval
-
2.
T 2-kelompok bebas
Faktor (2 kategori)
interval
-
3.
T 2-kelompok berpasangan
Interval
interval
-
4.
Anova 1 arah
Faktor (> 2 kategori)
interval
-
5.
Anova 2 arah
2 Faktor ($\geq$) 2 kategori)
interval
-
6.
Regresi Sederhana
Interval
interval
-
7.
Regresi dengan dummy
Interval
interval
Faktor/ kelompok
Secara umum $Y$ diasumsikan memiliki sebaran Gaussian atau Normal, $N(\mu_Y,\sigma^2_Y)$.
Untuk mendapatkan gambaran variabel-varabel yang berhubungan, kita
dapat dihitung matriks korelasi ataupun matriks diagram pencar
dari (minimal 2) variabel kuantitatif/numerik.
Matriks Korelasi
Pilih variabel-variabel kuantitatif yang akan dihitung korelasinya
Matriks korelasi dari variabel terpilih adalah seperti luaran berikut
Luaran 2. Matriks Korelasi
Matriks Diagram Pencar
Untuk mendapatkan gambaran variabel-bariabel yang berhubungan, selain matriks korelasi dapat juga dibuat matriks diagram pencar secara
global, dari variabel-variabel yang sudah terpilih di atas.
Selanjutnya kita dapat melakukan pemeriksaan terhadap sebaran $Y$ apakah memiliki sebaran yang
dapat dikatakan sebagai sebaran Gaussian baik secara grafik maupun secara numerik. Secara grafik kita dapat mengunakan histogram, Box-plot, atau QQ-norm untuk melihat indikasinya.
Jenis Grafik
(Pilih QQ-Norm, Box-plot, atau histogram)
Gambar 2. Grafik Sebaran Data Respon ($Y$)
(Catatan: $Y$ harus bersekala interval)
Sebaran Gausian ditandai dengan grafik histogram dan Box plot yang bersifat kontinu dan simetris. Sedangkan dar QQ-Norm sebaran data membentuk garis lurus (tidak keluar dari batas atas dan batas bawah). Adanya titik yang berada di luar batas, mengindikasikan adanya pencilan (outlier).
Selain melihtat indikasi secara grafik, secara numerik kita dapat melakukan uji kenormalan dengan beberapa cara
seperti berikut ini. Respon dianggap bersebaran Gaussian jika uji menghasilkan nilai $p$ lebih dari 0,05.
Lakukan uji kenormalan untuk $Y$ dengan
Uji beda mean bertujuan menguji apakah mean suatu populasi (kelompok populasi) sama dengan suatu
nilai tertentu, atau sama dengan nilai mean kelompok lainnya. Uji beda mean ini terdiri atas beberapa jenis yaitu uji $T$ satu dan dua kelompok dan Uji F untuk tiga kelompok atau lebih.
Menguji kebenaran klaim bahwa nilai mean suatu populasi ($\mu_Y$) mempunyai nilai tertentu $(\mu_0$)
Hipotesis
Uji dua arah, $H_0: \mu_Y=\mu_0$ vs. $H_1: \mu_Y\neq\mu_0$
Rumus Terkait
\[t_{hit}=\frac{\left|\bar{x}-\mu_0\right|}{s/\sqrt{n}}\text{ dengan }s = \sqrt{\frac{\sum_{i=1}^n
\left(x_i-\bar{x}\right)^2}{n-1}}\]
Interval Keyakinan untuk penduga mean
populasi ($\mu$) adalah \begin{equation}\bar{x} -
t_{tab} s_{\bar{x}} \le \mu \le \bar{x} +
t_{tab} s_{\bar{x}} \text{ dengan }s_{\bar{x}}=s/\sqrt{n} \text{ dan }
t_{tab}=t_{\alpha/2,(n-1)}\end{equation}
Hasil Analisis
Untuk $Y$ yang sudah ditentukan sebelumnya, dengan $H_0=\mu_0$=
.
Hasil Analisis
Kesimpulan
Dengan taraf signifikansi 5%, $H_0$ diterima jika dan hanya jika (tiga kriteria berikut ekuivalen):
$p.val > 0,005$
$t_{tab}>|t_{hit}|$
$\mu_0\in\; $IK.95%
Perhitungan p-val
Ilustrasi ini akan lebih jelas dilihat jika nilai p-val $\pm$ 5%. Nilai p-val adalah peluang (luas area)
bagian luar dari batas $|t_{hit}|,$ yaitu
Untuk sample kecil, menggunakan distribusi $t_{n-1}.$
$$p-val=1-\int_{-|t_{hit|}}^{+|t_{hit}|}f(t)dt =\int_{- \infty}^{-|t_{hit}|}f(t)dt+\int_{+|t_{hit}|}^\infty f(t)dt$$
Untuk sample besar, menggunakan distribusi $z=N(0,1).$
$$p-val=1-\int_{-|z_{hit|}}^{+|z_{hit}|}f(z)dz =\int_{- \infty}^{-|z_{hit}|}f(z)dz+\int_{+|z_{hit}|}^\infty f(z)dz$$
Pilih $X$ atau $G$ faktor yang terdiri atas tepat dua kategori
Tujuan
Menguji benar tidaknya klaim yang menyatakan bahwa nilai mean dari dua kelompok ($\mu_X,\mu_Y$) sama
Hipotesis
$H_0: \mu_{G_1}=\mu_{G_2}$ atau $H_0: \mu_{G_1}-\mu_{G_2}=0$
$H_1: \mu_{G_1}\neq\mu_{G_2}$ atau $H_1: \mu_{G_1}-\mu_{G_2}\neq 0$
Rumus Terkait
Untuk asumsi varians tidak homogen
\[t_{hit}=\frac{\left|\bar{x}_{G_1}-\bar{x}_{G_2}\right|}{\sqrt{\frac{s^2_{G_1}}{n_{G_1}-1}+
\frac{s^2_{G_2}}{n_{G_2}-1}}} \]
Untuk asumsi varians homogen
\[t_{hit}=\frac{\left|\bar{x}_{G_1}-\bar{x}_{G_2}\right|}{s_{p}}
\text{ dengan }
s_p=
\sqrt{\left(\frac{(n_{G_1}-1)s_{G_1}^2+(n_{G_2}-1)S_{G_2}^2}{n_{G_1}+n_{G_2}-2}\right)
\left(\frac{1}{n_{G_1}}+\frac{1}{n_{G_2}}\right)} \]
Uraian lebih detail dari regresi dengan dummy, bisa lihat
Detail Regresi Dummy Untuk ilustrasi regresi dengan dummy,
Faktor yang ingin dipertimbangkan dalam Regresi Sebelumnya adalah
Variabel untuk Analisis regresi
Gambar Final Diagram Pencar
Kelompok,
Regresi
(Pilih kombinasi terbaik!, Catatan: Saat memperbarui data pilihan keduanya dalam posisi tanpa)
Model Final
Dari hasil di atas, maka model yang lebih eksplisit yang dianggap terbaik adalah
Pilihan Model:
Luaran Analisis
Luaran 6. Hasil Uji Regresi Yang dianggap Terbaik
dengan AIC dan BIC untuk model final spesifik adalah sebesar
Ulangi Proses di atas dengan memilih data atau variabel lain yang sesuai.
Buat Rumusan Hipotesis Nol dan Hiotesis Kerja dari masing-masing Uji
Buat kesimpulan dari analisis data yang dilakukan (penerimaan/ penolakan $H_0$) serta makna sehari-hari dikaitkan dengan data dan variabel yang dianalisis
Verifikasi hasil anda dengan menunjukkan nilai $p$-val dan ukuran-ukuran lain yang sesuai
Lengkapi penjelasan anda dengan ilustrasi grafik yang sesuai
Jika ingin mendalami lebih jauh teori-teori yang mendasari analisis data yang ada di atas, dipersilakan membaca beberapa referensi terkait diantaranya seperti berikut ini.
Akaike. 1972. Information theory and extension of maximum likelihood theory. In
B.N. Petrov and F.Csahi, editors, 2nd Symposium on
Information Theory: 267--281