Setelah menyimak materi yang ada pada modul ini mahasiswa secara umum diharapkan agar mahasiswa memahami sifat-sifat dua distribusi kontinu Gaussian dan Gamma, dan dapat mengaplikasikannya dalam persoalan real yang relevan. Secara khusus mahasiswa diharapkan
1. Memahami sifat-sifat sebaran dari kombinasi linier dari populasi berdistribusi normal
2. Memahami sifat-sifat sebaran rata-rata sampel dari populasi berdistribusi normal
3. Dapat menyimpulkan pengaruh ukuran sampel dan varians populasi terhadap
sebaran rata-rata sampel
4. Dapat memahami dan mengilustrasikan konsep Teorema Limit Pusat
untuk berbagai sebaran populasi
5. Dapat mengilustrasikan pembentukan bivariate normal yang berkorelasi dari
univariate norma; yang independen
Beberapa fungsi kepadatan distribusi penting diantaranya
Gaussian/ Normal
$$f(x,\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left[-\frac{1}{2}
\left(\frac{x-\mu}{\sigma}^2\right)\right]\; \text{ untux } x\in\Re$$
Untuk \(\mu=0\) dan \(\sigma=1\) dikatakan berdistribusi Normal Baku
Bivariate Normal \(N(\mu_X,\mu_Y,\sigma_X^2,\sigma_Y^2,\rho)\),
$$f(x,y)= \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}}\; \exp\left[-\displaystyle \frac{Q}{2(1-\rho^2)}\right] \\
$$
dengan
\(Q=\displaystyle \left(\frac{x-\mu_X}{\sigma_X}\right)^2
-2\rho\left(\frac{x-\mu_X}{\sigma_X}\right)\left(\frac{y-\sigma_Y}{\sigma_Y}\right)
+\left(\frac{y-\mu_Y}{\sigma_Y}\right)^2 \) dan
\(
-\infty < x<\infty;\;-\infty < y <\infty;\;\)
\(\sigma_X>0;\;\sigma_Y>0;\; -1\le \rho \le 1.\)
Simulasi populasi
Berikut adalah simulasi data yang berfungsi sebagai populasi berhingga (
finite population)
Distribusi:
;
Dengan Mean:
; dan
Varians (\(\sigma^2\) untuk Gaussian):
; dan
Ringkasan statistika Populasi \( X \)
Fungsi Peubah ACak
Untuk \(X\) seperti sebelumnya, maka peubah acak hasil transformasi \(Y=b_0+b_1X\), memiliki mean \(E(Y)=\mu_Y\) dan varians \(\sigma^2_Y\) seperti berikut ini.
$$E(Y)=b_1\mu_x+b_0 \text{ dan } \sigma^2_Y=b_1^2\sigma^2_X$$
Konstanta b0:
; dan
Konstanta b1:
; dan
Ringkasan statistika data \(Y\) untuk berbagai nilai \(b_0\) dan \(b_1\)
Distribusi RATA-RARA Sample
NSample, besarnya sample setiap kali sampling/ melakukan ulangan (\(n\)):
; dan
NSampling/ banyaknya ulangan (Bootstrap = \(B\)):
Secara teoritis, rata-rata sampel
\(\bar{X}\) dengan ukuran \(n\) akan memiliki mean yang sama tetapi varians populasi berbanding terbalik dengan jumlah sampel
yaitu \(E(\bar{X})=\mu \text{ dan } S^2_{\bar{X}}=\frac{\sigma^2}{n}.\)
Ilustrasi
Gambar 1. Histogram dan Densitas Populasi dan Rata-rata Sampel dalam Skala sama. Garfik menunjukkan, untuk sampel besar rata-rata masih berdistribusi distibusi normal
Gambar 2. Histogram dan Densitas Populasi (mungkin tidak bersebaran normal) tetapi dan Rata-rata Sampel bersebaran normal jika ukuran sampelnya besar.
Ukuran sampel pada Distribusi rata-rata sampel
Jika \(X\) adalah sampel acak dari distribusi normal \(N(\mu,\sigma^2)\),
maka
$$\bar{X}=\frac{1}{n}\sum X_i\;\; \sim N(\mu,\sigma^2/n)$$
artinya makin besar \(n\) sebaran akan semakin sempit (estimasi semakin akurat).
Jika \(\sigma\) tidak ditetahui, maka
$$\frac{X-\bar{X}}{S/\sqrt{n}}\sim t_{n-1}$$
untuk \(n\) yang cukup besar
$$\lim_{n\rightarrow \infty}\frac{X-\bar{X}}{S/\sqrt{n}}\sim N(0,1)$$
dengan
\(S=\sqrt{\frac{\sum (X_i-\bar{X})^2}{n-1}}\)
Sekalipun distribusi data asli tidak normal tetapi jika ukuran sampel besar,
maka distribusi rata-ratanya mendekati distribusi normal. Ini dikenal
sebagai Teorema Limit Pusat
(Central Limit Theorem) atau aturan sampel besar
Distribusi varians sampel
Dengan sampel besar sebaran/ distribusi rata-rata akan mendekati atau sama dengan sebaran normal/ Gaussian. Namun, sebaran varians
tidak mengikuti sebaran normal. Sebaran varians mengikuti sebaran Gamma atau secara khusus disebut Sebaran Chi-Kuadrat .
Gambar 3. Histogram dan Rata-rata Sampel dan Varians Sampel
Distribusi BEDA RATA-RATA Sample
Jika dua kelompok sampel acak \(X_i \sim N(\mu,\sigma^2_X),\;i=1,2,...,n_X\) dan sampel acak \(Y_j \sim N(\mu_Y,\sigma^2_Y),\;j=1,2,...,n_Y\) dan \(X_i,Y_j\) saling independen
dengan \(\sigma_X, \sigma_Y\), tidak diketahui, maka \[\frac{(\bar{X}-\bar{Y})-(\mu_X-\mu_Y)}{\sqrt{S^2_X/n_X+S^2_Y/n_Y)}} \sim t_{n_X+n_Y-2} \]
Misalkan \(X\) seperti sebelumnya dan \(Y\) dengan \(n_Y, \mu_Y, \sigma_Y\) seperti berikut
Kita dapat memvisualisasikan sebaran rata-rata masing-masing dan beda rata-rata antara \(X,Y\)
NSample (\(n_Y\)):
;
Mean (\(\mu_Y\)):
;
Std Deviasi (\(\sigma_Y\)):
;
Gambar 4. Histogram Rata-rata Sampel \(X,Y\) dan beda rata-rata Sampel \((\bar{X}-\bar{Y})\)
Bivariat Normal
Jika \(X_1\) dan \(X_2\) sama sama bersebarann \(N(0,1)\), maka
$$(Y_1,Y_2)\sim MVN(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2)$$
dengan
$$Y_1=\mu_1+\sigma_1 X_1$$ dan $$Y_2=\mu_2+\rho\sigma_2X_1+\sigma_2\sqrt{1-\rho^2}X_2$$
Input
Mean 1 \(\mu_1\):
; dan
Mean 2 \(\mu_2\):
; dan
SD 1 \(\sigma_1\):
; dan
SD 2 \(\sigma_2:\)
; dan
Korelasi \(\rho\):
; dan
Beberpa transformasi penting untuk memahami sebaran sampel diantaranya adalah seperti berikut ini.
Jika \(X_i,\; i=1,2,...,n\) saling independen, maka \(M_X(t)=\prod M_{X_i}(t)\)
Jika \(X_i,\; i=1,2,...,n\) saling independen dengan \(X_i\sim N(\mu_i,\sigma^2_i)\) dan \(Y=\sum a_iX_i,\;\),
maka \(Y_i\sim N(\mu_Y,\sigma^2_Y)\)
dengan \(\mu_Y=\sum a_i\mu_i,\; \sigma_Y^2=\sum a_i^2 \sigma_i^2\)
Jika \( X \sim N(\mu,\sigma^2)\) maka \(Z=\frac{X-\mu}{\sigma} \sim N(0,1)\)
Jika \(X \sim N(\mu,\sigma^2)\) maka \(Z^2=\left(\frac{X-\mu}{\sigma}\right)^2 \sim \chi^2_1\)
Jika sampel acak \(X_i \sim N(\mu,\sigma^2),\;i=1,2,...,n\) maka \(\sum_{i=1}^n Z_i^2=\sum_{i=1}^n \left(\frac{X_i-\mu}{\sigma}\right)^2 \sim \chi^2_n\)
Jika sampel acak \(X_i \sim N(\mu,\sigma^2),\;i=1,2,...,n\) maka \(\frac{Z}{\sqrt{\chi^2_v/v}}\sim T_v\) dengan \(v=n-1.\)
Jika sampel acak \(X_i \sim N(\mu,\sigma^2),\;i=1,2,...,n\) maka \(\bar{X}=\frac{\sum X_i}{n}\sim N(\mu,\sigma^2/n).\)
Jika sampel acak \(X_i \sim N(\mu,\sigma^2),\;i=1,2,...,n\) dan \(\sigma\) tidak diketahui maka varians sampel
\(S^2=\frac{\sum (X_i-\bar{X})^2}{n-1}\sim \chi^2_{n-1}\)
Jika sampel acak \(X_i \sim N(\mu,\sigma^2_X),\;i=1,2,...,n_X\) dan sampel acak \(Y_j \sim N(\mu_Y,\sigma^2_Y),\;j=1,2,...,n_Y\) dan \(X_i,Y_j\) saling independen
maka \(\bar{X}-\bar{Y} \sim N(\mu_X-\mu_Y, \sigma^2_X/n_X+\sigma^2_Y/n_Y).\)
Jika sampel acak \(X_i \sim N(\mu,\sigma^2_X),\;i=1,2,...,n_X\) dan sampel acak \(Y_j \sim N(\mu_Y,\sigma^2_Y),\;j=1,2,...,n_Y\) dan \(X_i,Y_j\) saling independen
maka \[\frac{(\bar{X}-\bar{Y})-(\mu_X-\mu_Y)}{\sqrt{\sigma^2_X/n_X+\sigma^2_Y/n_Y)}} \sim N(0,1). \]
Jika sampel acak \(X_i \sim N(\mu,\sigma^2_X),\;i=1,2,...,n_X\) dan sampel acak \(Y_j \sim N(\mu_Y,\sigma^2_Y),\;j=1,2,...,n_Y\) dan \(X_i,Y_j\) saling independen
dengan \(\sigma_X, \sigma_Y\), tidak diketahui, maka \[\frac{(\bar{X}-\bar{Y})-(\mu_X-\mu_Y)}{\sqrt{S^2_X/n_X+S^2_Y/n_Y)}} \sim t_{n_X+n_Y-2} \]
Data Simulasi Rata-rata dan Selisih rata-rata sampel
Melalui simulasi diilustrasikan bahwa sampling dilakukan banyak kali (sebanyak nbootstrap), masing-masing dari populasi masing-masing X, Y
sebanyak nX dan nY. Setiap kali mengambil sampel dihitung rata-rataX dan sara-rataY. Rata-rata ini ditabulasi, dihitug ringkasannya dan dibuat
grafik histogram maupun QQPlot untuk menggambarkan bahwa rata-rata tersebut bersebaran Gaussian dengan
varians berbanding terbalik dengan besarnya sample
Mahasiswa diharapkan mengembangkan lebih lanjut pemahaman materi pada modul ini dengan membaca sumber bacaan berikut
[1] Tirta, IM 2003. Pengantar Statistika Matematika (Diktat Kuliah).
Jurusan Matematika FMIPA UNiversitas Jember [2] Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. Unej Press [3] Sahbaba B. 2012. Chapter 3. Data Exploration Biostatistics with R . Springer [4] Ramachandran KM. and Tsokos CP. 2012. Mathematical Statistics With Aplication . Academic Press [5] Dodge Y. 2008. The Concise Encyclopedia of Statistics. Springer