logoR UNEJ PONSTAT Laboratorium Statistika, FMIPA Universitas Jember Jalan Kalimantan 27 Jember 68121

LN-MS-02. Distribusi Sampling

Pondok Web, for Practicing & Learning Online Statistics where R, LaTeX, and Java gather friendly, ready to assist

oleh I Made Tirta, 2022, Jurusan Matematika FMIPA Universitas Jember


Hit Counter
Hit Counter

Tujuan

Setelah menyimak materi yang ada pada modul ini mahasiswa secara umum diharapkan agar mahasiswa memahami sifat-sifat dua distribusi kontinu Gaussian dan Gamma, dan dapat mengaplikasikannya dalam persoalan real yang relevan. Secara khusus mahasiswa diharapkan
    1. Memahami sifat-sifat sebaran dari kombinasi linier dari populasi berdistribusi normal
    2. Memahami sifat-sifat sebaran rata-rata sampel dari populasi berdistribusi normal
    3. Dapat menyimpulkan pengaruh ukuran sampel dan varians populasi terhadap sebaran rata-rata sampel
    4. Dapat memahami dan mengilustrasikan konsep Teorema Limit Pusat untuk berbagai sebaran populasi
    5. Dapat mengilustrasikan pembentukan bivariate normal yang berkorelasi dari univariate norma; yang independen

Materi

    Distribusi Rata-rata Sampel Normal
    Distribusi Beda Rata-rata Sampel Normal Saling bebas
    Teorema Limit Pusat
    Bivariat Normal berkorelasi
    Rangkuman
    Daftar Bacaan
    Latihan/Tugas

Populasi

Beberapa fungsi kepadatan distribusi penting diantaranya
  1. Gaussian/ Normal $$f(x,\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left[-\frac{1}{2} \left(\frac{x-\mu}{\sigma}^2\right)\right]\; \text{ untux } x\in\Re$$ Untuk \(\mu=0\) dan \(\sigma=1\) dikatakan berdistribusi Normal Baku
  2. Bivariate Normal \(N(\mu_X,\mu_Y,\sigma_X^2,\sigma_Y^2,\rho)\), $$f(x,y)= \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}}\; \exp\left[-\displaystyle \frac{Q}{2(1-\rho^2)}\right] \\ $$ dengan \(Q=\displaystyle \left(\frac{x-\mu_X}{\sigma_X}\right)^2 -2\rho\left(\frac{x-\mu_X}{\sigma_X}\right)\left(\frac{y-\sigma_Y}{\sigma_Y}\right) +\left(\frac{y-\mu_Y}{\sigma_Y}\right)^2 \)
    dan \( -\infty < x<\infty;\;-\infty < y <\infty;\;\) \(\sigma_X>0;\;\sigma_Y>0;\; -1\le \rho \le 1.\)

Simulasi populasi

Berikut adalah simulasi data yang berfungsi sebagai populasi berhingga ( finite population)
Distribusi: ; Dengan
Mean: ; dan Varians (\(\sigma^2\) untuk Gaussian): ; dan Ringkasan statistika Populasi \( X \)

Fungsi Peubah ACak

Untuk \(X\) seperti sebelumnya, maka peubah acak hasil transformasi \(Y=b_0+b_1X\), memiliki mean \(E(Y)=\mu_Y\) dan varians \(\sigma^2_Y\) seperti berikut ini. $$E(Y)=b_1\mu_x+b_0 \text{ dan } \sigma^2_Y=b_1^2\sigma^2_X$$
Konstanta b0: ; dan Konstanta b1: ; dan
Ringkasan statistika data \(Y\) untuk berbagai nilai \(b_0\) dan \(b_1\)

Distribusi RATA-RARA Sample

NSample, besarnya sample setiap kali sampling/ melakukan ulangan (\(n\)): ; dan NSampling/ banyaknya ulangan (Bootstrap = \(B\)): Secara teoritis, rata-rata sampel \(\bar{X}\) dengan ukuran \(n\) akan memiliki mean yang sama tetapi varians populasi berbanding terbalik dengan jumlah sampel yaitu \(E(\bar{X})=\mu \text{ dan } S^2_{\bar{X}}=\frac{\sigma^2}{n}.\)
Ilustrasi
Gambar 1. Histogram dan Densitas Populasi dan Rata-rata Sampel dalam Skala sama. Garfik menunjukkan, untuk sampel besar rata-rata masih berdistribusi distibusi normal
Gambar 2. Histogram dan Densitas Populasi (mungkin tidak bersebaran normal) tetapi dan Rata-rata Sampel bersebaran normal jika ukuran sampelnya besar.

Ukuran sampel pada Distribusi rata-rata sampel

Jika \(X\) adalah sampel acak dari distribusi normal \(N(\mu,\sigma^2)\), maka $$\bar{X}=\frac{1}{n}\sum X_i\;\; \sim N(\mu,\sigma^2/n)$$ artinya makin besar \(n\) sebaran akan semakin sempit (estimasi semakin akurat). Jika \(\sigma\) tidak ditetahui, maka $$\frac{X-\bar{X}}{S/\sqrt{n}}\sim t_{n-1}$$ untuk \(n\) yang cukup besar $$\lim_{n\rightarrow \infty}\frac{X-\bar{X}}{S/\sqrt{n}}\sim N(0,1)$$ dengan \(S=\sqrt{\frac{\sum (X_i-\bar{X})^2}{n-1}}\)

Sekalipun distribusi data asli tidak normal tetapi jika ukuran sampel besar, maka distribusi rata-ratanya mendekati distribusi normal. Ini dikenal sebagai Teorema Limit Pusat (Central Limit Theorem) atau aturan sampel besar

Distribusi varians sampel

Dengan sampel besar sebaran/ distribusi rata-rata akan mendekati atau sama dengan sebaran normal/ Gaussian. Namun, sebaran varians tidak mengikuti sebaran normal. Sebaran varians mengikuti sebaran Gamma atau secara khusus disebut Sebaran Chi-Kuadrat .
Gambar 3. Histogram dan Rata-rata Sampel dan Varians Sampel

Distribusi BEDA RATA-RATA Sample

Jika dua kelompok sampel acak \(X_i \sim N(\mu,\sigma^2_X),\;i=1,2,...,n_X\) dan sampel acak \(Y_j \sim N(\mu_Y,\sigma^2_Y),\;j=1,2,...,n_Y\) dan \(X_i,Y_j\) saling independen dengan \(\sigma_X, \sigma_Y\), tidak diketahui, maka \[\frac{(\bar{X}-\bar{Y})-(\mu_X-\mu_Y)}{\sqrt{S^2_X/n_X+S^2_Y/n_Y)}} \sim t_{n_X+n_Y-2} \]
Misalkan \(X\) seperti sebelumnya dan \(Y\) dengan \(n_Y, \mu_Y, \sigma_Y\) seperti berikut Kita dapat memvisualisasikan sebaran rata-rata masing-masing dan beda rata-rata antara \(X,Y\) NSample (\(n_Y\)): ; Mean (\(\mu_Y\)): ; Std Deviasi (\(\sigma_Y\)): ;
Gambar 4. Histogram Rata-rata Sampel \(X,Y\) dan beda rata-rata Sampel \((\bar{X}-\bar{Y})\)

Bivariat Normal

Jika \(X_1\) dan \(X_2\) sama sama bersebarann \(N(0,1)\), maka $$(Y_1,Y_2)\sim MVN(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2)$$ dengan $$Y_1=\mu_1+\sigma_1 X_1$$ dan $$Y_2=\mu_2+\rho\sigma_2X_1+\sigma_2\sqrt{1-\rho^2}X_2$$

Input

Mean 1 \(\mu_1\): ; dan Mean 2 \(\mu_2\): ; dan
SD 1 \(\sigma_1\): ; dan SD 2 \(\sigma_2:\) ; dan
Korelasi \(\rho\): ; dan

Plot Grafik \(X_1,X_2\) dan \(Y_1,Y_2\)

Rangkuman

Transformasi Penting

    Beberpa transformasi penting untuk memahami sebaran sampel diantaranya adalah seperti berikut ini.
  1. Jika \(X_i,\; i=1,2,...,n\) saling independen, maka \(M_X(t)=\prod M_{X_i}(t)\)
  2. Jika \(X_i,\; i=1,2,...,n\) saling independen dengan \(X_i\sim N(\mu_i,\sigma^2_i)\) dan \(Y=\sum a_iX_i,\;\), maka \(Y_i\sim N(\mu_Y,\sigma^2_Y)\) dengan \(\mu_Y=\sum a_i\mu_i,\; \sigma_Y^2=\sum a_i^2 \sigma_i^2\)
  3. Jika \( X \sim N(\mu,\sigma^2)\) maka \(Z=\frac{X-\mu}{\sigma} \sim N(0,1)\)
  4. Jika \(X \sim N(\mu,\sigma^2)\) maka \(Z^2=\left(\frac{X-\mu}{\sigma}\right)^2 \sim \chi^2_1\)
  5. Jika sampel acak \(X_i \sim N(\mu,\sigma^2),\;i=1,2,...,n\) maka \(\sum_{i=1}^n Z_i^2=\sum_{i=1}^n \left(\frac{X_i-\mu}{\sigma}\right)^2 \sim \chi^2_n\)
  6. Jika sampel acak \(X_i \sim N(\mu,\sigma^2),\;i=1,2,...,n\) maka \(\frac{Z}{\sqrt{\chi^2_v/v}}\sim T_v\) dengan \(v=n-1.\)
  7. Jika sampel acak \(X_i \sim N(\mu,\sigma^2),\;i=1,2,...,n\) maka \(\bar{X}=\frac{\sum X_i}{n}\sim N(\mu,\sigma^2/n).\)
  8. Jika sampel acak \(X_i \sim N(\mu,\sigma^2),\;i=1,2,...,n\) dan \(\sigma\) tidak diketahui maka varians sampel \(S^2=\frac{\sum (X_i-\bar{X})^2}{n-1}\sim \chi^2_{n-1}\)
  9. Jika sampel acak \(X_i \sim N(\mu,\sigma^2_X),\;i=1,2,...,n_X\) dan sampel acak \(Y_j \sim N(\mu_Y,\sigma^2_Y),\;j=1,2,...,n_Y\) dan \(X_i,Y_j\) saling independen maka \(\bar{X}-\bar{Y} \sim N(\mu_X-\mu_Y, \sigma^2_X/n_X+\sigma^2_Y/n_Y).\)
  10. Jika sampel acak \(X_i \sim N(\mu,\sigma^2_X),\;i=1,2,...,n_X\) dan sampel acak \(Y_j \sim N(\mu_Y,\sigma^2_Y),\;j=1,2,...,n_Y\) dan \(X_i,Y_j\) saling independen maka \[\frac{(\bar{X}-\bar{Y})-(\mu_X-\mu_Y)}{\sqrt{\sigma^2_X/n_X+\sigma^2_Y/n_Y)}} \sim N(0,1). \]
  11. Jika sampel acak \(X_i \sim N(\mu,\sigma^2_X),\;i=1,2,...,n_X\) dan sampel acak \(Y_j \sim N(\mu_Y,\sigma^2_Y),\;j=1,2,...,n_Y\) dan \(X_i,Y_j\) saling independen dengan \(\sigma_X, \sigma_Y\), tidak diketahui, maka \[\frac{(\bar{X}-\bar{Y})-(\mu_X-\mu_Y)}{\sqrt{S^2_X/n_X+S^2_Y/n_Y)}} \sim t_{n_X+n_Y-2} \]

Data Simulasi Rata-rata dan Selisih rata-rata sampel

Melalui simulasi diilustrasikan bahwa sampling dilakukan banyak kali (sebanyak nbootstrap), masing-masing dari populasi masing-masing X, Y sebanyak nX dan nY. Setiap kali mengambil sampel dihitung rata-rataX dan sara-rataY. Rata-rata ini ditabulasi, dihitug ringkasannya dan dibuat grafik histogram maupun QQPlot untuk menggambarkan bahwa rata-rata tersebut bersebaran Gaussian dengan varians berbanding terbalik dengan besarnya sample

Ringkasan

Rincian data

... dst ...

Sumber Bacaan Teori:

Mahasiswa diharapkan mengembangkan lebih lanjut pemahaman materi pada modul ini dengan membaca sumber bacaan berikut
    [1] Tirta, IM 2003. Pengantar Statistika Matematika (Diktat Kuliah). Jurusan Matematika FMIPA UNiversitas Jember
    [2] Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. Unej Press
    [3] Sahbaba B. 2012. Chapter 3. Data Exploration Biostatistics with R . Springer
    [4] Ramachandran KM. and Tsokos CP. 2012. Mathematical Statistics With Aplication . Academic Press
    [5] Dodge Y. 2008. The Concise Encyclopedia of Statistics. Springer

Tugas