logoUNEJ UNEJ PONSTAT Laboratorium Statistika, FMIPA Universitas Jember Jalan Kalimantan 27 Jember 68121

LN-MS-02. Peubah Acak Kontinu: Distribusi Normal dan Keluarga Gamma

Pondok Web, for Practicing & Learning Online Statistics where R, LaTeX, and Java gather friendly, ready to assist
oleh I Made Tirta, Jurusan Matematika FMIPA Universitas Jember

Tujuan

Setelah menyimak materi yang ada pada modul ini mahasiswa secara umum diharapkan agar mahasiswa memahami sifat-sifat dua distribusi kontinu Gaussian dan Gamma, dan dapat mengaplikasikannya dalam persoalan real yang relevan. Secara khusus mahasiswa diharapkan
    1. Dapat mendefinisikan Distribusi Normal/Gaussian
    2. Dapat menentukan mean dan variansi Distribusi Normal/Gaussian
    3. Dapat mendefinisikan Distribusi Normal/Gaussian Baku
    4. Dapat menghitung peluang menggunakan Distribusi Normal/Gaussian
    5. Dapat mendefinisikan Distribusi Gamma berdasarkan parameter bentuk dan skala
    6. Dapat menghitung mean dan varians Distribusi Gamma
    7. Dapat menghitung peluang menggunakan Distribusi Gamma
    8. Dapat mendefinisikan Distribusi Eksponensial, dan Distribusi Chi-sq.
    9. Dapat menghitung mean dan varians Distribusi Eksponensial, dan Distribusi Chi-sq.
    10. Dapat menghitung peluang menggunakan Distribusi Eksponensial, dan Distribusi Chi-sq.
    11. Dapat menyimpulkan hubungan antara distribusi Gamma, Distribusi Eksponensial, dan Distribusi Chi-sq.
    12. Dapat menyimpulkan hubungan mean dan varians pada distribusi Normal, distribusi Gamma, Distribusi Eksponensial, dan Distribusi Chi-sq, baik dengan memperhatikan hasil simulasi maupun dengan menurunkan secara matematis.

Materi

    Distribusi Normal
    Distribusi Gamma
    Rangkuman
    Daftar Bacaan
    Latihan/Tugas

Kita mengenal beberapa distribusi peubah acak kontinu diantaranya adalah Normal (Gaussian), Gamma (termasuk semua distribusi khususnya). Secara umum peubah acak $X$ dikatakan memiliki fungsi kepadatan peluang $f$ kontinu, jika ruang rentangnya merupakan himpunan yang kontinu (berupa selang) dan memenuhi $$f(x,...)\geq 0, \forall x \in R_X \text{ dan } \int_{R_X}f(x,...)dx=1\; $$ Untuk distribusi kontinu peluang peubah acak pada suatu interval tertentu (misalnya $a< X < b$) didefinisikan seperti berikut $$ P(a < X < b)=\int_{x=a}^{x=b} f(x)\; dx $$

Distribusi Normal/Gaussian

Teori

Peubah acak $X$ dikatakan berdistribusi Gaussian jika $X$ memiliki fungsi kepadatan seperti berikut. $$f(x,a,b)=\frac{1}{b\sqrt{2\pi}}\exp\left[-\frac{1}{2}\left(\frac{x-a}{b}\right)^2\right];\; -\infty < x < \infty$$ Dapat diturunkan bahwa kepadatan diatas memiliki mean, $\mu=a$ dan variansi $\sigma^2=b^2$. Selanjutnya distribusi ini dinotasikan dengan $N(a,b^2)=N(\mu,\sigma^2)$. Bentuk khusus dari distribusi ini adalah jika $\mu=0 $ dan $\sigma=1$, disebut sebagai Distribusi Normal Baku dan dinotasikan denga $N(0,1)$.

Dengan R kita bisa membangkitkan data, menghitung peluang dan membuat grafik kepadatan dari $N(\mu,\sigma^2)$ melalui 4 perintah dasar berikut.

1. dnorm(x,mu,sigma)
2. pnorm(q,mu,sigma)
3. qnorm(p,mu,sigma)
4. rnorm(n,mu,sigma)
Secara teoritis distribusi ini memiliki bentuk fungsi (kepadatan) peluang seperti ditunjukan pada Gambar 1. Untuk semua grafik dalam naskah ini kita dapat memilih seperti yang kita inginkan. Nilai peluang $ P(x_1\leq X\leq x_2)$ atau $ P(X < x_1)$ atau $ P( x_1 < X)$ atau $ P(\mu\leq X\leq x_2)$ dapat dilihat pada grafik.
Gambar 1. Fungsi (kepadatan) dan nilai peluang
dari distribusi Normal/Gaussian dengan mean dan dengan standar deviasi
Untuk $x_1$ dan $x_2$ ,

Jika kita ingin menghitung kuantil distribusi Gaussian untuk peluang simetris (IK) %, maka kuantilnya adalah $\pm$ (karena simetris):


Selanjutnya kita dapat membangkitkan data dan menghitung serta menampilkan statistik ringkas dari data yang telah dibangkitkan (seperti minimum, maksimum, rata-rata dan sebagainya) seperti hasil berikut ini, sementara data asli lengkap disajikan pada akhir dokumen ini.


Selain dengan ringkasan data, kita juga bisa membuat menyajikan data dalam bentuk grafik histogram. Tampilan histogram dapat dilihat seperti Gambar 2. Dengan histogram kita mendapat gambaran tentang kesimetrisan sebaran data.

Distribusi t

Nilai peluang $ P(t_1\leq X\leq t_2)$ atau $ P(X < t_1)$ atau $ P( t_1 < X)$ atau $ P(0\leq X\leq t_2)$ dapat dilihat pada grafik.
Gambar 2. Fungsi (kepadatan) dan nilai peluang
dari distribusi $t$ dengan df
Untuk $t_1$ dan $t_2$ ,
Kurva berwarna cokelat menunjukkan kurna normal baku ($Z\sim N(0,1)$)

Selanjutnya kita dapat membangkitkan data dan menghitung serta menampilkan statistik ringkas dari data yang telah dibangkitkan (seperti minimum, maksimum, rata-rata dan sebagainya) seperti hasil berikut ini. Perhatikan bahwa mean dari data bersebaran $t$ adalah 0.


Selain dengan ringkasan data, kita juga bisa membuat menyajikan data dalam bentuk grafik histogram. Tampilan histogram dapat dilihat seperti Gambar 4. Dengan histogram kita mendapat gambaran tentang kesimetrisan sebaran data.

Tugas/Diskusi

  1. Turunkan mean dan varians dari distribusi Normal dengan berpedoman bahwa
    • $$\int_{-\infty}^{\infty}\frac{1}{b\sqrt{2\pi}}\exp\left[-\frac{1}{2}\left(\frac{y-a}{b}\right)^2\right] dy =1;\;\nonumber$$
    • $$E(Y)=\mu_Y=\int_{-\infty}^{\infty} y f(y)\,dy \nonumber $$
    • $$V(Y)=E(Y^2)-E^2(Y) \nonumber $$
  2. Tentukan P(40< X < 55) untuk $ X\sim N(50,5)$
  3. Bangkitkan data sebanyak 1000 untuk $ X\sim N(50,5)$. Hitung besarnya rata-rata sampel. Berapa selisih antara rata-rata sampel dengan $\mu$. Lakukan untuk beberapa ukuran sampel, lalu tabulasikan hasilnya. Adakah tren yang bisa disimpulkan?
  4. Diasumsikan bahwa Nilai UAN mata pelajaran Matematika tingkat SMA mengikuti distribusi Normal dengan $\mu=75$ dan $\sigma^2=5$.
    • Tentukan persentase anak yang mendapat nilai dari 60.00 sd 80.00. Jika jumlah anak yang ikut UAN 1000 orang berapa orang yang berada pada klasifikasi ini.
    • Jika kebijakan pemda memberi reward berupa biaya masuk Perguruan tinggi untuk 10% peraih nilai tertinggi. Berapa batas nilai terendah yang memperoleh reward ini
    • Jika mereka yang memperoleh nilai kurang dari 60 diwajibkan mengikuti UAS Ulang, berapa persen (dann berapa banyak) peserta UAN yang diwajibkan mengikuti UAN Ulang?

Distribusi Gamma

Distribusi Gamma mempunyai bentuk umum yang didefinisikan seperti beikut ini. Peubah acak $X$ dikatakan berdistribusi Gamma dengan dua parameter $\alpha$ (parameter bentuk/shape) dan $\beta$ (parameter skala/scale), dinotasikan dengan $G(\alpha,\beta)$, jika $X$ mempunyai f.k.p. $$ f(x,\alpha,\beta)=\frac{1}{\Gamma(\alpha)\beta^\alpha} x^{\alpha-1}e^{-x/\beta};\;\alpha,\beta>0;0\leq x,$$ dengan $\Gamma(\alpha)=\int_0^\infty e^{-x}x^{\alpha-1}\; \, d x, \text{ dengan } \alpha > 0 $ disebut sebagai fungsi $\Gamma()$. Untuk $n$ bulat positif, $\Gamma(n)=(n-1)!$ dan didefinisikan $\Gamma(0)=1$. Nilai fungsi Gamma ini untuk $\alpha$ = adalah $\Gamma(\alpha)=$


Distribusi tersebut di atas memiliki mean $(\mu) =\alpha\beta$ dan varansi $(\sigma^2)=\alpha\beta^2$
Lihat Tirta (2003)

Bentuk khusus Distribusi Gamma

Sesuai dengan variasi nilai $\alpha$ dan $\beta$, distribusi Gamma memiliki beberapa bentuk khusus.

Distribusi Gamma Baku

$G(\alpha)$ adalah distribusi Gamma dengan $\beta=1$ Dengan demikian untuk Gamma Baku $$ f(x,\alpha)=\frac{1}{\Gamma(\alpha)} x^{\alpha-1}e^{-x};\;\alpha>0;0\leq x,$$ Distribusi tersebut di atas memiliki mean dan varians yang sama $\mu = \sigma^2=\alpha$

Distribusi Eksponensial

$\exp(\beta)$ adalah distribusi Gamma dengan $\alpha=1$ yaitu $$ f(x,\beta)=\frac{1}{\beta} e^{-x/\beta};\; \beta>0;0\leq x,$$ Distribusi ini memiliki mean $(\mu =\beta)$ dan varians $\sigma^2=\beta^2$

Distribusi Chi-sq

$\chi^2_r$ Chi-sq dengan derajat kebebaa $r$ adalah distribusi Gamma dengan $\beta=2$ dan $\alpha=r/2$ atau $r=2\alpha$ $$ f(x,r/2,2)=\frac{1}{\Gamma(r/2) 2^{r/2}} x^{r/2-1}e^{-x/2};\;r>0;0\leq x,$$ Distribusi ini memiliki mean $(\mu = r = 2\alpha)$ dan varians $\sigma^2=2r=4\alpha$

Ilustrasi dengan R

Seperti halnya dengan distribusi Normal, untuk Gamma dan keluarganya, juga masing-masing ada 4 fungsi penting, yaitu
#gamma umum
1. dgamma(x,shape,scale)
2. pgamma(q,shape,scale)
3. qgamma(p,shape,scale)
4. rgamma(n,shape,scale)

#eksponensial
1. dexp(x,scale)
2. pexp(q,scale)
3. qexp(p,scale)
4. rexp(n,scale)

#chi-sq
1. dchisq(x,df)
2. pchisq(q,df)
3. qchisq(p,df)
4. rchisq(n,df)
Grafik fungsi kepadatan dengan menggunakan fungsi Gamma umum dengan parameter shape ($\alpha$), dan scale ($\beta$) ditunjukkan oleh Gambar 3. Anda bisa mencoba hasilnya dengan menggunakan distribusi Gamma umum dengan berbagai nilai parameter $\alpha,\beta$, dan membandingkannya dengan menggunakan distribusi khusus seperti disampaikan di atas.
Gambar 3. Fungsi (kepadatan) peluang distribusi Gamma Fungsi ()

Peluang $P(x_1\leq X \leq x_2)$ untuk $x_1$ dan $x_2:$ dapat dilihat pada Gambar 3.
Ringkasan statistika dari sebagian data acak sebanyak dari distribusi di atas memiliki ringkasan statistik berikut (hasil terakhir adalah varians sampel, $S^2$). Perhatikan hubungan antara besaran $\alpha, \beta, \mu, \sigma^2$ untuk berbagai jenis distribusi Gamma yang dicoba.

Tugas/Diskusi

  1. Turunkan mean dan varians dari distribusi Gamma dengan berpedoman bahwa $$ \int_{0}^{\infty} \frac{1}{\Gamma(a)b^a} y^{a-1}e^{-y/b} dy=1\nonumber$$
  2. Eksplorasi data simulasi dan ulang-ulang (banyak kali) dengan parameter berbeda, dapatkah anda melihat pola hubungan antara mean dan varians dari masing-masing distribusi yang dibahas pada modul ini? Justifikasi dugaan anda dengan melihat secara matematis hubungan antara mean dan varians dari distribusi tersebut?
  3. Hasil panen padi perhektar dari 100 kelompok tani diasumsikan berdistribsi Gamma dengan parameter bentuk 5 dan skala 5 (satuan ton/hektar). Hitung
    • Rata-rata dan variansi panen perhektar dari kelompok tani tersebut
    • Berapa persen kelompok tani yang produksinya antara 5 s.d. 10 ton/ hektar
    • Berapa ton minimal hasil panen dari 10% kelompok tani yang panennya terbaik.
    • Simulasikan salah satu sebaran dari hasil panen 100 kelompok Tani tersebut

Histogram dan Uji Normalitas Data

Selain untuk menyajikan data, kita juga bisa menggunakan grafik untuk mendapatkan gambaran apakah data yang kita miliki bedistribusi normal. Grafik tersebut dikenal dengan nama QQNorm yang tampilannya seperti berikut ini. Grafik QQnorm ini terdiri atas data berupa titik, garis lurus sebagai acuan kenormalan, dan batas sabuk keyakinan. Apabila banyak titik-titik data yang berada di luar sabuk keyakinan, berarti datanya tidak berdistribusi normal. Ringkasan data yang dibangkitkan di atas adalah seperti berikut ini.

Gambar 4. Histogram data kurva densitas emperik

Gambar 5. QQ-norm data dengan jenis distribusi dan ukuran sampel tertentu

Selain secara intuitif menggunakan grafik QQ-norm, kita bisa secara lebih tepat melakukan uji kenormalan menggunakan Hasil uji diperoleh seperti berikut ini.


Rangkuman

Ada dua kelompok distribusi kontinu yang dibahas pada modul ini yaitu distribusi Normal/ Gaussian dan distribusi Gamma yang memiliki kepadatan seperti berikut ini. Distribusi $N(\mu,\sigma^2)$ $$f(x,\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right];\; -\infty < x < \infty\nonumber$$ Dengan mean $\mu$ dan deviasi baku $\sigma$. Jika $\mu=0$ dan $\sigma=1$ disebut Normal Baku. Sedangkan distribusi $G(\alpha,\beta)$ $$ f(x,\alpha,\beta)=\frac{1}{\Gamma(\alpha)\beta^\alpha} x^{\alpha-1}e^{-x/\beta};\;\alpha,\beta>0;0\leq x,\nonumber$$ dengan $\Gamma(\alpha)=\int_0^\infty e^{-x}x^{\alpha-1}\; \, d x, \text{ dan } \alpha > 0. $ Distribusi ini memilikui $\mu=\alpha\beta$ dan $\sigma^2=\alpha\beta^2$. Beberapa bentuk khusus dari distribusi Gamma adalah seperti berikut ini.

    1. Distribusi Gamma baku dengan parameter $\alpha$, yaitu $G(\alpha)$ , jika $\beta=1$,
    2. Distribusi Eksponensial,dengan parameter $\beta$, yaitu Exp$(\beta),$ jika $\alpha=1$
    3. Distribusi Chi-sq dengan parameter $r$, yaitu $\chi^2_r$, jika $\alpha=r/2, \beta=2$
Sebagian data disajikan berikut ini

Sumber Bacaan Teori:

Mahasiswa diharapkan mengembangkan lebih lanjut pemahaman materi pada modul ini dengan membaca sumber bacaan berikut
    [1] Tirta, IM 2003. Pengantar Statistika Matematika (Diktat Kuliah). Jurusan Matematika FMIPA UNiversitas Jember
    [2] Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. Unej Press
    [3] Sahbaba B. 2012. Chapter 3. Data Exploration Biostatistics with R . Springer
    [4] Ramachandran KM. and Tsokos CP. 2012. Mathematical Statistics With Aplication . Academic Press
    [5] Dodge Y. 2008. The Concise Encyclopedia of Statistics. Springer