Oleh: I Made Tirta, September 2022, Jurusan Matematika FMIPA Universitas Jember
Tujuan Umum
Setelah mempelajari materi ini mahasiswa diharapkan dapat
memahami distribusi-distribusi penting dari percobaan Bernoulli,
distribusi Poisson, serta beberapa distribusi kontinu, serta dapat
menggunakan distribusi tersebut untuk menyelesaikan masalah
yang terkait.
Tujuan Khusus
Setelah mempelajari materi ini mahasiswa secara khusus
diharapkan dapat:
1. menyebutkan definisi dan memverifikasi Distribusi Binomial;
2. menyebutkan definisi dan memverifikasi Distribusi Geometrik;
3. menyebutkan definisi Binomial Negatif;
4. menyebutkan definisi Distribusi Hipergeometrik;
5. menyebutkan definisi dan memverifikasi Distribusi Poisson;
Materi
1.Distribusi Binomial2. Distribusi Geometrik3. Distribusi Binomial Negatif4. Distribusi Hipergeometrik5. Distribusi Poisson
Pada dasarnya semua fungsi diskrit $p(.)$
yang memenuhi syarat $p(x) \ge 0 $ untuk semua $x$ dan $\sum
p(x)=1,$ memenuhi syarat sebagai fungsi peluang diskrit. Demikian
juga semua fungsi kontinu $f(.)$ pada $X$, yang menuhi syarat
nonnegatif dan membentuk luas satu unit dapat dijadikan fungsi
kepadatan peluang suatu peubah acak. Namun, ada beberapa
distribusi diskrit dan kontinu yang penting yang akan dibahas, diantaranya untuk distribusi diskrit adalah distribusi
yang berasal dari percobaan Bernoulli (Binomial, Negatif Binomial,
Geometrik ), distribusi Poisson. Untuk distribusi kontinu disampaikan
distribusi uniform, distribusi
eksponensia, Normal dan Gamma.
Distribusi Diskrit
Sebagaimana sudah
dibicarakan sebelumnya, bahwa peubah acak diskrit adalah peubah
acak yang ruang rentangnya merupakan himpunan yang berhingga (
finite) atau tak berhingga tapi terhitung (
denumerable/countably infinite) dengan sifat-sifat berikut
$$p(x) \geq 0,\;\; \forall x\in R_X$$
dan
$$\sum_{x\in R_X} p(x)=1.$$
Beberapa distribusi diskrit
penting akan dibicarakan dalam modul ini.
Misalkan pada percobaan Bernouli
pengamatan difokuskan pada banyaknya sukses yang terjadi ketika
percobaan Bernoulli itu diulang sebanyak $n$ kali. Dicari fungsi
kepadatan peluang dari peubah acak yang menggambarkan banyaknya
sukses yang terjadi.
Dari sebanyak $n$ ulangan percobaan Bernoulli, jelaslah bahwa
banyaknya sukses berkisar dari 0 (tidak ada sama sekali), sampai
maksimum $n$ (semuanya sukses). Akan dicari berapa peluang untuk
masing masing nilai tersebut. Misalkan banyaknya sukses adalah
$x$, maka pada kondisi ini berlaku:
1.
mungkin tidak ada sukses (0), tetapi paling banyak ada $n$ sukses. Jadi
$x\in R_X=\{0,1,2,\cdots,n\};$
2. banyaknya sukses, $\#(s)=x$ dan banyaknya gagal, $\#(g)=n-x$, dengan salah
satu susunan yang paling sederhana adalah:
\begin{equation}
\underbrace{s\;s\;s\;\cdots\;s}_x\;\underbrace{g\;g\;g\;\cdots\;g}_{n-x};
\label{s:binom}
\end{equation}
3. susunan seperti di atas, hanyalah salah satu
dari sekian kemungkinan. Secara keseluruhan susunan sukses($s$)
dan gagal adalah membentuk permutasi $n$ unsur dimana hanya ada
dua jenis yaitu unsur $s$ sebanyak $x$ dan unsur $g$ sebanyak
$n-x$, sehingga secara keseluruhan membentuk
\begin{equation}
\frac{n!}{x!(n-x)!}=\left(\begin{array}{cc}
n \\
x \end{array}\right).
\end{equation}
Karena keseluruhan $n$ percobaan saling bebas, maka peluang
seluruhnya merupakan hasil kali peluang masing-masing, $x$ sukses
dan $n-x$ gagal, yaitu $p^x(1-p)^{n-x}$; dengan demikian secara
keseluruhan peluang terjadinya $x$ sukses dari $n$ ulangan adalah
$$
P(x)=\left(\begin{array}{cc}
n \\
x
\end{array}\right)p^x(1-p)^{n-x},\;x=0,1,2,\cdots,n.
$$
Peubah acak yang mempunyai sifat- sifat di atas dikatakan
bersistribusi Binomial dengan parameter $n$ dan $p$, yang secara
formal dapat didefinisikan seperti berikut ini.
Definisi:
Peubah acak X dikatakan berdistribusi
Binomial dengan parameter n dan p,
dinotasikan dengan Bin(n,p), jika memiliki fungsi kepadatan
peluang
\begin{equation}
P(X=x)=\begin{cases} \left(\begin{array}{cc}
n \\
x
\end{array}\right)p^x(1-p)^{n-x},& \text{ untuk } x=0,1,2,\cdots,n
\\ 0 & \text{ untuk yang lain.}
\end{cases}
\end{equation}
Verifikasi terhadap bentuk fungsi kepadatan peluang dari
distribusi binomial adalah dengan menggunakan persamaan bahwa
$$(a+b)^n=\sum_{x=0}^n \binom{n}{x}a^{n-x}b^{x}.$$
Untuk distribusi Binomial,
\begin{align*}
\sum_{R_X} p(x) &= \sum_{x=0}^n \binom{n}{x} p^x(1-p)^{n-x} \\
&= (p+(1-p))^n = 1.
\end{align*}
Jika $X$ peubah acak berdistribusi $Bin(n,p)$,
maka mean dan varians
$X$ adalah
\begin{align}
\mu_X&= np,\\
\sigma^2_X &= np(1-p)=npq,
\end{align}
Untuk membuktikan ini kita maanfaatkan sifat kepadatan peluang bahwa
$$
\sum_{x=0}^n \binom{n}{x} p^x(1-p)^{n-x}=1
$$
atau dalam bentuk lain
$$
\sum_{y=0}^m \binom{m}{y} p^y(1-p)^{m-y}=1
$$
\begin{align*}
E(X) & = \sum_{x=0}^n x \binom
{n}{x}
p^x (1-p)^{n-x} \\
& = \sum_{x=1}^n \binom
{n-1}{x -1}
n
pp^{x-1} (1-p)^{(n-1)-(x-1)};\; \text{ [untuk $x=0$ sukunya 0] }\\
& = np \sum_{x=1}^{n}
\binom
{n-1}{x-1}
p^{x-1} (1-p)^{n-x} \\
& = np \underbrace{\sum_{y=0}^{n}
\binom
{n}{y}
p^{y} (1-p)^{n-y}}_{=1};\; \text{ [untuk $y=x-1$]} \\
&= np. \quad \\
E(X^2) &= E(X(X-1))+E(X) \\
& = \sum_{x=1}^n x(x-1) \binom
{n}{x}
p^x (1-p)^{n-x} +np \\
& = \sum_{x=2}^n \binom
{n-2}{x -2}
n(n-1)
p^2p^{x-2} (1-p)^{(n-2)-(x-2)} +np;\;\text{ [untuk $x=0,x=1$ sukunya 0] } \\
& = n(n-1)p^2 \sum_{x=2}^n
\binom{n-2}{x-2}
p^{x-2} (1-p)^{n-x} +np\\
& = n(n-1)p^2 \underbrace{\sum_{y}^n
\binom{n}{y}
p^{y} (1-p)^{n-y}}_{=1} +np\\
&= n^2p^2-np^2+np.
\end{align*}
Oleh karena itu terbukti $\sigma^2_X = np(1-p)$ (Lihat Tirta 2003).
Ilustrasi dengan R
Pada bagian ini disajikan grafik fungsi peluang dari distribusi Binomial dengan berbagai ukuran parameter $n,p$. Ilustrasi ini pada dasarnya dibuat dengan R. Pembaca dapat menguban nilai $N,n,p$ dan warna grafik sesuai keinginan. Untuk kegiatan penyajian dan eksplorasi data lihat Tirta 2014
Gambar 1. Fungsi peluang distribusi Bin$(n,p$).
Kita juga dapat membangkitkan data dengan ukuran
dan sebagian ( )
dari data yang dibangkitkan ($\leq N$) adalah:
Hasil perhitungan beberapa statistik yang penting dari keseluruhan sampel adalah seperti berikut:
Sementara grafik histogram dari kseluruhan data adalah
Adakalanya dalam percobaan
Bernoulli, yang diamati adalah benyaknya percobaan yang terjadi
sampai muncul satu (1) $s$. Tentu saja percobaan yang dilakukan
menggunakan asumsi bahwa dia diulang secara saling bebas. Misalkan
untuk munculnya 1 $s$ diperlukan sebanyak $x$ percobaan, maka pada
konsisi ini:
paling tidak diperlukan 1 percobaan, tetapi tidak ada batasan
maksimum banyaknya percobaan yang akan menghasilkan 1 $s$. Jadi $x
\in R_x=\{1,2,\cdots\};$
hasil terakhir adalah $s$, sedangkan hasil sebelumnya adalah
$g$, sehingga dapat digambarkan sebagai
\begin{equation}
\underbrace{g\;g\;g\;\cdots\;g}_{x-1}\;s; \label{s:geom}
\end{equation}
total peluang pada saat itu adalah $p(1-p)^{x-1}=pq^{x-1}$.
Peubah acak yang memenuhi kondisi di atas dikatakan berdistribusi
Geometrik dengan parameter $p$. Secara formal distribusi Geometrik
dapat didefinisikan seperti berikut ini.
Peubah acak X dikatakan berdistribusi
Geometrik dengan parameter p,
dinotasikan dengan Geo(p), jika memiliki fungsi kepadatan peluang
\begin{equation}
P(X=x)=\begin{cases} p(1-p)^{x-1}& \text{ untuk } x=1,2,3,\cdots,
\\ 0 & \text{ untuk yang lain.}
\end{cases}
\end{equation}
Verifikasi terhadap fungsi kepadatan peluang geometrik adalah dengan menggunakan
jumlah deret ukur turun tak hingga dengan suku awal $p$ dan rasio
$q=(1-p)$.
Mean dan varians dari $X$ yang berdistribusi $Geo(p)$ adalah
seperti pada teorema berikut.
$X$ berdistribusi geometrik,
maka
\[\mu_X=\frac{1}{p} \text{ dan } \sigma^2_X=\frac{q}{p^2}=\frac{1-p}{p^2}.\]
Beberapa buku teks melakukan reparameterisasi terhadap definisi distribusi Geometrik
(termasuk yang diimplementasikan ke program R) dengan mensubstitusikan
$Y=X-1$ seperti berikut
Peubah acak Y dikatakan berdistribusi
Geometrik dengan parameter p,
dinotasikan dengan Geo(p), jika memiliki fungsi kepadatan peluang
\begin{equation}
P(Y=y)=\begin{cases} p(1-p)^{y}& \text{ untuk } y=0,1,2,3,\cdots,
\\ 0 & \text{ untuk yang lain.}
\end{cases}
\end{equation}
Mean $Y$ menjadi(buktikan !): $$\mu_Y= \frac{1}{p}-1 $$
Cara lain memaknai reparameterisasi ini adalah bahwa yang diamatiadalah banyaknya kegagalan
(munculnya gagal) sebelum mencapa satu sukses yang diharapkan. Dlam kondisi ini
Peubah acak $Y$ menunjukkan banyaknya gagal sebelum mencapai 1 sukses, jadi rentang $y$ adalah $0,1,2,\cdots$. Nilai $y=0$ sama halnya dengan sekali toss langsung sukses (tanpa ada gagal)
Pada saat banyaknya gagal adalah $Y=y$ maka saat itu ada $y$ gagal dengan peluang gagal $(1-p)^y$ dan 1 sukses
dengan peluang $p$. Sehingga peluangnya adalah
$$P(Y=y)= p(1-p)^y\; \text{ untuk } y=0,1,2,3,\cdots$$
Ilustrasi dengan R
Distribusi Geometri lebih sederhana dari distribusi Binomial dan hanya
memiliki satu parameter $p$
Gambar 3. Fungsi peluang distribusi Geo$(p$).
Kita juga dapat membangkitkan data dengan ukuran
dan sebagian ( )
dari data yang dibangkitkan ($\leq N$) adalah:
Hasil perhitungan beberapa statistik yang penting dari keseluruhan sampel adalah seperti berikut:
Sementara grafik histogram dari kseluruhan data adalah
Sebagai generalisasi dari
distribusi Geometrik, ada kalanya yang ingin diamati adalah
banyaknya ulangan sampai munculnya $r \ge 1$ sukses. Misalkan
untuk menghasilkan $r$ sukses diperlukan $x$ ulangan, maka pada
kondisi ini berlaku:
1.
paling tidak diperlukan $r$ ulangan, tetapi tidak ada
batas maksimum; Jadi $x\in R_x=\{r,r+1,r+2,\cdots\}$;
2. pada saat itu hasil terakhir adalah $s$, tetapi pada ulangan
sebelumnya (sebanyak $x-1$) ada sebanyak $r-1$ sukses ($s$) dan
sisanya adalah $g$. Jadi peluangnya adalah $$p
p^{r-1}q^{x-1-(r-1)}=p^r q^{x-r}; $$
sukses dan gagal pada $x-1$ ulangan sebelumnya menyebar mengikuti
prinsip permutasi dengan jumlah $x-1$ unsur, terdiri atas dua
jenis, masing- masing sebanyak $r-1$ unsur $s$ dan $x-r$ unsur
$g$; jadi ada $\displaystyle\left(\begin{array}{cc}
x-1 \\
r-1
\end{array}\right)$
macam susunan $s$ dan $g.$
Deninisi:
Peubah acak $X$ dikatakan berdistribusi
Binomial Negatif, jika
mempunyai fungsi kepadatan peluang
\begin{equation}
P(X=x)=\begin{cases} \left(\begin{array}{cc}
x-1 \\
r-1
\end{array}\right)p^{r}q^{x-r} & \text{ untuk
} x=r,r+1,r+2,\cdots \\
0 &\text{ untuk yang lain.}
\end{cases}
\end{equation}
Beberapa buku teks (termasuk yang diimplementasikan ke R, tidak menghitung banyaknya toss yang diperlukan,
tetapi jumlah gagal yang terjadi sebelum mencapai $r$ sukses. Dalam keadaan ini
Rentang nilai $y$ adalah $0,1,2,3,\cdots$. Nilai $y=0$ berarti bahwa sukses sebanyak $r$ tidak didahului oleh gagal sama sekali (jumlah gagal 0).
Pada saat sukses sebanyak $r$ sudah tercapai, dan didahului dengan jumlah gagal sebanyak $y$ maka
hasil terakhir adalah sukses dan merupakan sukses ke $r$, total ada $r$ sukses dan $y$ gagal sehingga
peluangnya adalah $p^r (1-p)^y$
gagal sebanyak $y$ dan sukses sebelumnya sebanyak $r-1$ menempati urutan yang acak (yang merupakan kombinasi) dari $C(y+r-1,y)=C(y+r-1,r-1)$.
Deninisi:
Peubah acak $X$ dikatakan berdistribusi
Binomial Negatif, jika
mempunyai fungsi kepadatan peluang
\begin{equation}
P(Y=y)=\begin{cases} \left(\begin{array}{cc}
y+r-1 \\
r-1
\end{array}\right)p^{r}q^{y} & \text{ untuk
} y=0,1,2,\cdots \\
0 &\text{ untuk yang lain.}
\end{cases}
\end{equation}
Dengan menggunakan definisi fungsi Gamma untuk bilangan bulat $\Gamma(n)=(n-1)!$, maka
\begin{equation}
P(Y=y)=\begin{cases} \frac{
\Gamma(y+r)}{
\Gamma(r) y!}
p^{r}q^{y} & \text{ untuk
} y=0,1,2,\cdots \\
0 &\text{ untuk yang lain.}
\end{cases}
\end{equation}
Misalkan suatu kotak berisi
dua jenis bola ($A$ dan $B$). Seluruhnya berjumlah $N$
bola, $m$ buah merupakan bola jenis $A$. Diambil (sekaligus, atau
satu- satu tanpa pengembalian) $n$ buah bola. Dicari peluang bahwa
yang terambil adalah $x$ bola jenis $A$.
Untuk menyelesaikan persoalan ini perlu diperhatikan hal-hal
berikut:
secara keseluruhan dari $N$ bola diambil $n$, maka akan
terdapat sebanyak $\displaystyle \left(\begin{array}{c} N \\
n
\end{array}\right)$ macam jenis kumpulan $n$ unsur;
dari $m$ bola jenis $A$ diambil $x$ buah, berarti ada
sebanyak $\displaystyle \left(\begin{array}{c} m \\
x
\end{array}\right)$ cara pengambilan bola $A.$
sementara itu selebihnya $(n-x)$ diambil dari $N-m$ bola
jenis $B$, sehigga untuk pengambilan bola $B$ ada sebanyak
$\displaystyle \left(\begin{array}{c} N-m \\
n-x
\end{array}\right)$ cara;
gabungan pengambilan seluruh $n$ bola $A$ atau $B$
menghasilkan
$\displaystyle \left(\begin{array}{c} m \\
x
\end{array}\right)$ $\displaystyle \left(\begin{array}{c} N-m \\
n-x
\end{array}\right)$ cara.
Peubah acak yang memenuhi syarat di atas dikatakan berdistribusi
hipergeometrik. Secara formal dapat dirumuskan definisinya seperti
berikut ini.
\label{df:d.hiperg} Peubah acak $X$ dikatakan berdistribusi
hipergeometrik dengan parameter $N,n$ dan $r$, dinotasikan
$HG(N,m,n),$ jika mempunyai fungsi kepadatan peluang
\begin{equation} P(X=x)=
\begin{cases}
\frac{\left(\begin{array}{c} m \\
x
\end{array}\right)\left(\begin{array}{c} N-m \\
n-x
\end{array}\right)}{\left(\begin{array}{c} N \\
n
\end{array}\right)} & x=0,1,2,\cdots,n;\; x\le m
\text{ dan } \\
& n-x \le N-m \\
0 & \text{ untuk yang lain. }
\end{cases}
\end{equation}
Grafik distribusi hipergeometri dengan
$N=10,m=7,n=5$ diberikan pada Gambar.
Gambar 3. Fungsi peluang distribusi Geo$(p$).
Kita juga dapat membangkitkan data dengan ukuran
dan sebagian ( )
dari data yang dibangkitkan ($\leq N$) adalah:
Hasil perhitungan beberapa statistik yang penting dari keseluruhan sampel adalah seperti berikut:
Sementara grafik histogram dari kseluruhan data adalah
Gambar 4. Histogram data berdistribusi HiperGeometrik.
Penurunan definisi distribusi Poisson melalui proses Poisson dapat
dilihat pada Meyer, namun di sini akan diberikan
definisi secara aksiomatik dengan menggunakan ekspansi deret dari
eksponensial. Dengan sedikit modifikasi, kita
tahu bahwa
$$
e^\lambda =\sum_{x=0}^\infty \frac{\lambda^x}{x!}$$ yang ekuivalen
dengan $$1 = \sum_{x=0}^\infty \frac{e^{-\lambda}\lambda^x}{x!}.
$$
Jumlah 1 menunjukkan bahwa bentuk $\displaystyle
\frac{e^{-\lambda}\lambda^x}{x!}$ yang nonnegatif dapat dijadikan
fungsi kepadatan peluang. Peubah acak yang memiliki fungsi peluang
ini yang dikatakan memiliki distribusi Poisson.
Peubah acak $X$ dikatakan berdistribusi
Poisson dengan parameter $\lambda$,
dinotasikan $Poisson(\lambda)$, jika mempunyai fungsi kepadatan peluang
berikut
\begin{equation}
P(X=x)=p(x)=\left\{\begin{array}{cl}
\frac{e^{-\lambda}\lambda^x}{x!}
& \text{untuk } x=0,1,2,... \\
0 & \mbox{untuk yang lain} \end{array}\right.
\end{equation}
Jika $X$ berdistribusi Poisson dengan
parameter $\lambda$, maka
$\mu_X=\sigma^2_X=\lambda.$
Hubungan distribusi Poisson dengan Binomial
Dalam kondisi tertentu, distribusi binomial dapat didekati dengan
distribusi Poisson.
Distribusi binomial akan bisa didekati dengan
distribusi Poisson jika:
$n$ pada distribusi binomial relatif besar, yaitu $n\to \infty$ dan
$p$ relatif kecil (berarti $1-p\approx 1$), sehingga $np$ relatif
konstan dan $np \approx np(1-p)$. Jadi mean relatif sama dengan
varians dan $\lambda=np$ atau $p=\lambda/n$.
Selanjutnya secara matematika dapat ditunjukkan bahwa peluang
pertama pada distribusi binomial (untuk $x=0$) dapat dituliskan
sebagai
\begin{align*}
P(X=0)&=(1-p)^n \\
&= \left(1-\frac{\lambda}{n}\right)^n\\
&= e^{-\lambda.}
\end{align*}
selanjutnya dapat ditunjukkan bahwa
\begin{align*}
P(X=x)=B(x)&\approx
\frac{\lambda^x}{x!} e^{-\lambda} \\
&\approx P(x)
\end{align*}
Secara formal dapat dinyatakan dengan teorema berikut.
Jika $X$
berdistribusi $Bin(n,p)$ dengan $n\to \infty$ dan $p\to 0$, maka
$X$ mendekati berdistribusi Poisson dengan parameter
$\lambda=np.$
Secara
emperik pendekatan ini dapat diilustrasikan dengan menggunakan
simulasi, untuk kedua jenis distribusi.
Rangkuman
Mean distribusi binomial $Bin(n,p)$
adalah $\mu_X= np.$
Untuk distrubusi geometrik yang sudah menggunakan reparameterisasi/ transformasi $Geo(p)$
memiliki mean
$\mu_Y= \frac{1}{p}-1. $
Sedangkan distribusi poisson dengan parameter $\lambda$ memiliki mean $\mu_X=\lambda$
Dari apa yang telah dibahas di atas dapat dirangkum bahwa bentuk fungsi kepadatan, qq-plot dan histogram dari distribusi Binomial, dan geometrik adalah seperti
berikut ini.
Gambar x. Grafik Fungsi Peluang dan Histogram beberapa Distribusi
Ringkasan statistika dari data yang dibangkitkan adalah seperti berikut ini
Tugas
1. Bagaimana hubungan antara bentuk fungsi kepadatan (terutama kesimetrisan) dengan besarnya parameter $p$, untuk distribusi
Binomial, Geometri, dan Negatif Binomial ?2. Bagaimana hubungan antara bentuk fungsi kepadatan dengan besarnya parameter $\lambda$, untuk distribusi
Poisson ? 2. Untuk nilai $n,p,\lambda$ berapa anda melihat distribusi Binomial cukup dekat dengan
Poisson ?
Sumber Bacaan Teori:
[1] Tirta, IM 2003. Pengantar Statistika Matematika (Diktat Kuliah).
Jurusan Matematika FMIPA UNiversitas Jember [2] Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. Unej Press [3] Sahbaba B. 2012. Chapter 3. Data Exploration Biostatistics with R . Springer [4] Ramachandran KM. and Tsokos CP. 2012. Mathematical Statistics With Aplication . Academic Press [5] Wikipedia. Normality Test
http://en.wikipedia.org/wiki/Normality_test [Akses 28 Oktober 2014]
Naskah ini dibuat dengan tujuan utama sebagai dokumen contoh (IMT).