DISTRIBUSI DISKRIT

Oleh: I Made Tirta, Jurusan Matematika FMIPA Universitas Jember

Tujuan Umum

Setelah mempelajari materi ini mahasiswa diharapkan dapat memahami distribusi-distribusi penting dari percobaan Bernoulli, distribusi Poisson, serta beberapa distribusi kontinu, serta dapat menggunakan distribusi tersebut untuk menyelesaikan masalah yang terkait.

Tujuan Khusus

Setelah mempelajari materi ini mahasiswa secara khusus diharapkan dapat:
    1. menyebutkan definisi dan memverifikasi Distribusi Binomial;
    2. menyebutkan definisi dan memverifikasi Distribusi Geometrik;
    3. menyebutkan definisi Binomial Negatif;
    4. menyebutkan definisi Distribusi Hipergeometrik;
    5. menyebutkan definisi dan memverifikasi Distribusi Poisson;

Materi

    1.Distribusi Binomial
    2. Distribusi Geometrik
    3. Distribusi Binomial Negatif
    4. Distribusi Hipergeometrik
    5. Distribusi Poisson
Pada dasarnya semua fungsi diskrit $p(.)$ yang memenuhi syarat $p(x) \ge 0 $ untuk semua $x$ dan $\sum p(x)=1,$ memenuhi syarat sebagai fungsi peluang diskrit. Demikian juga semua fungsi kontinu $f(.)$ pada $X$, yang menuhi syarat nonnegatif dan membentuk luas satu unit dapat dijadikan fungsi kepadatan peluang suatu peubah acak. Namun, ada beberapa distribusi diskrit dan kontinu yang penting yang akan dibahas, diantaranya untuk distribusi diskrit adalah distribusi yang berasal dari percobaan Bernoulli (Binomial, Negatif Binomial, Geometrik ), distribusi Poisson. Untuk distribusi kontinu disampaikan distribusi uniform, distribusi eksponensia, Normal dan Gamma.

Distribusi Diskrit

Sebagaimana sudah dibicarakan sebelumnya, bahwa peubah acak diskrit adalah peubah acak yang ruang rentangnya merupakan himpunan yang berhingga ( finite) atau tak berhingga tapi terhitung ( denumerable/countably infinite) dengan sifat-sifat berikut $$p(x) \geq 0,\;\; \forall x\in R_X$$ dan $$\sum_{x\in R_X} p(x)=1.$$ Beberapa distribusi diskrit penting akan dibicarakan dalam modul ini.

Distribusi Binomial

Misalkan pada percobaan Bernouli pengamatan difokuskan pada banyaknya sukses yang terjadi ketika percobaan Bernoulli itu diulang sebanyak $n$ kali. Dicari fungsi kepadatan peluang dari peubah acak yang menggambarkan banyaknya sukses yang terjadi. Dari sebanyak $n$ ulangan percobaan Bernoulli, jelaslah bahwa banyaknya sukses berkisar dari 0 (tidak ada sama sekali), sampai maksimum $n$ (semuanya sukses). Akan dicari berapa peluang untuk masing masing nilai tersebut. Misalkan banyaknya sukses adalah $x$, maka pada kondisi ini berlaku:
    1. mungkin tidak ada sukses (0), tetapi paling banyak ada $n$ sukses. Jadi $x\in R_X=\{0,1,2,\cdots,n\};$
    2. banyaknya sukses, $\#(s)=x$ dan banyaknya gagal, $\#(g)=n-x$, dengan salah satu susunan yang paling sederhana adalah: \begin{equation} \underbrace{s\;s\;s\;\cdots\;s}_x\;\underbrace{g\;g\;g\;\cdots\;g}_{n-x}; \label{s:binom} \end{equation}
    3. susunan seperti di atas, hanyalah salah satu dari sekian kemungkinan. Secara keseluruhan susunan sukses($s$) dan gagal adalah membentuk permutasi $n$ unsur dimana hanya ada dua jenis yaitu unsur $s$ sebanyak $x$ dan unsur $g$ sebanyak $n-x$, sehingga secara keseluruhan membentuk \begin{equation} \frac{n!}{x!(n-x)!}=\left(\begin{array}{cc} n \\ x \end{array}\right). \end{equation}
Karena keseluruhan $n$ percobaan saling bebas, maka peluang seluruhnya merupakan hasil kali peluang masing-masing, $x$ sukses dan $n-x$ gagal, yaitu $p^x(1-p)^{n-x}$; dengan demikian secara keseluruhan peluang terjadinya $x$ sukses dari $n$ ulangan adalah $$ P(x)=\left(\begin{array}{cc} n \\ x \end{array}\right)p^x(1-p)^{n-x},\;x=0,1,2,\cdots,n. $$ Peubah acak yang mempunyai sifat- sifat di atas dikatakan bersistribusi Binomial dengan parameter $n$ dan $p$, yang secara formal dapat didefinisikan seperti berikut ini.

Definisi: Peubah acak X dikatakan berdistribusi Binomial dengan parameter n dan p, dinotasikan dengan Bin(n,p), jika memiliki fungsi kepadatan peluang \begin{equation} P(X=x)=\begin{cases} \left(\begin{array}{cc} n \\ x \end{array}\right)p^x(1-p)^{n-x},& \text{ untuk } x=0,1,2,\cdots,n \\ 0 & \text{ untuk yang lain.} \end{cases} \end{equation} Verifikasi terhadap bentuk fungsi kepadatan peluang dari distribusi binomial adalah dengan menggunakan persamaan bahwa $$(a+b)^n=\sum_{x=0}^n \binom{n}{x}a^{n-x}b^{x}.$$ Untuk distribusi Binomial, \begin{align*} \sum_{R_X} p(x) &= \sum_{x=0}^n \binom{n}{x} p^x(1-p)^{n-x} \\ &= (p+(1-p))^n = 1. \end{align*} Jika $X$ peubah acak berdistribusi $Bin(n,p)$, maka mean dan varians $X$ adalah \begin{align} \mu_X&= np,\\ \sigma^2_X &= np(1-p)=npq, \end{align} Untuk membuktikan ini kita maanfaatkan sifat kepadatan peluang bahwa $$ \sum_{x=0}^n \binom{n}{x} p^x(1-p)^{n-x}=0 $$ atau dalam bentuk lain $$ \sum_{y=0}^m \binom{m}{y} p^y(1-p)^{m-y}=0 $$ \begin{align*} E(X) & = \sum_{x=0}^n x \binom {n}{x} p^x (1-p)^{n-x} \\ & = \sum_{x=1}^n \binom {n-1}{x -1} n pp^{x-1} (1-p)^{(n-1)-(x-1)};\; \text{ [untuk $x=0$ sukunya 0] }\\ & = np \sum_{x=1}^{n} \binom {n-1}{x-1} p^{x-1} (1-p)^{n-x} \\ & = np \underbrace{\sum_{y=0}^{n} \binom {n}{y} p^{y} (1-p)^{n-y}}_{=1};\; \text{ [untuk $y=x-1$]} \\ &= np. \quad \\ E(X^2) &= E(X(X-1))+E(X) \\ & = \sum_{x=1}^n x(x-1) \binom {n}{x} p^x (1-p)^{n-x} +np \\ & = \sum_{x=2}^n \binom {n-2}{x -2} n(n-1) p^2p^{x-2} (1-p)^{(n-2)-(x-2)} +np;\;\text{ [untuk $x=0,x=1$ sukunya 0] } \\ & = n(n-1)p^2 \sum_{x=2}^n \binom{n-2}{x-2} p^{x-2} (1-p)^{n-x} +np\\ & = n(n-1)p^2 \underbrace{\sum_{y}^n \binom{n}{y} p^{y} (1-p)^{n-y}}_{=1} +np\\ &= n^2p^2-np^2+np. \end{align*} Oleh karena itu terbukti $\sigma^2_X = np(1-p)$ (Lihat Tirta 2003).

Ilustrasi dengan R

Pada bagian ini disajikan grafik fungsi peluang dari distribusi Binomial dengan berbagai ukuran parameter $n,p$. Ilustrasi ini pada dasarnya dibuat dengan R. Pembaca dapat menguban nilai $N,n,p$ dan warna grafik sesuai keinginan. Untuk kegiatan penyajian dan eksplorasi data lihat Tirta 2014

Gambar 1. Fungsi peluang distribusi Bin$(n,p$).

Kita juga dapat membangkitkan data dengan ukuran dan sebagian ( ) dari data yang dibangkitkan ($\leq N$) adalah:

Hasil perhitungan beberapa statistik yang penting dari keseluruhan sampel adalah seperti berikut:


Sementara grafik histogram dari kseluruhan data adalah
Gambar 2. Histogram data berdistribusi Binomial.

Distribusi Geometrik

Adakalanya dalam percobaan Bernoulli, yang diamati adalah benyaknya percobaan yang terjadi sampai muncul satu (1) $s$. Tentu saja percobaan yang dilakukan menggunakan asumsi bahwa dia diulang secara saling bebas. Misalkan untuk munculnya 1 $s$ diperlukan sebanyak $x$ percobaan, maka pada konsisi ini:

    paling tidak diperlukan 1 percobaan, tetapi tidak ada batasan maksimum banyaknya percobaan yang akan menghasilkan 1 $s$. Jadi $x \in R_x=\{1,2,\cdots\};$
    hasil terakhir adalah $s$, sedangkan hasil sebelumnya adalah $g$, sehingga dapat digambarkan sebagai \begin{equation} \underbrace{g\;g\;g\;\cdots\;g}_{x-1}\;s; \label{s:geom} \end{equation}
    total peluang pada saat itu adalah $p(1-p)^{x-1}=pq^{x-1}$.

Peubah acak yang memenuhi kondisi di atas dikatakan berdistribusi Geometrik dengan parameter $p$. Secara formal distribusi Geometrik dapat didefinisikan seperti berikut ini.

Peubah acak X dikatakan berdistribusi Geometrik dengan parameter p, dinotasikan dengan Geo(p), jika memiliki fungsi kepadatan peluang \begin{equation} P(X=x)=\begin{cases} p(1-p)^{x-1}& \text{ untuk } x=1,2,3,\cdots, \\ 0 & \text{ untuk yang lain.} \end{cases} \end{equation}

Verifikasi terhadap fungsi kepadatan peluang geometrik adalah dengan menggunakan jumlah deret ukur turun tak hingga dengan suku awal $p$ dan rasio $q=(1-p)$. Mean dan varians dari $X$ yang berdistribusi $Geo(p)$ adalah seperti pada teorema berikut.

$X$ berdistribusi geometrik, maka \[\mu_X=\frac{1}{p} \text{ dan } \sigma^2_X=\frac{q}{p^2}=\frac{1-p}{p^2}.\]

Beberapa buku teks melakukan reparameterisasi terhadap definisi distribusi Geometrik (termasuk yang diimplementasikan ke program R) dengan mensubstitusikan $Y=X-1$ seperti berikut Peubah acak Y dikatakan berdistribusi Geometrik dengan parameter p, dinotasikan dengan Geo(p), jika memiliki fungsi kepadatan peluang \begin{equation} P(Y=y)=\begin{cases} p(1-p)^{y}& \text{ untuk } y=0,1,2,3,\cdots, \\ 0 & \text{ untuk yang lain.} \end{cases} \end{equation}

Mean $Y$ menjadi(buktikan !): $$\mu_Y= \frac{1}{p}-1 $$ Cara lain memaknai reparameterisasi ini adalah bahwa yang diamatiadalah banyaknya kegagalan (munculnya gagal) sebelum mencapa satu sukses yang diharapkan. Dlam kondisi ini

Ilustrasi dengan R

Distribusi Geometri lebih sederhana dari distribusi Binomial dan hanya memiliki satu parameter $p$

Gambar 3. Fungsi peluang distribusi Geo$(p$).

Kita juga dapat membangkitkan data dengan ukuran dan sebagian ( ) dari data yang dibangkitkan ($\leq N$) adalah:

Hasil perhitungan beberapa statistik yang penting dari keseluruhan sampel adalah seperti berikut:


Sementara grafik histogram dari kseluruhan data adalah
Gambar 4. Histogram data berdistribusi Geometrik.

Distribusi Binomial Negatif

Sebagai generalisasi dari distribusi Geometrik, ada kalanya yang ingin diamati adalah banyaknya ulangan sampai munculnya $r \ge 1$ sukses. Misalkan untuk menghasilkan $r$ sukses diperlukan $x$ ulangan, maka pada kondisi ini berlaku:
    1. paling tidak diperlukan $r$ ulangan, tetapi tidak ada batas maksimum; Jadi $x\in R_x=\{r,r+1,r+2,\cdots\}$;
    2. pada saat itu hasil terakhir adalah $s$, tetapi pada ulangan sebelumnya (sebanyak $x-1$) ada sebanyak $r-1$ sukses ($s$) dan sisanya adalah $g$. Jadi peluangnya adalah $$p p^{r-1}q^{x-1-(r-1)}=p^r q^{x-r}; $$
sukses dan gagal pada $x-1$ ulangan sebelumnya menyebar mengikuti prinsip permutasi dengan jumlah $x-1$ unsur, terdiri atas dua jenis, masing- masing sebanyak $r-1$ unsur $s$ dan $x-r$ unsur $g$; jadi ada $\displaystyle\left(\begin{array}{cc} x-1 \\ r-1 \end{array}\right)$ macam susunan $s$ dan $g.$

Deninisi: Peubah acak $X$ dikatakan berdistribusi Binomial Negatif, jika mempunyai fungsi kepadatan peluang \begin{equation} P(X=x)=\begin{cases} \left(\begin{array}{cc} x-1 \\ r-1 \end{array}\right)p^{r}q^{x-r} & \text{ untuk } x=r,r+1,r+2,\cdots \\ 0 &\text{ untuk yang lain.} \end{cases} \end{equation}

Beberapa buku teks (termasuk yang diimplementasikan ke R, tidak menghitung banyaknya toss yang diperlukan, tetapi jumlah gagal yang terjadi sebelum mencapai $r$ sukses. Dalam keadaan ini
    Rentang nilai $y$ adalah $0,1,2,3,\cdots$. Nilai $y=0$ berarti bahwa sukses sebanyak $r$ tidak didahului oleh gagal sama sekali (jumlah gagal 0).
    Pada saat sukses sebanyak $r$ sudah tercapai, dan didahului dengan jumlah gagal sebanyak $y$ maka
      hasil terakhir adalah sukses dan merupakan sukses ke $r$, total ada $r$ sukses dan $y$ gagal sehingga peluangnya adalah $p^r (1-p)^y$
      gagal sebanyak $y$ dan sukses sebelumnya sebanyak $r-1$ menempati urutan yang acak (yang merupakan kombinasi) dari $C(y+r-1,y)=C(y+r-1,r-1)$.

Deninisi: Peubah acak $X$ dikatakan berdistribusi Binomial Negatif, jika mempunyai fungsi kepadatan peluang \begin{equation} P(Y=y)=\begin{cases} \left(\begin{array}{cc} y+r-1 \\ r-1 \end{array}\right)p^{r}q^{y} & \text{ untuk } y=0,1,2,\cdots \\ 0 &\text{ untuk yang lain.} \end{cases} \end{equation}

Dengan menggunakan definisi fungsi Gamma untuk bilangan bulat $\Gamma(n)=(n-1)!$, maka \begin{equation} P(Y=y)=\begin{cases} \frac{ \Gamma(y+r)}{ \Gamma(r) y!} p^{r}q^{y} & \text{ untuk } y=0,1,2,\cdots \\ 0 &\text{ untuk yang lain.} \end{cases} \end{equation}

Distribusi Hipergeomertrik

Misalkan suatu kotak berisi dua jenis bola ($A$ dan $B$). Seluruhnya berjumlah $N$ bola, $m$ buah merupakan bola jenis $A$. Diambil (sekaligus, atau satu- satu tanpa pengembalian) $n$ buah bola. Dicari peluang bahwa yang terambil adalah $x$ bola jenis $A$. Untuk menyelesaikan persoalan ini perlu diperhatikan hal-hal berikut:
  1. secara keseluruhan dari $N$ bola diambil $n$, maka akan terdapat sebanyak $\displaystyle \left(\begin{array}{c} N \\ n \end{array}\right)$ macam jenis kumpulan $n$ unsur;
  2. dari $m$ bola jenis $A$ diambil $x$ buah, berarti ada sebanyak $\displaystyle \left(\begin{array}{c} m \\ x \end{array}\right)$ cara pengambilan bola $A.$
  3. sementara itu selebihnya $(n-x)$ diambil dari $N-m$ bola jenis $B$, sehigga untuk pengambilan bola $B$ ada sebanyak $\displaystyle \left(\begin{array}{c} N-m \\ n-x \end{array}\right)$ cara;
  4. gabungan pengambilan seluruh $n$ bola $A$ atau $B$ menghasilkan $\displaystyle \left(\begin{array}{c} m \\ x \end{array}\right)$ $\displaystyle \left(\begin{array}{c} N-m \\ n-x \end{array}\right)$ cara.
Peubah acak yang memenuhi syarat di atas dikatakan berdistribusi hipergeometrik. Secara formal dapat dirumuskan definisinya seperti berikut ini.
\label{df:d.hiperg} Peubah acak $X$ dikatakan berdistribusi hipergeometrik dengan parameter $N,n$ dan $r$, dinotasikan $HG(N,m,n),$ jika mempunyai fungsi kepadatan peluang \begin{equation} P(X=x)= \begin{cases} \frac{\left(\begin{array}{c} m \\ x \end{array}\right)\left(\begin{array}{c} N-m \\ n-x \end{array}\right)}{\left(\begin{array}{c} N \\ n \end{array}\right)} & x=0,1,2,\cdots,n;\; x\le m \text{ dan } \\ & n-x \le N-m \\ 0 & \text{ untuk yang lain. } \end{cases} \end{equation}
Grafik distribusi hipergeometri dengan $N=10,m=7,n=5$ diberikan pada Gambar.
Gambar 3. Fungsi peluang distribusi Geo$(p$).

Kita juga dapat membangkitkan data dengan ukuran dan sebagian ( ) dari data yang dibangkitkan ($\leq N$) adalah:

Hasil perhitungan beberapa statistik yang penting dari keseluruhan sampel adalah seperti berikut:


Sementara grafik histogram dari kseluruhan data adalah
Gambar 4. Histogram data berdistribusi HiperGeometrik.

Distribusi Poisson

Penurunan definisi distribusi Poisson melalui proses Poisson dapat dilihat pada Meyer, namun di sini akan diberikan definisi secara aksiomatik dengan menggunakan ekspansi deret dari eksponensial. Dengan sedikit modifikasi, kita tahu bahwa $$ e^\lambda =\sum_{x=0}^\infty \frac{\lambda^x}{x!}$$ yang ekuivalen dengan $$1 = \sum_{x=0}^\infty \frac{e^{-\lambda}\lambda^x}{x!}. $$ Jumlah 1 menunjukkan bahwa bentuk $\displaystyle \frac{e^{-\lambda}\lambda^x}{x!}$ yang nonnegatif dapat dijadikan fungsi kepadatan peluang. Peubah acak yang memiliki fungsi peluang ini yang dikatakan memiliki distribusi Poisson.

Peubah acak $X$ dikatakan berdistribusi Poisson dengan parameter $\lambda$, dinotasikan $Poisson(\lambda)$, jika mempunyai fungsi kepadatan peluang berikut \begin{equation} P(X=x)=p(x)=\left\{\begin{array}{cl} \frac{e^{-\lambda}\lambda^x}{x!} & \text{untuk } x=0,1,2,... \\ 0 & \mbox{untuk yang lain} \end{array}\right. \end{equation}

Jika $X$ berdistribusi Poisson dengan parameter $\lambda$, maka $\mu_X=\sigma^2_X=\lambda.$

Hubungan distribusi Poisson dengan Binomial

Dalam kondisi tertentu, distribusi binomial dapat didekati dengan distribusi Poisson. Distribusi binomial akan bisa didekati dengan distribusi Poisson jika: $n$ pada distribusi binomial relatif besar, yaitu $n\to \infty$ dan $p$ relatif kecil (berarti $1-p\approx 1$), sehingga $np$ relatif konstan dan $np \approx np(1-p)$. Jadi mean relatif sama dengan varians dan $\lambda=np$ atau $p=\lambda/n$. Selanjutnya secara matematika dapat ditunjukkan bahwa peluang pertama pada distribusi binomial (untuk $x=0$) dapat dituliskan sebagai \begin{align*} P(X=0)&=(1-p)^n \\ &= \left(1-\frac{\lambda}{n}\right)^n\\ &= e^{-\lambda.} \end{align*} selanjutnya dapat ditunjukkan bahwa \begin{align*} P(X=x)=B(x)&\approx \frac{\lambda^x}{x!} e^{-\lambda} \\ &\approx P(x) \end{align*} Secara formal dapat dinyatakan dengan teorema berikut.

Jika $X$ berdistribusi $Bin(n,p)$ dengan $n\to \infty$ dan $p\to 0$, maka $X$ mendekati berdistribusi Poisson dengan parameter $\lambda=np.$

Secara emperik pendekatan ini dapat diilustrasikan dengan menggunakan simulasi, untuk kedua jenis distribusi.

Rangkuman

Mean distribusi binomial $Bin(n,p)$ adalah $\mu_X= np.$ Untuk distrubusi geometrik yang sudah menggunakan reparameterisasi/ transformasi $Geo(p)$ memiliki mean $\mu_Y= \frac{1}{p}-1. $ Sedangkan distribusi poisson dengan parameter $\lambda$ memiliki mean $\mu_X=\lambda$

Dari apa yang telah dibahas di atas dapat dirangkum bahwa bentuk fungsi kepadatan, qq-plot dan histogram dari distribusi Binomial, dan geometrik adalah seperti berikut ini.

Gambar x. Grafik Fungsi Peluang dan Histogram beberapa Distribusi
Ringkasan statistika dari data yang dibangkitkan adalah seperti berikut ini

Tugas

    1. Bagaimana hubungan antara bentuk fungsi kepadatan (terutama kesimetrisan) dengan besarnya parameter $p$, untuk distribusi Binomial, Geometri, dan Negatif Binomial ?
    2. Bagaimana hubungan antara bentuk fungsi kepadatan dengan besarnya parameter $\lambda$, untuk distribusi Poisson ?
    2. Untuk nilai $n,p,\lambda$ berapa anda melihat distribusi Binomial cukup dekat dengan Poisson ?

Sumber Bacaan Teori:

    [1] Tirta, IM 2003. Pengantar Statistika Matematika (Diktat Kuliah). Jurusan Matematika FMIPA UNiversitas Jember
    [2] Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. Unej Press
    [3] Sahbaba B. 2012. Chapter 3. Data Exploration Biostatistics with R . Springer
    [4] Ramachandran KM. and Tsokos CP. 2012. Mathematical Statistics With Aplication . Academic Press
    [5] Wikipedia. Normality Test http://en.wikipedia.org/wiki/Normality_test [Akses 28 Oktober 2014]
Naskah ini dibuat dengan tujuan utama sebagai dokumen contoh (IMT).