logoR UNEJ PONSTAT Laboratorium Statistika, FMIPA Universitas Jember Jalan Kalimantan 27 Jember 68121

LN-MS-xx: Maksimum Likelihood dan Interval Keyakinan

Pondok Web, for Practicing & Learning Online Statistics where R, LaTeX, and Java gather friendly, ready to assist
oleh I Made Tirta, Jurusan Matematika FMIPA Universitas Jember


Hit Counter
Hit Counter

Fungsi Likelihood dan Maksimum Likelihood (Under Construction !!!???)

Fungsi Likelihood Distribusi

Perhatikan fungsi kepadatan peubah acak $X$ yang berdistribusi normal, $N(\mu,\sigma)$ $$f(x|\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left[-0.5\left(\frac{x-\mu}{\sigma}\right)^2\right]$$ dengan $x\in R_X$, $\mu,\sigma$ adalah konstanta yang diketahui $\mu\in \Re$ $\sigma \in \Re^+$. Dalam konteks fungsi kepadatan parameter $\mu,\sigma$ dan Range space $R_X$ adalah nilai yang diketahui, sedangkan fungsinya mencari nilai peluang pada suatu nilai $X=x$ tertentu.

Dalam konteks statistika inferensia, kondisinya berbeda, kita memiliki data yang mewakili pengamatan peubah acak $X$, yaitu ${x_1,x_2,\cdots,x_n}$, sedangkan nilai $\mu$ dan $\sigma$ akan dicari (diestimasi) berdasarkan informasi yang ada pada data. Oleh karena itu persamaan sedikit berubah menjadi fungsi likelihood untuk satu pengamatan $x_i$ $$l_i(\mu,\sigma|x_i)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left[-0.5\left(\frac{x_i-\mu}{\sigma}\right)^2\right]$$ dengan $X$ adalah data yang diketahui. Sedangkan secara keseluruhan menjadi $L=\prod_{i=1}^n l_i, \text{ atau dalam bentuk log menjadi }\, \ell=\log L = \sum_{i=1}^n \log(l_i) $ $$\ell =-n\log\left(\sigma\sqrt{2\pi}\right)-\frac{1}{2}\sum_{i=1}^n \left(\frac{x_i-\mu}{\sigma}\right)^2$$

Salah satu cara mencari penduga $\mu$ dan penduga $\sigma$ adalah dengan memaksimumkan fungsi likelihood atau Log-likelihood terhadap $\mu$ dan $\sigma$. Cara ini dikenal dengan Maksimum Likelihood. Dalam teori (banyak referensi), dengan menggunakan kalkukus sederhana, telah diturunkan bahwa penduga likelihood dari mean adalah nilai rata-rata sampel, $$\hat{\mu}=\frac{1}{n}\sum_{i=1}^nx_i=\bar{x}$$ yang telah dibuktikan bersebaran Gaussian dengan kesalahan baku $se_{\bar{x}}=\frac{\sigma}{\sqrt{n}}$ dengan kata lain $$\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$$ atau jika $\sigma$ tidak diketahui, diganti dengan $\hat{\sigma}=S=\sqrt{ \frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}}$ maka $$\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t_{n-1}$$.

Dengan menggunakan sifat-sifat ekspektasi dapat ditunjukkan bahwa $E(\bar{X})=\mu$ yang berarti penduga ini bersifat tidk bias Bentuk formula kesalahan baku ini juga menunjukkan, varians dari $\bar{X}=\hat{\mu}$ semakin kecil jika $n$ semain besar, yang berarti pendga ini bersifat konsisten. Akurasi estimasi dapat ditingkatkan (kesalahan baku dapat diperkecil) dengan meningkatkan $n$ atau memperkecil $\sigma$ (jika dimungkinkan).

Sementara itu penduga maksimum likelihood dari deviasi baku bersifat bias. Oleh karena it penduga deviasi baku umumnya tidak diturunkan dari penduga likelihood (karena selain bias, juga jika menggunakan iterasi lebih sulit konvergen) dan lebih sering digunakan penduga momen, yaitu dengan mengambil deviasi baku dari sampel, $S=\sqrt{\frac{\sum (x_i-\bar{x})^2}{n-1}}$.

Data Sampel

Misalkan kita memiliki data dari peubah acak yang diasumsikan berasal dari sebaran normal /Gaussian dengan parameter seperti berikut:
NSample: ; Mean Populasi: ; Variance (positif): ;
Informasi tentang data tersebut dapat dilihat dalam ringkasan maupun histogram berikut
Luaran Ringkasan Data Sampel
Histogram Sampel

Likelihood

Kontur likelihood distribusi dengan dua parameter $(\mu,\sigma^2)$

Perspektif: theta: ; phi: ; jarak: ; Kontur: ; Kontur Likelihood terhadap $\mu, \sigma^2$. Secara visual dapat ditentukan maksimumnya $\hat{\mu},\hat{\sigma^2}$ (merah)dan posisi terhadap $\mu,\sigma^2$ pupulasi (hijau).
Grafik Likelihood terhadap $\mu,$. Secara visual dapat ditentukan maksimumnya $\hat{\mu}$ dan posisi terhadap $\mu$ pupulasi.
Catatan:
  1. Akurasi estimasi dapat ditingkatkan dengan menambah $n$ atau mengurangi $\sigma$.
  2. Posisi perspektif dan ketajaman kontur bisa diubah dengan mengubah parameter yang bersesuaian (silakan dieksplorasi), sehingga nilai ekstirmnya lebih terlihat

Interval Keyakinan

Banyaknya sampling: ; Tingkat Keyakinan (90%-99%): ;

Fungsi Likelihood Regresi

Model dalam regresi normal sederhana dengan 2 parameter (1 prediktor) dapat dituliskan sebagai berikut $$y_i=\beta_0+\beta_1x_i+e_i$$ dengan syarat untuk semua $i=1,2,\cdots, n$ galat $e_i\sim \text{i.i.d} N(0,\sigma^2)$, sedangkan $x_i$ diperlakukan sebagai prediktor yang bukan bersifat acak. Dari sini akan dapat diturunkan bahwa
  1. $y_i\sim N(\mu_i,\sigma), \text{ dengan } \mu_i=\beta_0+\beta_1 x_i$
  2. $L_i=\frac{1}{\sigma\sqrt{2\pi}}\exp\left[-\frac{1}{2}\left(\frac{y_i-(\beta_0+\beta_1x_i)}{\sigma}\right)^2\right]$, untuk $x_i$ dan $y_i$ yang diketahui (data).
  3. Fungsi log-likelihood dari keseluruhan data adalah $$\ell =n\log \left(\frac{1}{\sigma\sqrt{2\pi}}\right)-\frac{1}{2}\sum_{i=1}^n \left[\left( \frac{y_i-(\beta_0+\beta_1x_i)}{\sigma}\right)^2\right]$$. Fungsi log-likelihood ini selanjutnya dimaksimumkan terhadap $\beta_0$ dan $\beta_1$
  4. dengan mencari turunan pertama dan menyamakan dengan nol.

Data Regresi

Diagram pencar data regresi
$n$-sampel: ; $\beta_0$: ; $\beta_1$: ; $\sigma$: ;
Bentuk likelihood dari data terhadap $\beta_0$ dan $\beta_1$ dapat dilihat seperti berikut ini
Likehihood parameter regresi
Kontur: ; Perspektif: theta: ; phi: ; jarak: ;

Fungsi Kuadrat Terkecil dari Regresi

Selain dengan likelihood, estimasi regresi bisa juga dilakukan dengan meminimumkan fungsi jumlah kuadrat error terhadap $\beta_0$ dan $\beta_1$. $$Q=\sum_{i=1}^n \left(\frac{y_i-(\beta_0+\beta_1x_i)}{\sigma}\right)^2 $$
Kuadrat Terkecil parameter regresi
Kontur: ; Perspektif: theta: ; phi: ; jarak: ;

Rangkuman

Distribusi Kontinu

Ada tiga kelompok distribusi kontinu yang dibahas pada modul ini yaitu distribusi Normal/ Gaussian dan distribusi Gamma yang memiliki kepadatan seperti berikut ini.
  1. Distribusi $N(\mu,\sigma^2)$ $$f(x,\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right];\; -\infty < x < \infty$$ Dengan mean $\mu$ dan deviasi baku $\sigma$. Jika $\mu=0$ dan $\sigma=1$ disebut Normal Baku.
  2. Distribusi Uniform $U(a,b)$ $$f(x,a,b)=\frac{1}{b-a},\;a < x < b $$
  3. Sedangkan distribusi $G(\alpha,\beta)$ $$ f(x,\alpha,\beta)=\frac{1}{\Gamma(\alpha)\beta^\alpha} x^{\alpha-1}e^{-x/\beta};\;\alpha,\beta>0;0\leq x,$$ dengan $\Gamma(\alpha)=\int_0^\infty e^{-x}x^{\alpha-1}\; \, d x, \text{ dengan } \alpha > 0. $ Distribusi ini memilikui $\mu=\alpha\beta$ dan $\sigma^2=\alpha\beta^2$. Beberapa bentuk khusus dari distribusi Gamma adalah seperti berikut ini.

Distribusi Diskrit

  1. Distribusi Poisson $$ P(X=x)=\frac{e^{-\mu}\mu^x}{x!}, \;x=0,1,2,3,\cdots $$
Selain untuk menyajikan data, kita juga bisa menggunakan grafik untuk mendapatkan gambaran apakah data yang kita miliki bedistribusi normal. Grafik tersebut dikenal dengan nama QQNorm yang tampilannya seperti berikut ini. Grafik QQnorm ini terdiri atas data berupa titik, garis lurus sebagai acuan kenormalan, dan batas sabuk keyakinan. Apabila banyak titik-titik data yang berada di luar sabuk keyakinan, berarti datanya tidak berdistribusi normal.

Transformasi Penting

  1. Jika $X_i,\; i=1,2,...,n$ saling independen, maka $$M_Y(t)=\prod M_{X_i}(t)$$
  2. Jika $X_i,\; i=1,2,...,n$ saling independen dengan $X_i\sim N(\mu_i,\sigma^2_i)$, maka $$Y_i\sim N(\mu_Y,\sigma^2_Y)$$ dengan $Y=\sum a_iX_i,\; \mu_Y=\sum a_i\mu_i,\; \sigma_Y^2=\sum a_i^2 \sigma_i^2$
  3. Jika $ X \sim N(\mu,\sigma^2)$ maka $Z=\frac{X-\mu}{\sigma} \sim N(0,1)$
  4. Jika $X \sim N(\mu,\sigma^2)$ maka $Z^2=\left(\frac{X-\mu}{\sigma}\right)^2 \sim \chi^2_1$
  5. Jika sampel acak $X_i \sim N(\mu,\sigma^2),\;i=1,2,...,n$ maka $\sum_{i=1}^n Z_i^2=\sum_{i=1}^n \left(\frac{X_i-\mu}{\sigma}\right)^2 \sim \chi^2_n$
  6. Jika sampel acak $X_i \sim N(\mu,\sigma^2),\;i=1,2,...,n$ maka $\frac{Z}{\sqrt{\chi^2_v/v}}\sim T_v$
  7. Jika sampel acak $X_i \sim N(\mu,\sigma^2),\;i=1,2,...,n$ maka $\bar{X}=\frac{\sum X_i}{n}\sim N(\mu,\sigma^2/n)$
  8. Jika sampel acak $X_i \sim N(\mu,\sigma^2),\;i=1,2,...,n$ maka varians sampel $S^2=\frac{\sum (X_i-\bar{X})^2}{n-1}\sim \chi^2_{n-1}$

Sumber Bacaan Teori:

Mahasiswa diharapkan mengembangkan lebih lanjut pemahaman materi pada modul ini dengan membaca sumber bacaan berikut
    [1] Tirta, IM 2003. Pengantar Statistika Matematika (Diktat Kuliah). Jurusan Matematika FMIPA UNiversitas Jember
    [2] Tirta, IM. 2014. Bab 5. Eksplorasi Data. Presentasi dan Analisis Data dengan R. Unej Press
    [3] Sahbaba B. 2012. Chapter 3. Data Exploration Biostatistics with R . Springer
    [4] Ramachandran KM. and Tsokos CP. 2012. Mathematical Statistics With Aplication . Academic Press
    [5] Dodge Y. 2008. The Concise Encyclopedia of Statistics. Springer

Tugas