Penelitian regresi sudah berkembang dan saat ini sampai model regresi yaitu Generalized Additive Model for Location, Scale, and Shape (GAMLSS) yang dikembangkan oleh Rigby dan Stasinopoulus, et al., (2005). GAMLSS merupakan hasil perluasan dari Generalized Additive Model (GAM) oleh karena itu GAMLSS mengakomodasi adanya fungsi pemulus atau smoothing. Salah satu teknik smoothing yang digunakan adalah estimator spline. Salah satu didalam estimator spline adalah penalized spline atau spline yang terpinalti. Djuraidah dan Aunuddin (2006) menjelaskan bahwa penalized spline memiliki dua keuntungan yaitu dari pendugaan parametrik pada regresi spline dan penyesuaian yang fleksibel terhadap tingkat kehalusan kurva yang dihasilkan dari pinalti kekasaran pada pemulus spline yang artinya memiliki ukuran parameter pengahalus sebesar $ \lambda\geq 0$.
Di era-online seperti sekarang ini, penelitian-penelitian mengenai regresi dengan membuat web interaktif tidak sulit untuk dibuat. Dalam modul online berbasis tutorial ini akan dibahas mengenai GAMLSS dengan pemulusan penalized spline. Modul ini menggunakan program R dan paket yang digunakan adalah paket gamlss yang didapat dari website GAMLSS di http://www.gamlss.com/. Modul ini juga mempermudah seseorang untuk yang kurang mengerti mengenai pemrograman R dan tanpa menginstal R untuk melakukan penelitian.
Model regresi merupakan suatu model yang digunakan untuk menganalisis hubungan antara variabel penjelas (prediktor) dengan variabel respon. model regresi terdapat tiga pendekatan yang digunakan untuk mengestimasi kurva regresi yaitu model parametrik, model non parametrik dan model semi parametrik
Analisis regresi sebagai kajian terhadap hubungan satu variabel yang disebut variabel yang diterangkan (variabel tidak bebas) dengan satu atau lebih variabel yang menerangkan (variable bebas). Regresi digunakan untuk mengetahui hubungan antar variabel selain itu juga dapat digunakan untuk peramalan data. Menurut Budiantara (2011) menyatakan bahwa sekumpulan data berpasangan ($x_i,y_i$) dan hubungan antara keduanya disumsikan dengan mengikuti model regresi pada persamaan
$$\begin{align*}y_i=f(x_i)+\varepsilon_i,i=1,2,...,n\end{align*}$$
dengan $f(x_i)$ adalah kurva regresi dan $\varepsilon_i$ adalah error acak. Regresi parametrik terdapat asumsi yang sangat kuat dan kaku yaitu bentuk kurva regresi diketahui, misalnya linear, kuadratik, kubik ataupun yang lain
Model Regresi Non Parametrik
Model yang baik dapat dipandang dari berbagai aspek. Oleh karena itu, seorang pakar statistika diharapkan dapat memperlihatkan kearifannya, menghindari fanatisme yang berlebihan, dan menempatkan suatu persoalan pemodelan tepat pada porsinya. Berbeda dengan regresi parametrik yang tanpa disadari ada unsur pemaksaan dari peneliti, maka dalam regresi non parametrik hal itu tidak akan terjadi karena regresi non parametrik tidak memerlukan asumsi-asumsi tertentu. Menrut Budiantara (2011) dalam pandangan regresi non parametrik, biarkan data sendiri yang akan mencari bentuk estimasi dari kurva regresi. Menurut Wand dan Jones (1995) regresi non parametrik dengan n pengamatan yaitu $$\begin{align*}y_i=m(x_i)+\varepsilon_i, i=1,2,...,n\end{align*}$$ dengan $m$ adalah kurva regresi dan $\varepsilon_i$ adalah error acak. Menurut Widiardi (2014) teknik smoothing dalam model regresi non parametrik antara lain histogram, estimator kernel, deret orthogonal, estimator spline, k-NN, deret fourier, dan wavelet.
Pada prakteknya di lapangan permasalahan yang muncul pada regresi yaitu tidak semua variabel penjelas dapat didekati dengan pendekatan parametrik, sehingga pada permasalahan tersebut digunakan pendekatan non parametrik.Menurut Budiantara (2011) selain pendekatan regresi parametrik dan non parametrik ada juga statistikawan yang memandang kurva regresi dapat diklasifikasikan kedalam dua komponen yaitu komponen parametrik (bentuk regresi diketahui) dan komponen non parametrik (bentuk regresi tidak diketahui) sehingga pandangan ini memberi pendekatan regresi yang disebut semi parametrik. Secara umum model regresi semi parametrik dapat dimodelkan pada persamaan berikut, $$\begin{align*}y_i=f(x_i)+m(x_j)+\varepsilon, i=1,2,...,n , j=1,2,...,n, i \neq j\end{align*}$$ Dengan $Y$ adalah variabel respon ke-$i$ , $f$ adalah kurva regresi parametrik, dan $m$ adalah kurva regesi non parametrik serta $\varepsilon$ adalah error yang bersifat acak.
Dua distribusi mungkin saja memiliki mean dan standar deviasi yang sama namun bisa sangat berbeda karena memberikan karakterisasik yang tidak unik dari distribusi. Adanya nilai skewness (kemiringan) dan kurtosis diharapkan dapat memberikan gambaran lebih lengkap dalam memahami data yang terkumpul, sehingga diharapkan model statistik yang dilakukan bisa lebih valid.
Skewness merupakan statistik yang digunakan dalam memberikan gambaran distribusi data apakah miring kekiri, kekanan atau simetris. Untuk mengukur derajat kemencengan suatu distribusi dinyatakan dengan koefesien kemencengan (koefesien skewness). Menurut Ramachandran dan Tsokos (2009) skewness didefinisikan sebagai momen ke-3 standar terhadap mean yaitu $$\begin{align*}\nu_{i}=\left(\frac{\mathbf{E[(X-\mu)]^3}}{\mathbf{\sigma^3}}\right)\end{align*}$$. Ukuran kemiringan skewness atu ukuran ketidaksimetrisan suatu distribusi data dibagi dalam 3 jenis yaitu:
Menurut Ramachandran dan Tsokos (2009) kurtosis adalah ukuran untuk menggambarkan keruncingan (peakness) atau kerataan flatness suatu distribusi data. Terdapat 3 jenis kurtosis yaitu : leptokurtis, mesokurtis, dan platikurtis. Leptokurtis yaitu bagian tengah distribusi data yang memiliki puncak yang lebih runcing (nilai keruncingan lebih dari 3), platikurtis yaitu bagian tengah data yang memiliki puncak lebih datar (nilai keruncing sama dengan 3), Leptokurtis yaitu bagian tengah distribusi data yang memiliki puncak lebih datar (nilai keruncingan kurang dari 3), dan Mesokurtis yaitu bagian tengah distribusi yang memiliki puncak diantara Leptokurtis dan Platikurtis. kurtosis dimodelkan dengan momen keempat standar terhadap mean dan dapat dinotasikan sebagai berikut $$\begin{align*}\tau=\left(\frac{\mathbf{E[(X-\mu)]^4}}{\mathbf{\sigma^4}}\right)\end{align*}$$ adapun 3 jenis kurtosis dapat diklasifikasikan sebagai berikut:
GAMLSS adalah sebuah kelas umum pada model statistik untuk variabel respon univariat yang biasa disebut model aditif umum lokasi, skala dan bentuk. GAMLSS mengasumsikan pengamatan independen dari variabel respon y, variabel penjelas, dan nilai nilai efek random. Pada GAMLSS variabel respon berasal dari distribusi keluarga eksponensial dan tambahan distribusi-distribusi lain termasuk untuk distribusi diskrit dan kontinu dengan highly skewed dan kurtosis. Untuk jenis respon cacahan, metode ini cocok untuk data yang mengalami overdispersi dengan menggunakan distribusi overdispersi untuk data diskrit. Suatu Data dikatakan mengalami overdispersi ketika $var(Y)>E(Y)$
GAMLSS mengasumsikan variabel tak bebas $y_i$ untuk $i=1,2...,n$ dengan fungsi kepadatan peluang $f(y_i|\theta)$ dengan $\theta^i=\theta_{i1},\theta_{i2},\theta_{i3},...,\theta_{in}$. $\theta$ merupakan vektor dari 4 parameter distribusi yaitu $\mu,\sigma,\nu,\tau$ yang dapat disebut sebagai fungsi dari variabel eksplanatori. Parameter $\mu$ dan $\sigma$ dikarakteristikkan sebagai parameter lokasi (location) dan skala (scale), sedangkan dua parameter lainnya yaitu disebut sebagai parameter skewness ($\nu$) dan kurtosis ($\tau$) yang tergabung dalam parameter ukuran (shape). Rigby dan Stasinopoulos (2005) mendefinisikan model dari GAMLSS yaitu misalkan $$y^T=y_1,y_2,...,y_n$$ dengan n adalah panjang vektor dari variabel respon $k=1,2,3,4$ dan $g_{k(.)}$ diketahui sebagai fungsi link monotonik yang menghubungkan antara parameter distribusi dengan variabel eksplanatori, maka $$g_{k}(\theta_k)=\eta_k=X_{k}\beta_{k}+\Sigma_{j=1}^{Jk}Z_{jk}\gamma_{jk}$$ jika $Z_{jk}=I_n$, dengan $I_n$ adalah matriks identitas berukuran $n \times n$ dan $\gamma_{jk}=h_{jk}=h_{jk}(x_{jk})$ untuk semua kombinasi dari $j$ dan $k$ pada persamaan$(2)$, maka didapat bentuk lain dari GAMLSS yang dapat dituliskan sebagai berikut: $$g_{k}(\theta_k)=\eta_k=X_{k}\beta_{k}+\Sigma_{j=1}^{Jk}h_{jk}(x_jk)$$ $$g_{1}(\mu)=\eta_1=X_{1}\beta_{1}+\Sigma_{j=1}^{J1}h_{j1}(x_j1)$$ $$g_{2}(\sigma)=\eta_2=X_{2}\beta_{2}+\Sigma_{j=1}^{J2}h_{j2}(x_j2)$$ $$g_{3}(\nu)=\eta_3=X_{3}\beta_{3}+\Sigma_{j=1}^{J3}h_{j3}(x_j3)$$ $$g_{4}(\tau)=\eta_4=X_{4}\beta_{4}+\Sigma_{j=1}^{J4}h_{j4}(x_j4)$$ dimana $\mu,\sigma,\nu,\tau$,dan $\eta_k$ sebagai vektor dengan panjang $n$, $\beta_k^T$ sebagai vektor parameter, $X_k$ sebagai matriks berukuran $n \times J'_k$ dan $h_{jk}$ sebagai fungsi smooth non parametrik dari variabel ekspalanatori $X_k$ dan $h_{jk}=h_{jk}(x_{jk})$ adalah sebuah vektor yang mengevaluasi fungsi $h_{jk}$ terhadap $x_{jk}$
Misalkan terdapat $n$ data berpasangan $\{(x_1y_1),(x_2y_2),...,(x_ny_n)\}$ mengikuti model regresi $$y_i = f(x_1) + \epsilon_i, i=1,2,...n$$ Dimana f(x_1) merupakan suatu fungsi regresi yang belum dketahui bentuknya, $y_i$ sebagai variabel respon ke-$i$ dan $\epsilon_i$ adalah error random dengan mean 0 dan variansi $\sigma^2 I$.error random dengan mean 0 dan variansi $\sigma^2 I$. Ruppert (2003) menjelaskan bahwa fungsi regresi non parametrik orde $p$ dan titik-titik knots $\kappa_1 , \kappa_2,...,\kappa_\kappa$ dan dapat dinyatakan sebagai berikut $$f(x) = \beta_0 + \beta_1x +...+\beta_px^p + \Sigma_{k=1}^K \beta_{pk}(x-\kappa_k)_+^p $$ dimana $p=1,2,...,n$. Dari fungsi diatas dapat dijadikan bentuk matriks sehingga didapatkan model sebagai berikut $$\begin{align*}f(x)= \boldsymbol{C \beta}\end{align*}$$ dengan $\mathbf{\boldsymbol{C}}=\begin{pmatrix} 1&x_1^1&x_1^2&...&x_1^p(x1-\kappa_1)_+^p&...&(x_1 - \kappa_K)\\ 1&x_2^1&x_2^2&...&x_2^p(x2-\kappa_1)_+^p&...&(x_2 - \kappa_K)\\ \vdots&\vdots&\vdots&...&\vdots&\vdots&\vdots\\ 1&x_n^1&x_n^2&...&x_n^p(xn-\kappa_1)_+^p&...&(x_n - \kappa_K) \end{pmatrix}$ dan $\mathbf{\boldsymbol{\beta}}=\begin{pmatrix} \beta_0\\ \beta_1\\ \vdots\\ \beta_{pk} \end{pmatrix}$ Dan model penalized spline dari persamaan $(9)$ dapat dituliskan sebagai $$\mathbf{\boldsymbol{\hat{y}} = \boldsymbol{C} \boldsymbol{\hat{\beta}}}$$ Estimator penalized Spline diperoleh dengan meminimumkan fungsi Penalized Least Square (PLS). PLS merupakan ukuran standar dari kesesuaian terhadap data (goodness of fit) yang terdiri dari least square $\Sigma_{i=1}^{n}(y_i - f(x_i))^2$ dan ukuran kemulusan alami $\Sigma_{k=1}^K \beta_{pk}^2$ dapat dituliskan pada persamaan $(11)$. $$\Sigma_{i=1}^n(y_i-f(x_i))^2 + \lambda \Sigma_{k=1}^K \beta_{pk}^2 , \lambda \geq 0$$ dimana $\lambda$ merupakan parameter penghalus, k merupakan jumlah knot dan p adalah orde polinomial. Selanjutnya mengenai langkah-langkah meminimumkan ungsi PLS adalah sebagai berikut
Akaike's Information Criterion (AIC) adalah metode yang berguna untuk mendapatkan model regresi terbaik yang ditemukan oleh Akaike. Menurut Stasinopoulus, et al., (2008) besarnya metode ini didasarkan pada metode Maximum Likelihood Estimation (MLE). Besarnya AIC dapat dilihat pada persamaan $(17)$. $$AIC=-2l(\hat{\theta})+2df$$ dengan $l(\hat{\theta})$ adalah nilai likelihood dari model yang dihadapi dan $df$ adalah total derajat bebas yang digunakan dalam model.
Schwarz Information Criterion (SIC) dalam statistika dikenal dengan Bayesian Information (BIC) dan Schwarz Bayesian Criterion (SBC).Menurut Stasinopoulus, et al., (2008) besarnya SIC dimodelkan pada persamaan $(18)$ $$SIC=-2l(\hat{\theta})+\log(n)df$$ dimana $n$ adalah banyaknya data. Kriteria SIC hampir sama dengan AIC yang artinya juga digunakan untuk mencari model regresi ataupun model distribusi terbaik. Model regresi ataupun distribusi terbaik adalah model regresi yang memiliki nilai SIC terkecil.
Generalized Akaike Information Criterion (GAIC) memiliki kegunaan yang sama dengan AIC maupun SIC hanya saja model yang digunakan lebih umum. Menurut Stasinopoulus, et al., (2008) besarnya GAIC dimodelkan pada persamaan $(19)$ $$GAIC=-2l(\hat{\theta})+\log(n)df$$ dimana $k$ adalah pinalti untuk setiap derajat kebebasan dalam model sehingga dapat dikatakan bahwa AIC maupun SIC adalah bagian dari GAIC. Ketika $k=2$ maka GAIC adalah AIC dan ketika Ketika $k=\log(n)$ maka GAIC adalah SIC.
Uji Pengepasan Model
Uji pengepasan diperlukan untuk mencari bagian-bagian terbaik, salah satu contohnya mencari distribusi terbaik. Uji pengepasan akan membuat model semakin cocok atau bisa dikatakan model yang dibuat memiliki nilai AIC dan SIC yang terkecil.
Distribusi histogram adalah salah satu fungsi yang ada pada paket gamlss yang berguna untuk mencari distribusi terbaik. Pada paket gamlss fungsi distribusi histogram dituliskan dengan histDist(). Distribusi yang diketahui ada didalam GAMLSS meliputi dua hal yaitu distribusi kontinu dan cacahan. Berikut adalah perbedaan gambar histDist() distribusi kontinu dan cacahan.
Ada beberapa komponen penting pada Gambar 2.1 yaitu:
Menurut Stasinopoulus,et al., (2015) worm plot dari residual diperkenalkan oleh van Buuren dan Fredriks pada tahun 2001 untuk mengidentifikasi daerah (interval) dari variabel penjelas dalam model yang tidak cocok (model violation). Fungsi worm plot pada R dituliskan dengan wp() worm plot digunakan untuk memeriksa sisa suatu model sehingga model bisa dikatakan pas atau lebih cocok. ada beberapa komponen yang penting dalam penggunaan worm plotyaitu:
Khusus untuk Import Data, File: |
Header: , | Tanda Pemisah: , | Tanda Kutipan: |
|
|
|
|
|
df yang digunakan |
derajat yang digunakan |
pilih span (nilai 0 sampai 1) |