Pemodelan Regresi Semiparametrik GAMLSS dan GAMboostLSS

Darmawanan, A. S. dan Tirta (2022)
Jurusan Matematika FMIPA Universitas Jember, 2022. Upgrade terbaru 2022

DAFTAR ISI

  1. PENDAHULUAN
  2. RINGKASAN TEORI
  3. Langkah-langkah Kerja Analisis Data
  4. Analisis Data
  5. DAFTAR PUSTAKA

PENDAHULUAN

Latar belakang

Tujuan

Pada akhir kegiatan, pengguna diharapkan
  1. Mendapatkan model regresi semiparametrik GAMLSS dengan lebih mudah;
  2. mendapatkan hasil estimasi parameter lokasi , skala dan bentuk dari model yang terbaik;

Bahasan

Materi yang dibahas dalam kegiatan ini adalah
  1. Definisi GAMLSS;
  2. estimasi parameter lokasi, skala dan ukuran dari GAMLSS;
  3. menentukan Model Terbaik

RINGKASAN TEORI

Model Regresi

Model regresi merupakan suatu model yang digunakan untuk menganalisis hubungan antara variabel penjelas (prediktor) dengan variabel respon. model regresi terdapat tiga pendekatan yang digunakan untuk mengestimasi kurva regresi yaitu model parametrik, model non parametrik dan model semi parametrik

Model Regresi Parametrik

Analisis regresi sebagai kajian terhadap hubungan satu variabel yang disebut variabel yang diterangkan (variabel tidak bebas) dengan satu atau lebih variabel yang menerangkan (variable bebas). Regresi digunakan untuk mengetahui hubungan antar variabel selain itu juga dapat digunakan untuk peramalan data. Menurut Budiantara (2011) menyatakan bahwa sekumpulan data berpasangan ($x_i,y_i$) dan hubungan antara keduanya disumsikan dengan mengikuti model regresi pada persamaan $$\begin{align*}y_i=f(x_i)+\varepsilon_i,i=1,2,...,n\end{align*}$$ dengan $f(x_i)$ adalah kurva regresi dan $\varepsilon_i$ adalah error acak. Regresi parametrik terdapat asumsi yang sangat kuat dan kaku yaitu bentuk kurva regresi diketahui, misalnya linear, kuadratik, kubik ataupun yang lain

Model Regresi Non Parametrik

Model yang baik dapat dipandang dari berbagai aspek. Oleh karena itu, seorang pakar statistika diharapkan dapat memperlihatkan kearifannya, menghindari fanatisme yang berlebihan, dan menempatkan suatu persoalan pemodelan tepat pada porsinya. Berbeda dengan regresi parametrik yang tanpa disadari ada unsur pemaksaan dari peneliti, maka dalam regresi non parametrik hal itu tidak akan terjadi karena regresi non parametrik tidak memerlukan asumsi-asumsi tertentu. Menrut Budiantara (2011) dalam pandangan regresi non parametrik, biarkan data sendiri yang akan mencari bentuk estimasi dari kurva regresi. Menurut Wand dan Jones (1995) regresi non parametrik dengan n pengamatan yaitu $$\begin{align*}y_i=m(x_i)+\varepsilon_i, i=1,2,...,n\end{align*}$$ dengan $m$ adalah kurva regresi dan $\varepsilon_i$ adalah error acak. Menurut Widiardi (2014) teknik smoothing dalam model regresi non parametrik antara lain histogram, estimator kernel, deret orthogonal, estimator spline, k-NN, deret fourier, dan wavelet.

Model Regresi Semi Parametrik

Pada prakteknya di lapangan permasalahan yang muncul pada regresi yaitu tidak semua variabel penjelas dapat didekati dengan pendekatan parametrik, sehingga pada permasalahan tersebut digunakan pendekatan non parametrik.Menurut Budiantara (2011) selain pendekatan regresi parametrik dan non parametrik ada juga statistikawan yang memandang kurva regresi dapat diklasifikasikan kedalam dua komponen yaitu komponen parametrik (bentuk regresi diketahui) dan komponen non parametrik (bentuk regresi tidak diketahui) sehingga pandangan ini memberi pendekatan regresi yang disebut semi parametrik. Secara umum model regresi semi parametrik dapat dimodelkan pada persamaan berikut, $$\begin{align*}y_i=f(x_i)+m(x_j)+\varepsilon, i=1,2,...,n , j=1,2,...,n, i \neq j\end{align*}$$ Dengan $Y$ adalah variabel respon ke-$i$ , $f$ adalah kurva regresi parametrik, dan $m$ adalah kurva regesi non parametrik serta $\varepsilon$ adalah error yang bersifat acak.

Skewness dan Kurtosis

Dua distribusi mungkin saja memiliki mean dan standar deviasi yang sama namun bisa sangat berbeda karena memberikan karakterisasik yang tidak unik dari distribusi. Adanya nilai skewness (kemiringan) dan kurtosis diharapkan dapat memberikan gambaran lebih lengkap dalam memahami data yang terkumpul, sehingga diharapkan model statistik yang dilakukan bisa lebih valid.

Skewness

Skewness merupakan statistik yang digunakan dalam memberikan gambaran distribusi data apakah miring kekiri, kekanan atau simetris. Untuk mengukur derajat kemencengan suatu distribusi dinyatakan dengan koefesien kemencengan (koefesien skewness). Menurut Ramachandran dan Tsokos (2009) skewness didefinisikan sebagai momen ke-3 standar terhadap mean yaitu $$\begin{align*}\nu_{i}=\left(\frac{\mathbf{E[(X-\mu)]^3}}{\mathbf{\sigma^3}}\right)\end{align*}$$. Ukuran kemiringan skewness atu ukuran ketidaksimetrisan suatu distribusi data dibagi dalam 3 jenis yaitu:

  • Simetris : menunjukkan letak nilai rata-rata, median, dan modus berimpit (berkisar disatu titik). Salah satu distribusi yang simetris adalah distribusi normal, sehingga nilai skewnessnya sama dengan 0 dan dapat dinotasikan dengan mean = median = modus atau $\nu_{i}=0$
  • Menceng ke kanan:skewness bernilai positif dimana ujung dari kecondongan menjulur kearah positif (ekor kurva sebelah kanan lebih panjang) dan dapat dinotasikan modus < median < mean atau $\nu_{i}>0$
  • Menceng ke kiri : skewness bernilai negatif dimana ujung dari kecondongan menjulur kearah negatif (ekor kurva sebelah kiri lebih panjang) dan dapat dinotasikan mean < median < modus atau $\nu_{i}< 0$
  • Kurtosis

    Menurut Ramachandran dan Tsokos (2009) kurtosis adalah ukuran untuk menggambarkan keruncingan (peakness) atau kerataan flatness suatu distribusi data. Terdapat 3 jenis kurtosis yaitu : leptokurtis, mesokurtis, dan platikurtis. Leptokurtis yaitu bagian tengah distribusi data yang memiliki puncak yang lebih runcing (nilai keruncingan lebih dari 3), platikurtis yaitu bagian tengah data yang memiliki puncak lebih datar (nilai keruncing sama dengan 3), Leptokurtis yaitu bagian tengah distribusi data yang memiliki puncak lebih datar (nilai keruncingan kurang dari 3), dan Mesokurtis yaitu bagian tengah distribusi yang memiliki puncak diantara Leptokurtis dan Platikurtis. kurtosis dimodelkan dengan momen keempat standar terhadap mean dan dapat dinotasikan sebagai berikut $$\begin{align*}\tau=\left(\frac{\mathbf{E[(X-\mu)]^4}}{\mathbf{\sigma^4}}\right)\end{align*}$$ adapun 3 jenis kurtosis dapat diklasifikasikan sebagai berikut:

  • Leptokurtis jika $\tau$ > 3
  • Mesokurtis jika $\tau$ = 3
  • Platikurtis jika $\tau$ < 3
  • Generalized Additive Model for Location, Scale, dan Shape (GAMLSS)

    GAMLSS adalah sebuah kelas umum pada model statistik untuk variabel respon univariat yang biasa disebut model aditif umum lokasi, skala dan bentuk. GAMLSS mengasumsikan pengamatan independen dari variabel respon y, variabel penjelas, dan nilai nilai efek random. Pada GAMLSS variabel respon berasal dari distribusi keluarga eksponensial dan tambahan distribusi-distribusi lain termasuk untuk distribusi diskrit dan kontinu dengan highly skewed dan kurtosis. Untuk jenis respon cacahan, metode ini cocok untuk data yang mengalami overdispersi dengan menggunakan distribusi overdispersi untuk data diskrit. Suatu Data dikatakan mengalami overdispersi ketika $var(Y)>E(Y)$

    Definisi GAMLSS

    GAMLSS mengasumsikan variabel tak bebas $y_i$ untuk $i=1,2...,n$ dengan fungsi kepadatan peluang $f(y_i|\theta)$ dengan $\theta^i=\theta_{i1},\theta_{i2},\theta_{i3},...,\theta_{in}$. $\theta$ merupakan vektor dari 4 parameter distribusi yaitu $\mu,\sigma,\nu,\tau$ yang dapat disebut sebagai fungsi dari variabel eksplanatori. Parameter $\mu$ dan $\sigma$ dikarakteristikkan sebagai parameter lokasi (location) dan skala (scale), sedangkan dua parameter lainnya yaitu disebut sebagai parameter skewness ($\nu$) dan kurtosis ($\tau$) yang tergabung dalam parameter ukuran (shape). Rigby dan Stasinopoulos (2005) mendefinisikan model dari GAMLSS yaitu misalkan $$y^T=y_1,y_2,...,y_n$$ dengan n adalah panjang vektor dari variabel respon $k=1,2,3,4$ dan $g_{k(.)}$ diketahui sebagai fungsi link monotonik yang menghubungkan antara parameter distribusi dengan variabel eksplanatori, maka $$g_{k}(\theta_k)=\eta_k=X_{k}\beta_{k}+\Sigma_{j=1}^{Jk}Z_{jk}\gamma_{jk}$$ jika $Z_{jk}=I_n$, dengan $I_n$ adalah matriks identitas berukuran $n \times n$ dan $\gamma_{jk}=h_{jk}=h_{jk}(x_{jk})$ untuk semua kombinasi dari $j$ dan $k$ pada persamaan$(2)$, maka didapat bentuk lain dari GAMLSS yang dapat dituliskan sebagai berikut: $$g_{k}(\theta_k)=\eta_k=X_{k}\beta_{k}+\Sigma_{j=1}^{Jk}h_{jk}(x_jk)$$ $$g_{1}(\mu)=\eta_1=X_{1}\beta_{1}+\Sigma_{j=1}^{J1}h_{j1}(x_j1)$$ $$g_{2}(\sigma)=\eta_2=X_{2}\beta_{2}+\Sigma_{j=1}^{J2}h_{j2}(x_j2)$$ $$g_{3}(\nu)=\eta_3=X_{3}\beta_{3}+\Sigma_{j=1}^{J3}h_{j3}(x_j3)$$ $$g_{4}(\tau)=\eta_4=X_{4}\beta_{4}+\Sigma_{j=1}^{J4}h_{j4}(x_j4)$$ dimana $\mu,\sigma,\nu,\tau$,dan $\eta_k$ sebagai vektor dengan panjang $n$, $\beta_k^T$ sebagai vektor parameter, $X_k$ sebagai matriks berukuran $n \times J'_k$ dan $h_{jk}$ sebagai fungsi smooth non parametrik dari variabel ekspalanatori $X_k$ dan $h_{jk}=h_{jk}(x_{jk})$ adalah sebuah vektor yang mengevaluasi fungsi $h_{jk}$ terhadap $x_{jk}$

    Penalized Spline

    Misalkan terdapat $n$ data berpasangan $\{(x_1y_1),(x_2y_2),...,(x_ny_n)\}$ mengikuti model regresi $$y_i = f(x_1) + \epsilon_i, i=1,2,...n$$ Dimana f(x_1) merupakan suatu fungsi regresi yang belum dketahui bentuknya, $y_i$ sebagai variabel respon ke-$i$ dan $\epsilon_i$ adalah error random dengan mean 0 dan variansi $\sigma^2 I$.error random dengan mean 0 dan variansi $\sigma^2 I$. Ruppert (2003) menjelaskan bahwa fungsi regresi non parametrik orde $p$ dan titik-titik knots $\kappa_1 , \kappa_2,...,\kappa_\kappa$ dan dapat dinyatakan sebagai berikut $$f(x) = \beta_0 + \beta_1x +...+\beta_px^p + \Sigma_{k=1}^K \beta_{pk}(x-\kappa_k)_+^p $$ dimana $p=1,2,...,n$. Dari fungsi diatas dapat dijadikan bentuk matriks sehingga didapatkan model sebagai berikut $$\begin{align*}f(x)= \boldsymbol{C \beta}\end{align*}$$ dengan $\mathbf{\boldsymbol{C}}=\begin{pmatrix} 1&x_1^1&x_1^2&...&x_1^p(x1-\kappa_1)_+^p&...&(x_1 - \kappa_K)\\ 1&x_2^1&x_2^2&...&x_2^p(x2-\kappa_1)_+^p&...&(x_2 - \kappa_K)\\ \vdots&\vdots&\vdots&...&\vdots&\vdots&\vdots\\ 1&x_n^1&x_n^2&...&x_n^p(xn-\kappa_1)_+^p&...&(x_n - \kappa_K) \end{pmatrix}$ dan $\mathbf{\boldsymbol{\beta}}=\begin{pmatrix} \beta_0\\ \beta_1\\ \vdots\\ \beta_{pk} \end{pmatrix}$ Dan model penalized spline dari persamaan $(9)$ dapat dituliskan sebagai $$\mathbf{\boldsymbol{\hat{y}} = \boldsymbol{C} \boldsymbol{\hat{\beta}}}$$ Estimator penalized Spline diperoleh dengan meminimumkan fungsi Penalized Least Square (PLS). PLS merupakan ukuran standar dari kesesuaian terhadap data (goodness of fit) yang terdiri dari least square $\Sigma_{i=1}^{n}(y_i - f(x_i))^2$ dan ukuran kemulusan alami $\Sigma_{k=1}^K \beta_{pk}^2$ dapat dituliskan pada persamaan $(11)$. $$\Sigma_{i=1}^n(y_i-f(x_i))^2 + \lambda \Sigma_{k=1}^K \beta_{pk}^2 , \lambda \geq 0$$ dimana $\lambda$ merupakan parameter penghalus, k merupakan jumlah knot dan p adalah orde polinomial. Selanjutnya mengenai langkah-langkah meminimumkan ungsi PLS adalah sebagai berikut

    1. mengubah $\Sigma_{i=1}^n(y_i-f(x_i))^2$ kedalam bentuk matriks $$\Sigma_{i=1}^n(y_i-f(x_i))^2 = \boldsymbol{y^Ty-2\beta^T C^T C \beta+\beta^TC^T\beta}$$
    2. Mengubah $\Sigma_{k=1}^K\beta_{pk}^2=\beta_{p1}^2+\beta_{p2}^2+...+\beta_{pK}^2$. Jika diasumsikan ada $\boldsymbol {D}$ yang merupakan suatu matriks diagonal didefinisikan sebagai berikut. $ \mathbf{\boldsymbol{D}}=\begin{pmatrix} a_11&0&...&0\\ 0&a_22&...&0\\ \vdots&\vdots&...&\vdots\\ 0&0&...&a_{(pK+1)(pK+1)} \end{pmatrix} $ dengan $a_{11} = a_{22} =...=a_{pp}=a_{(p+1)(p+1)}=0$ dan $a_{(p+2)(p+2)} =...= a_{(pK+1)(pK+1)=1} $ jika fungsi $\Sigma_{k=1}^K\beta_{pk}^2$ dituliskan dalam bentuk matriks, maka: $$ \Sigma_{k=1}^K\beta_{pk}^2=\begin{pmatrix} \beta_0&\beta_1&...&\beta_{pK}\end{pmatrix} \begin{pmatrix} a_11&0&...&0\\ 0&a_22&...&0\\ \vdots&\vdots&...&\vdots\\ 0&0&...&a_{(pK+1)(pK+1)} \end{pmatrix} \begin{pmatrix} \beta_0\\ \beta_1\\ \vdots\\ \beta_{pK} \end{pmatrix}=\beta^TD\beta $$ sehingga dari persamaan $(12)$ dan $(13)$ yang disubtitusi ke persamaan $(11)$ yaitu fungsi PLS dapat dituliskan pada persamaan $(14)$ $$\boldsymbol{L=y^Ty-2\beta^TC^Ty+\beta^TC^T\beta+\lambda\beta^TD\beta}$$ Nilai $\boldsymbol{\hat{\beta}}$ dapat diperoleh dengan meminimumkan persamaan. Syarat perlu agar persamaan $\boldsymbol{L}$ minimum adalah $\frac{\delta L}{\delta \beta}$ sehingga diperoleh $$\boldsymbol{\hat{\beta}=(C^TC+\lambda D)^{-1}C^Ty}$$. Subtitusi persamaan $(15)$ ke persamaan $(11)$ sehingga didapatkan persamaan $(16)$ $$\boldsymbol{\hat{y}=C(C^TC+\lambda D)^{-1}C^Ty}$$ model diatas merupakan model estimator penalized spline

    Akaike's Information Criterion (AIC), Schwarz Information Criterion (SIC), dan Generalized Akaike Information Criterion (GAIC)

    Akaike's Information Criterion (AIC) AIC

    Akaike's Information Criterion (AIC) adalah metode yang berguna untuk mendapatkan model regresi terbaik yang ditemukan oleh Akaike. Menurut Stasinopoulus, et al., (2008) besarnya metode ini didasarkan pada metode Maximum Likelihood Estimation (MLE). Besarnya AIC dapat dilihat pada persamaan $(17)$. $$AIC=-2l(\hat{\theta})+2df$$ dengan $l(\hat{\theta})$ adalah nilai likelihood dari model yang dihadapi dan $df$ adalah total derajat bebas yang digunakan dalam model.

  • Model regresi terbaik adalah model regresi yang memiliki nilai AIC terkecil. Menurut (Fathurahman,2009) kelebihan AIC terletak pada pemilihan model regresi terbaik untuk tujuan (forecasting) yaitu dapat menjelaskan kecocokan model dengan data yang ada
  • Schwarz Information Criterion (SIC)

    Schwarz Information Criterion (SIC) dalam statistika dikenal dengan Bayesian Information (BIC) dan Schwarz Bayesian Criterion (SBC).Menurut Stasinopoulus, et al., (2008) besarnya SIC dimodelkan pada persamaan $(18)$ $$SIC=-2l(\hat{\theta})+\log(n)df$$ dimana $n$ adalah banyaknya data. Kriteria SIC hampir sama dengan AIC yang artinya juga digunakan untuk mencari model regresi ataupun model distribusi terbaik. Model regresi ataupun distribusi terbaik adalah model regresi yang memiliki nilai SIC terkecil.

    Generalized Akaike Information Criterion (GAIC)

    Generalized Akaike Information Criterion (GAIC) memiliki kegunaan yang sama dengan AIC maupun SIC hanya saja model yang digunakan lebih umum. Menurut Stasinopoulus, et al., (2008) besarnya GAIC dimodelkan pada persamaan $(19)$ $$GAIC=-2l(\hat{\theta})+\log(n)df$$ dimana $k$ adalah pinalti untuk setiap derajat kebebasan dalam model sehingga dapat dikatakan bahwa AIC maupun SIC adalah bagian dari GAIC. Ketika $k=2$ maka GAIC adalah AIC dan ketika Ketika $k=\log(n)$ maka GAIC adalah SIC.

    Uji Pengepasan Model

    Uji pengepasan diperlukan untuk mencari bagian-bagian terbaik, salah satu contohnya mencari distribusi terbaik. Uji pengepasan akan membuat model semakin cocok atau bisa dikatakan model yang dibuat memiliki nilai AIC dan SIC yang terkecil.

    Distribusi Histogram

    Distribusi histogram adalah salah satu fungsi yang ada pada paket gamlss yang berguna untuk mencari distribusi terbaik. Pada paket gamlss fungsi distribusi histogram dituliskan dengan histDist(). Distribusi yang diketahui ada didalam GAMLSS meliputi dua hal yaitu distribusi kontinu dan cacahan. Berikut adalah perbedaan gambar histDist() distribusi kontinu dan cacahan.

    Ada beberapa komponen penting pada Gambar 2.1 yaitu:

    • sumbu horisontal merupakan data pada variabel respon
    • sumbu vertikal merupakan frekuensi dari data (banyaknya data yang muncul) semakin sering muncul suatu data tertentu maka frekuensinya semakin tinggi
    • Kurva merah (a) atau garis merah (b) merupakan probability function distribution (pdf) hanya saja (a) adalah distribusi kontinu dan (b) adalah cacahan. Distribusi dikatakan cocok jika pdf mengikuti data yang diberikan.

    Worm Plot

    Menurut Stasinopoulus,et al., (2015) worm plot dari residual diperkenalkan oleh van Buuren dan Fredriks pada tahun 2001 untuk mengidentifikasi daerah (interval) dari variabel penjelas dalam model yang tidak cocok (model violation). Fungsi worm plot pada R dituliskan dengan wp() worm plot digunakan untuk memeriksa sisa suatu model sehingga model bisa dikatakan pas atau lebih cocok. ada beberapa komponen yang penting dalam penggunaan worm plotyaitu:

    • Titik-titik bewarna emas dari worm plot : titik ini menunjukkan sebarapa jauh residual pada model. Nilai harapan dari titik-titik diwakili dengan adanya garis horisontal putus-putus bewarna merah
    • Wilayah ditengah-tengah kurva elliptic adalah wilayah dengan tingkat keyakinan 95%. Jika model ini benar diharapkan sekitar 95% dari titik-titik diantara dua kurva elliptic dan 5% titik-titik berada diluar.
    • Kurva berwarna merah yang terpasang pada data : Kurva ini merupakan pengepasan kurva kubik tehadap titik-titik dari worm plot. Kurva ini juga mencerminkan kekurangan pada model, semakin terlihat kubik suatu kurva maka model semakin tidak cocok.

    Langkah-Langkah Kerja Analisis Data

    • Input Data
    • Menentukan Distribusi
    • Menentukan Bagian Parametrik dan Non Parametrik
    • Melakukan Pemodelan GAMLSS
    • Melakukan Uji Signifikansi

    Analisis Data

    Pilih Data


    Pilihan Data

    Khusus untuk Import Data, File:
    Selanjutnya pilih kelengkapan berikut sesuai dengan kondisi data yang diimpor
    Header: , Tanda Pemisah: , Tanda Kutipan:

    Tampilan Data

    Data bisa ditampilkan dalam bentuk format :
    
      
    
      

    Pemilihan Distribusi

    Pilih Variabel Respon
    
    
    Distribusi
    Plot gambar
    Gambar 1. Hasil Plot Histogram Distribusi

    Cara Pemilihan bagian Parametrik dan Non Parametrik


    1. Scatterplot
    Hasil dari scatterplot akan memberikan gambaran mengenai hubungan kelinieran dari variabel respon dengan semua variabel prediktor yang ada pada data. Pemilihan variabel prediktor yang akan dimodelkan dengan non parametrik menggunakan scatterplot merupakan variabel prediktor yang tidak atau kurang linier.


    Gambar 2. Diagram Pencar Variabel dengan Diagonal

    Model Semiparametrik dengan menggunakan GAMLSS

    Evaluasi variabel yang dipilih:



    Jenis Smoother

    Jika Memilih keluarga spline silahkan pilih:

    df yang digunakan

    Jika smoother Loess silahkan pilih:

    derajat yang digunakan

    pilih span (nilai 0 sampai 1)

    Hasil Pengepasan Model

    
    
    

    Term Plot dan Worm Plot

    Pilih Plot

    khusus untuk pilihan term plot untuk memodelkan salah satu dari mu, mu, sigma, atau tau.
    silahkan pilih

    catatan : untuk Loess masih belum bisa tergambarkan secara term plot

    Uji Signifikansi

    Uji Signifikansi pada penelitian ini yang akan diuji adalah uji signifikansi parameter terhadap model regresi dengan cara :
  • Ho : tidak ada yang signifikan dari parameter regresi terhadap model regresi semi parametrik dan dapat dinotasikan $\forall\beta_j=0, j=0,1,2...,n$
  • H1 : Ada pengaruh (minimal satu) dari $\beta_j,j=0,1,2,...,n$ dan dapat dinotasikan $(\exists\beta_j\neq0,j=0,1,2,3,...n)$
  • Parameter dikatakan signifikan ketika nilai p-value < taraf nyata atau yang disebut tolak Ho sedangkan ketika p-value > taraf nyata dengan kata lain terima Ho. Taraf nyata menunjukkan seberapa ekstrim suatu data seharusnya sehingga dapat menunjukkan adanya perbedaan dengan data lainnya (tolak Ho).

    DAFTAR PUSTAKA

    1. Budiantara, I N. 2011. Penelitian Bidang Regresi Spline Menuju Terwujudnya Penelitan Statistika yang Mandiri dan Berkarakter. Seminar Nasional FMIPA Surabaya: 9-28.
    2. Djuraidah, A & Aunuddin. 2006. Pendugaan Regresi Spline Terpenalti dengan Pendekatan Model Linier Campuran. Statistika 6(1):47-54.
    3. Fathurahman, M. 2009. Pemilihan Model Regresi Terbaik Menggunakan Metode Akaike's Information Criterion dan Schwarz Information Criterion. Jurnal Informatika Mulawarman. 4(3):37-41.
    4. Ramachandran, K. M & Tsokos,C.P. 2009. Mathematical Statistic with Applications. United States of America: Academic Press.
    5. Rigby, R. A & Stasinopoulos D. M. 2005. Generalized Additive Models for Location, and Shape. Apllied Statistic. 54: 507-554.
    6. Ruppert, D., Wand, M. P., & Caroll, R. J. 2003. Cambridge Series in Statistical and Probabilistic Mathematics: Semiparametric Regression. New York: Cambridge University.
    7. Stasinopoulus,et al. 2015. Flexible Regression and Smoothing The GAMLSS Packages in R. http://www.gamlss.org/ [1 Mei 2016]
    8. Stasinopoulos, M., Bob, R., & Calliope, A. 2008. Instructions on How to Use The GAMLSS package in R Second Edition. STORM Research Centre. London: Metropolitan University.
    9. Wand, M. & Jones, M. M. C. 1995. Kernel Smoothing.London: Chapman & Hall.
    10. Widiardi, H. R. 2014. Model Regresi Nonparametrik Menggunakan Fungsi Kernel (Pada Kasus Berat Badan Balita Desa Buduran Kabupaten Sidoarjo). Jurnal Mahasiswa Statistik.2:129-132.