Secara umum dalam menangani hubungan variabel yang tidak linier ada beberapa cara diantaranya
Mengabaikan hubungan nonlinier yang tidak terlalu serius (tetap memberlakukan sebagai regresi linier)
Data dipecah menjadi beberapa segmen ( piecewise
regression) dan pada tiap segmen interval dianggap cukup logis menggunakan regresi linier
Data dipecah menjadi beberapa segmen ( piecewise
regression) tetapi pada tiap segmen interval diberlakukan regresi polinomial derajat 2 atau lebih
Menggunakan regresi nonlinier parametrik (polinomial) dan logistik atau log pada GLM (Pendekatan ini masih dianggap linier
karena, prediktor dan parameternya bersama-sama membentuk kombinasi linier, sedangkan log, logit, probit
dan sejenisnya merupakan fungsi link)
Menggunakan regresi dengan penghalus nonparametrik baik dengan spline maupun loess pada GAM.
Pendekatan terakhir yang biasa disebut sebagai regresi noninear (semi parametrik).
Secara umum setiap pendekatan yang dilakukan akan menghasilkan
error yang berbeda yang dapat dilihat dari besarnya MSE (Mean Square Error), akan tetapi efektivitas secara keseluruhan
harus diukur berdasarkan kritera GOF (Goodness of Fit) yang selain mengukur MSE yang minimal juga mengukur
efek akibat penambahan/pengurangan parameter.
Berikut adalah contoh ilustrasi hubungan data nonlinier, serta visualisasi berbagai pendekatan yang dapat dilakukan
Gambar 1. Contoh Diagram Pencar dengan berbagai Smoother Segmen linier: Segmen polinom: GLM: Spline: Loess:
Pendekatan Model Statistika Aditif Terampat
Bentuk Umum dan Asumsi
Ada beberapa alasan sehingga model nonlinier biasa (termasuk prediktor linier dengan invers link), tidak bisa diaplikasikan, diantaranya (lihat Everitt & Hothorn, 2010):
secara emperik terindikasi bentuk hubungan agak kompleks tidak cukup didekati dengan nonlinier biasa;
secara teoritis tidak ada pengalaman yang menunjukkan bentuk nonlinier yang sesuai;
ingin kondisi data yang bersangkutan memilih model yang sesuai.
Salah satu yang bisa diberlakukan untuk kondisi seperti di atas adalah dengan mencoba penghalusan lokal menggunakan pendekatan model aditif terampat.
Misalkan ada suatu peubah respon yang bergantung pada sejumlah peubah bebas Secara umum dengan menggunakan pendekatan aditif terampat, hubungan diatas dapat dituliskan dalam bentuk umum seperti:
dengan adalah fungsi link yang kontinu dan diferensiabel, sebagai prediktor aditif yang memiliki bentuk umum:
Peubah
adalah respon yang memiliki sebaran keluarga eksponensial, yaitu:
adalah sejumlah peubah bebas atau prediktor, dan adalah fungsi umum yang dapat merupakan fungsi aljabar (linier non linier) dan dapat juga merupakan fungsi penghalus nonparametrik .
Beberapa bentuk khusus dari prediktor aditif adalah:
menjadi prediktor linier, jika semua fungsi adalah fungsi linier sehingga dapat dituliskan sebagai:
menjadi prediktor nonparametrik jika semua fungsi merupakan fungsi penghalus nonparametrik
menjadi prediktor aditif atau semi parametrik jika sebagian fungsi merupakan fungsi penghalus parametrik dan sebagian lagi merupakan fungsi parametrik (misalnya linier, nonlinier atau linier yang dikomposisi dengan invers fungsi link, , misalnya sehingga menghasilkan bentuk kombinasi:
atau
dengan suku pertama sebagai bagian parametriknya sedangkan suku kedua merupakan bagian nonparametriknya. Karena merupakan campuran antara parametrik dengan nonparametrik, maka disebut semiparametrik
dan karena bentuknya merupakan bentuk adifif, maka disebut juga prediktor aditif. Apabila prediktor aditif ini bergabung dengan galat yang memiliki sebaran dari keuarga eksponensial, maka model yang dihasilkan disebut
model aditif terampat (GAM,
Generalized Aditive Model\/).
Jadi bisa dipahami bahwa model aditif terampat merupakan generalisasi model linier terampat, dengan memperluas prediktor linier dengan prediktor aditif. Seperti pada model linier terampat, model aditif terampat juga memuat komponen acak (), komponen tetap, yakni prediktor aditif dan fungsi link yang menghubungkan komponen acak dengan prediktor aditif tersebut. Galat sebagai komponen acaknya diasumsikan memiliki fungsi kepadatan keluarga eksponensial
Penghalus lokal
Hastie & Tibshirani (1991), membahas berbagai macam penghalus, salah satu dari penghalus tersebut adalah penghalus spline
yang
merupakan solusi yang meminimumkan
dengan adalah parameter penghalus dalam interval . Nilai yang besar akan
menghasilkan kurva yang mulus, sedangkan kecil akan menghasilkan gambar kurva
yang kasar. Suku pertama pada persamaan di atas digunakan untuk mengukur kerapatan
data, dan tidak lain merupakan bentuk kuadrat, sedangkan suku keduanya memperlihatkan kurva suatu fungsi, yang dianggap penalti dari suku pertama. Jika , maka bentuk disebut juga PRSS\index[subjek]{PRSS}
( Penalized Residual Sum Square\/). Salah satu penghalus
spline adalah spline kubik dengan titik perubahan yang terjadi di dalam suatu kurva disebut dengan titik knot. Model spline kubik, dengan titik knot () dapat dituliskan sebagai berikut
(Budiantara dan Subanar, 1997}:
dengan
adalah titik knot, yaitu pertemuan dua kurva yang berdekatan dan
adalah banyaknya titik knot.
Berikut adalah salah satu contoh bentuk model aditif dengan respon dimodel linier untuk peubah bebas dan dimodel spline kubik dengan tiga titik knot untuk peubah bebas , sehingga dari persamaan dihasilkan persamaan . Persamaan merupakan model penghalus parametrik karena koefisien/parameter tiap-tiap komponen penghalus dapat dimunculkan secara eksplisit.
Everitt & Hothorn (2010) menyatakan bahwa salah satu bentuk regresi linier terpatah
( piecewise linear regression\/) merupakan pemulusan spline linier yang dapat dinyataan dalam bentuk persamaan berikut.
Pengepasan GAM
Ada tiga algoritma penting untuk mengistimasi parameter pada GAM (Hastie 1997), seperti diuraikan berikut ini. Uraian lengkap ketiga algoritma tersebut dapat dilihat pada Hastie & Tibshirani
(1990).
Penghalus diagram pencar ( scatterplot smoother\/) dengan memperhatikan ketepatan penghalusan dengan melihat grafik diagram pencarnya. Penghalus yang bisa dipilih diantaranya adalah penghalus spline. Algoritma ini yang diterapkan pada paket \verb|gam|.
algoritma backfitting (inner loop)\/. Algoritma backfitting merupakan algoritma yang dapat digunakan untuk mengestimasi model aditif dengan menggunakan beberapa tipe regresi penghalus, diantaranya adalah penghalus spline. Didefinisikan sejumlah residu parsial ke- sebagai berikut
dengan
algoritma local scoring (outer loop). Algiritma lokal skoring ini merupakan perluasan algoritma IWLS
( Iterated Weighted Least Square), algoritma ini diterapkan pada fungsi gam pada paket mgcv.
Dalam analisis data dengan menggunakan pendekatan pemulusan, seperti telah disampaikan, pada dasarnya kita mencari kurva mulus yang mendekati data dengan baik. Banyaknya puncak/belokan kurva menunjukkan tingkat kemulusan dan kekasaran kurva. Semakin banyak liku-liku kurva berarti semakin banyak titik knot yang dipakai dan kurva semakin {\it wiggly} atau kurang mulus. Dalam kondisi seperti ini, sering terjadi pengepasan yang berlebihan ({\it over fitting\/}), yaitu kurvanya terlalu kompleks (terlalu {\it wiggly}, terlalu banyak belak-belok). Model yang demikian memuat lebih banyak parameter dari yang sesungguhnya diperlukan, juga jika dibanding dengan banyaknya data. Model yang berlebihan seperti ini kurang baik untuk prediksi karena secara berlebihan mengukur dampak dari suatu perubahan yang kecil pada peubah bebas. Untuk menghindari hal ini selain menggunakan kriteria AIC, dalam GAM
biasa juga digunakan perhitungan CV( Cross Validation)
dan GCV ( Generalized Cross Validation) untuk menghitung banyaknya dan posisi titik-titik knot yang optimal.
Definisi masing-masing diberikan pada persamaan berikut.
dengan
untuk suatu matriks .
Visualisasi Smoother dengan R
Untuk visualisasi ini anda dapat memilih data berikut sebagai ilustrasi.
Pilih data:
Ekplorasi Data
Ringkasan Data:
Variabel yang dipilih:
Eksplorasi Grafik Smoothing Spline serempak dengan SPM
Kita dapat memvisualisasikan hubungan variabel secara serempak menggunakan penghalus spline.
Beberapa parameter yang bisa diatur diantaranya adalah seperti berikut ini. Grafik Diagonal:Opsi Spline:
Jenis Spline
Jenis Distribusi:Jenis Link: Banyaknya Knots:
.
Gambar 2. Matriks Diagram Pencar dengan Smoother Spline
Eksplorasi Smoothing dengan Loess dengan SPM
Opsi Loess
Ukuran Span c(0,1)
.
Degree
.
Grafik diagonal
Gambar 3. Matriks Diagram Pencar dengan Smoother Loess
Detail Eksplorasi Smoothing dengan ggplot
Variabel yang dipilih:
Gambar Standar Error:
Pemulus NAM (Piecewise Regression)
OPSI NAMJenis NAM Derajat kebebasan NAM (Terkait banyaknya titik belok)
.
Derajat kebebasan POLINOM (Terkait banyaknya titik belok)
.
Derajat POLINOM (Terkait kemulusan kurva, 1=linier)
.
Gambar 4. Matriks Diagram Pencar dengan Smoother NAM
Pemulus GLM dengan Link Kanonik
OPSI GLM
Gambar 5. Matriks Diagram Pencar dengan Smoother GLM
Pemulus GAM
OPSI GAMDistribusi Jenis SplineTitik Knot
.
Gambar 6. Matriks Diagram Pencar dengan Smoother GAM (Spline)
Pemulus Loess
OPSI LOESS Span
.
Degree
.
Gambar 7. Matriks Diagram Pencar dengan Smoother GAM (LOess)
Dalam Konstruksi: Contoh Luaran masing-masing pilihan smoother
Dalam sisa tahun 2016 & 2017 akan dilengkapi narasi untuk masing-masing pilihan smmother.
Naskah sebenarnya sudah tersedia di laman lain secara terpisah