GENERALIZED ESTIMATING EQUATIONS ORDER 1 & 2 (GEE1 & GEE2)
WITH NATURAL SPLINES SMOOTHER

Oleh :
Tirta, I.M., Oktafiani, L.C., Anggraeni, D.
Jurusan Matematika FMIPA Universitas Jember, 2016

Daftar Topik

    PENDAHULUAN
  • Latar Belakang
  • Tujuan
  • Bahasan
    1. RINGKASAN TEORI
  • Generalized Estimating Equations Orde 1 (GEE)
  • Generalized Estimating Equations Orde 2 (GEE2)
  • Model Probabilitas Marjinal GEE2
  • Estimasi Parameter
  • Struktur Working Correlation
    1. ILUSTRASI DENGAN R
  • Sintaks Model
  • Pilih Data
  • Eksplorasi Data
  • Metode GEE2
  • Goodness of Fit dari GEE2
  • Catatan
    1. DAFTAR PUSTAKA
      LAMPIRAN

    PENDAHULUAN

    Latar Belakang

    GEE2 merupakan perkembangan metode untuk menambah efisiensi dari GEE yang diperkenalkan oleh Zhao dan Prentice tahun 1990. Tambun (2012) telah menganalisis data yang menghasilkan model dengan korelasi Independence merupakan model yang lebih baik dibandingkan dengan model korelasi Exchangeable dan menurut Uji Wald diperoleh intersep serta variabel X1 signifikan terhadap respon. Hidayati (2013) juga telah menganalisis data dengan menggunakan Generalized Estimating Equations orde 2 (GEE2). Penelitian tersebut menghasilkan nilai AIC dan standard error untuk metode GEE2 jauh lebih minimum dibandingkan dengan GEE biasa, sehingga model dengan metode GEE2 lebih baik daripada GEE biasa. Hal tersebut dikarenakan dalam GEE2 link korelasinya dimodelkan, sedangkan dalam GEE biasa tidak dimodelkan. Link korelasi pada GEE2 yaitu Identity dan Fisherz.
    Berikut adalah contoh bentuk data yang digunakan untuk analisis menggunakan GEE2 merupakan data longitudinal (data yang diukur secara berskala).

    Tabel Format Data Pengukuran Berulang
    $Subjek$ $id$ $Y_{1}$ $Y_{2}$ $\ldots$ $Y_{t}$ $X_{1}$ $\ldots$ $X_{m}$
    $1$ $1$ $y_{11}$ $y_{12}$ $\ldots$ $y_{1t}$ $x_{11}$ $\ldots$ $x_{1m}$
    $2$ $2$ $y_{21}$ $y_{22}$ $\ldots$ $y_{2t}$ $x_{21}$ $\ldots$ $x_{2m}$
    $3$ $3$ $y_{31}$ $y_{32}$ $\ldots$ $y_{3t}$ $x_{31}$ $\ldots$ $x_{3m}$
    $\vdots$ $\vdots$ $\vdots$ $\vdots$ $\ldots$ $\ldots$ $\ldots$ $\ddots$ $\vdots$
    $n$ $n$ $y_{n1}$ $y_{n2}$ $\ldots$ $y_{nt}$ $x_{n1}$ $\ldots$ $x_{nm}$

    Tujuan

    Kegiatan ini, bertujuan :
    1. dapat melakukan analisis menggunakan GEE (GEE1 maupun GEE2);
    2. dapat memilih model terbaik dengan mempertimbangkan prediktor parametrik maupun non-parametrik (smoother) untuk $\mu$, serta prediktor untuk dispersi (scale parameter dan
    3. dapat memilih model terbaik antara link korelasi dalam GEE dengan melihat nilai standard error
    4. dapat menginterpretasi hasil yang diperoleh dengan menggunakan GEE

    Bahasan

    Materi yang di bahas dalam kegiatan ini adalah :
    1. analisis menggunakan GEE
    2. model terbaik antara link korelasi dalam menggunakan GEEdengan melihat nilai standard error
    3. interpretasi hasil yang diperoleh dengan menggunakan GEE

    RINGKASAN TEORI

    Quasi-Likelihood dan Generalized Estimating Equations order 1 (GEE atau GEE1)

    Dalam model linier yang peubah responnya masih saling bebas, meskipun tidak berdistribusi normal, fungsi likelihoodnya relatif mudah dievaluasi dan dimaksimumkan. Metode yang menganalisis data yang tidak berdistribusi normal tetapi masih saling bebas disebut GLM. Untuk data yang tidak saling bebas, dengan model marjinal, kita hanya menentukan bentuk rataan (sebagai momen pertama) dan matriks varians-kovariansnya (sebagai momen kedua). Untuk distribusi normal, kedua momen ini telah cukup menentukan fungsi likelihoodnya, namun tidak demikian halnya dengan distribusi lainnya seperti distribusi binomial, poisson dan gamma, misalnya. Untuk mengetahui keseluruhan likelihood diperlukan asumsi-asumsi lainnya. Meskipun dengan asumsi-asumsi tambahan, likelihood seringkali tetap sulit ditentukan dan melibatkan banyak paremeter gangguan ( nuisance) selain parameter regresi ($\boldsymbol{\beta}$) dan parameter korelasi (misalnya,$\alpha$) yang harus diduga. Untuk alasan ini, pendekatan yang relatif mudah dipahami dan masuk akal dalam mengatasi kesulitan ini adalah dengan menggunakan Generalized Estimating Equations (untuk selanjutnya disingkat GEE) yang pertama diperkenalkan oleh Liang dan Zeger (yaitu Liang \& Zeger (1986), Zeger \& Liang (1986), Zeger \& Liang (1992), Liang et al. (1992), Zeger et al. (1988). GEE merupakan sebuah analogi atau generalisasi multivariat dari quasi-likelihood untuk respon saling bebas(Diggle, et al. (1994). Manakala tidak ada fungsi likelihood yang pasti untuk dijadikan acuan, cukup beralasan untuk menduga/ mengestimasi dengan menyelesaikan sebuah analogi multivariat dari metode quasi-score yang diperkenalkan Wedderburn (1972) yaitu: \begin{equation} S(\boldsymbol{\beta})=\sum_{i=1}^n\left(\frac{\partial \boldsymbol{\mu_i}}{\partial \boldsymbol{\beta}}\right)^T Var \left(\mathbf{Y_i}\right)^{-1}\left(\mathbf{Y_i}-\boldsymbol{\mu_i}\right)= \mathbf{0} \label{eq:wedb1}\end{equation} Karena secara umum berlaku $g(\boldsymbol{\mu_{ij}})=\mathbf{x_i}\boldsymbol{\beta}$ , maka melalui fungsi hungungan ({\em link function}) akan langsung dapat dicari turunan $g(.)$ terhadap $\eta$ dan karenanya persamaan \eqref{eq:wedb1} dapat dimodifikasi menjadi \begin{equation} S(\boldsymbol{\beta})=\sum_{i=1}^n \mathbf{X_i}^T \left(\frac{\partial \boldsymbol{\mu_i}}{\partial \boldsymbol{\eta_i}}\right)^T Var \left(\mathbf{Y_i}\right)^{-1}\left(\mathbf{Y_i}-\boldsymbol{\mu_i}\right)= \mathbf{0} \label{eq:wedb2}\end{equation} dimana, $\mathbf{Yi}, \boldsymbol{\mu_i}$ dan $\eta_i$ adalah vektor dan $Var(\mathbf{Y_i})$ merupakan matrik simetris. Dalam kasus multivariat, ada tambahan komplikasi seperti $S_\beta$ yang sesungguhnya juga tergantung pada parameter $\boldsymbol{\beta}$ maupun $\alpha$, karena $Var(\mathbf{Y_i}) = \phi Var(\mathbf{Y_i};\boldsymbol{\beta};\alpha)$.

    Generalisasi dan Bentuk GEE

    Dibandingkan dengan persamaan untuk memperoleh penduga pada model linier normal (NLM) seperti pada persamaan dan pada model linier tergenaralisir (GLM), GEE ini mengalami generalisasi atau perbedaan dalam beberapa hal.
    1. Dalam NLM dan GLM respon $Y_i,$ ekspektasi $E(Y_i) = \mu_i$ merupakan variabel univariat, sedangkan dalam GEE mereka berupa vektor yang berhubungan dengan subjek ke-i, sebagai konsekuensinya, maka model Linear Normal harus digeneralisasi dengan mempertimbangkan jumlah untuk seluruh individu/subjek $\mathbf{Y}$;
    2. Dalam NLM, nilai $\displaystyle \left(\frac{\partial \boldsymbol{\mu_i}}{\boldsymbol{\eta_i}}\right)$ adalah 1, pada GLM nilainya bergantung pada fungsi link $g(.).$ Dalam GEE, karena ekspektasi dan prediktor liniernya dua-duanya merupakan vektor berukuran $t$, maka $\displaystyle \left(\frac{\partial \boldsymbol{\mu_i}}{\boldsymbol{\eta_i}}\right)$ merupakan matrik diagonal berukuran $t \times t$ dengan unsur diagonalnya adalah $\displaystyle \left(\frac{\partial \mu_{ij}}{\partial \eta_{ij}}\right)$ yang nilainya riilnya juga masih bergantung pada fungsi link $g(.)$ yang digunakan.
    3. Dalam NLM varians dari respon, $var(Y_i)=\phi v(\mu_i)$ adalah konstan yaitu $\sigma^2$. Dalam GLM dia adalah tidak konstan tetapi berupa matriks diagonal, sedangkan dalam GEE dia berupa matriks kovarians yang bersifat umum (simetris) yang tidak saja bergantung pada $\mu$ atau $\boldsymbol{\beta}$ tetapi juga pada $\phi$ dan $\alpha$, yang dapat dinyatakan dalam bentuk \[\mathbf{v_i}=\phi\sqrt{v(\boldsymbol{\mu_i}}\,\mathbf{R}(\alpha) \sqrt{v(\boldsymbol{\mu_i}}\] dengan $\mathbf{R}(\alpha)$ adalah matriks korelasi yang diasumsikan, misalnya struktur korelasi seragam yang biasa disebut exchageable/uniform, dan lain- lain (Kenward \& Smith, 1995). Dengan demikian secara keseluruhan $Var(\mathbf{Y})$ untuk NLM adalah 2I, untuk GLM adalah matriks diagonal dengan unsur diagonal $Var(Y_i),$ sedangan pada GEE dia adalah matriks diagonal blok dengan blok ke-i adalah $\mathbf{V_i}.$

    Struktur Matriks Korelasi

    Untuk struktur korelasi seragam atau exchangeable bentuknya matriks korelasinya adalah \[\mathbf{R(\alpha)}=\begin{pmatrix} 1 & \alpha & \cdots &\alpha \\ \alpha & 1 &\cdots &\alpha \\ \vdots & \vdots & \ddots&\vdots\\ \alpha & \alpha &\cdots &1 \\ \end{pmatrix}\] Sedangkan untuk serial atau AR-1 bentuk korelasinya adalah \[\mathbf{R(\alpha)}=\begin{pmatrix} 1 & \alpha & \alpha^2&\cdots &\alpha^{p-1} \\ \alpha & 1 &\alpha& \cdots &\alpha^{p-2} \\ \alpha^2 &\alpha&1& \cdots &\alpha^{p-3} \\ \vdots & \vdots & \ddots & \ddots &\vdots\\ \alpha^{p-1} & \alpha^{p-2}&\alpha^{p-3} &\cdots &1 \\ \end{pmatrix}\] Dengan mencari turunan, terhadap $\boldsymbol{\beta}$, dari ruas kiri pada persamaan \eqref{eq:wedb2}, maka diperoleh persamaan dalam bentuk iterasi Fisher Scoring, untuk penduga $\boldsymbol{\beta}$ dapat dinyatakan dengan persamaan berikut $$ \begin{align} \mathbf{b^{(1)}}=& \mathbf{b^{(0)}}+\left[\sum_{i=1}^n \mathbf{X_i}^T \left(\frac{\partial \boldsymbol{\mu_i}}{\partial \boldsymbol{\eta_i}}\right) \left[var(\mathbf{Y_i})\right]^{-1}\left(\frac{\partial \boldsymbol{\mu_i}}{\partial \boldsymbol{\eta_i}}\right)\mathbf{X_i} \right]^{-1}\nonumber\\ & \hspace{1cm}\left[\sum_{i=1}^n \mathbf{X_i}^T \left(\frac{\partial \boldsymbol{\mu_i}}{\partial\boldsymbol{\eta_i}}\right)\left[var(\mathbf{Y_i})\right]^{-1} \left(\mathbf{Y_i}-\boldsymbol{\mu_i}\right)\right] \label{eq.it.gee}\end{align} $$ Dalam bentuk iterasi seperti persamaan \eqref{eq.it.gee}, maka varians "biasa" $\mathbf{b}$, yang biasa disebut varians naive dapat ditentukan dengan \begin{equation} \mathbf{V_N}=\left[\sum_{i=1}^n \mathbf{X_i}^T \left(\frac{\partial \boldsymbol{\mu_i}}{\partial \boldsymbol{\eta_i}}\right) \left[var(\mathbf{Y_i})\right]^{-1}\left(\frac{\partial \boldsymbol{\mu_i}}{\partial \boldsymbol{\eta_i}}\right)\mathbf{X_i} \right]^{-1}. \label{eq.naive} \end{equation} Variansi yang lebih tegar, biasa disebut sandwich/ robust variance diperoleh dengan menerapkan hukum bahwa untuk matriks konstanta $\mathbf A$, maka $var(\mathbf{AY})=\mathbf{A}^Tvar\mathbf{(Y)A}$ dengan \[ A=\left[\sum_{i=1}^n \mathbf{X_i}^T \left(\frac{\partial \boldsymbol{\mu_i}}{\partial \boldsymbol{\eta_i}}\right) \left[var(\mathbf{Y_i})\right]^{-1}\left(\frac{\partial \boldsymbol{\mu_i}}{\partial \boldsymbol{\eta_i}}\right)\mathbf{X_i} \right]^{-1} \left[\sum_{i=1}^n \mathbf{X_i}^T \left(\frac{\partial \boldsymbol{\mu_i}}{\partial\boldsymbol{\eta_i}}\right)\left[var(\mathbf{Y_i})\right]^{-1} \right] \] Jika perkalian dengan invers dinotasikan dengan 'pecahan' seperti notasi \citeasnoun{art:KenwardSmith95}, maka $A$ dapat dinotasikan dengan: \[ A=\frac{\left[\sum_{i=1}^n \mathbf{X_i}^T \left(\frac{\partial \boldsymbol{\mu_i}}{\partial\boldsymbol{\eta_i}}\right)\left[var(\mathbf{Y_i})\right]^{-1} \right]}{\left[\sum_{i=1}^n \mathbf{X_i}^T \left(\frac{\partial \boldsymbol{\mu_i}}{\partial \boldsymbol{\eta_i}}\right) \left[var(\mathbf{Y_i})\right]^{-1}\left(\frac{\partial \boldsymbol{\mu_i}}{\partial \boldsymbol{\eta_i}}\right)\mathbf{X_i} \right]} \]

    Generalized Estimating Equations Orde 2 (GEE2)

    Untuk menambah efisiensi dari Generalized Estimating Equations (GEE), Prentice & Zhao (1990) memperkenalkan variasi yang disebut GEE2. Kerangka kerja dalam GEE cocok untuk estimasi konsisten dari koefisien regresi dan standar errornya ketika mempunyai data yang berkorelasi. Jika pada GEE menganggap korelasi sebagai nuisiance (parameter gangguan), sedangkan dalam GEE2 mengatasi masalah tersebut dengan memperkenalkan persamaan estimasi kedua untuk parameter kovarian dan diselesaikan secara bersamaan dengan persamaan estimasi pertama. Metode dengan GEE2 ini memodelkan link korelasi untuk menambah keefisienan dari hasil estimasi yang dilihat dari nilai standar error yang lebih minimum.

    Model Probabilitas Marjinal GEE2

    Dasar memperoleh GEE2 adalah model eksponensial kuadratik, perluasan dari model GLM yang digunakan pada GEE. Model probabilitas marjinal persamaan kuadratik adalah sebagai berikut : $$P_{i}(y_{i},\mu_{i},\sigma_{i})=\Delta_{i}^{-1}\exp{y_{i}'\theta_{i}+\omega_{i}'\lambda_{i}+c_{i}(y_{i})}$$ dimana $\Delta_{i}=\Delta_{i}(\sigma_{i},\lambda_{i},c_{i}(.))$ adalah normalizing constant, $\omega_{i}'=(y_{{i1}}^{2},y_{i1},y_{i2},...,y_{{i2}}^{2},y_{i2},y_{i3},...)$, $c_{i}(.)$= fungsi "shape", $\theta_{i}'=\theta_{i}'(\mu_{i},\sigma_{i})=(\theta_{i1},...,\theta_{in_{i}})$, $\lambda_{i}'=\lambda_{i}'(\mu_{i},\sigma_{i})=(\lambda_{i11},\lambda_{i12},...,\lambda_{i22},\lambda_{i23},...)$, dengan $\theta_{i}$ dan $\lambda_{i}$ adalah fungsi parameter mean dan varian, dan $\mu_{i}=\mu_{i}(\beta)$, $\sigma_{i}=\sigma_{i}(\beta,\alpha)$ (Lane,2007).

    Estimasi Parameter

    Estimasi parameter dapat ditunjukkan dalam 'score' persamaan untuk $\beta$ dan $\alpha$ dengan menggunakan GEE2 yaitu $$\sum_{{i=1}}^{n}D_{i}'V_{{i}}^{-1}f_{i}=0$$ dimana $$D_{i}=\begin{pmatrix} \frac{\partial\mu_{i}}{\partial\beta}& 0\\ \frac{\partial\sigma_{i}}{\partial\beta}&\frac{\partial\sigma_{i}}{\partial\alpha} \end{pmatrix}$$ $$V_{i}=\begin{pmatrix} V_{i11}& V_{i12}\\ V_{i21}& V_{i22} \end{pmatrix}=\begin{pmatrix} var(y_{i})& cov(y_{i},s_{i})\\ cov(s_{i},y_{i})& var(s_{i}) \end{pmatrix}$$ $$f_{i}=\begin{pmatrix} y_{i}-\mu_{i}\\ s_{i}-\sigma_{i} \end{pmatrix}$$ dengan $s_{i}'=s_{i}^T=(s_{i11},s_{i12},...,s_{in_{i}n_{i}})$ dan $s_{ijk}=(y_{ij}-\mu_{ij})(y_{ik}-\mu_{ik})$ menjadi kovarian empiris antara individu $j$ dan $k$ (Lane, 2007).

    Ekuivalensi GEE1 dan GEE2

    Hubungan antara GEE2 dan GEE dapat diringkas dalam tabel berikut

    Tabel 2. Perbandingan antara Komponen GEE1 dan GEE2
    No Komponen GEE2 GEE1
    1 Distribusi Keluarga Eksponensial (Gaussian, Gamma, Binomial, Poisson) Idem
    2 Struktur Korelasi Independen, AR-1, Exchangeable,Unstructured Idem
    3 Link Korelasi Identitas, Fisherz Identitas
    4 Model dispersi Linier (dengan beberapa prediktor) Konstan

    Dengan demikian ketika pilihan link korelasi adalah 'identity' dan model dispersi adalah 'konstan', maka kita mendapatkan/menggunakan model yang identik dengan GEE (Gee orde 1)

    Prediktor dengan dengan natural cubics plines smoother

    BAnyak pertanyaan muncul apakah untuk respon berulang (multi) dimungkinkan memanfaatkan smoother dalam prediktor meannya. Dengan menggunakan R, hal ini dapat dilakukan dengan memanfaatkan dan menggabungkan fungsi dan paket splines yang ada, khususnya b-splines & natural cubic splines. Ide ini sebenarnya lebih banyak muncul dalam diskusi di media online, sehingga referensi formal penggabungan GEE dengan natural splines masih perlu dieksplorasi lebih jauh.

    ILUSTRASI DENGAN R

    Sintaks Model

    Sintaks untuk melakukan analisis GEE adalah menggunakan paket geepack (Højsgaard et al., 2006) dengan fungsi geese() untuk GEE2 dan geeglm untuk GEE1
    geese(formula=y~x1+x2+...+xn, sformula=..., data=..., id=..., 
          family=...,   corstr=..., cor.link=...)
    	  
    geeglm(formula=y~x1+x2+...+xn,  data=..., id=..., 
          family=...,   corstr=..., )	  
    
    Untuk GEE1 dengan geeglm() tidak ada opsi untuk formula dispersi (identik dengan konstan) dan tidak ada opsi untuk link korelasi (identik dengan identitas).

    Pilih Data

    Anda dapat memilih data yang ada pada database R atau anda dapat mengimpor data sendiri
    Pilihan Data

    Khusus untuk Import Data, cari file:
    Header: , Pemisah: , Kutipan:

    Eksplorasi Data

    Ringkasan Data

    
    Catatan:
    
    Eksplorasi data lebih jauh dapat dilakukan setelah menentukan variabel respon, prediktor, identitas dan pengukuran yang diulang.

    Penentuan Model

    Variabel respon dan prediktor Mean

    Berdasarkan summary data yang ada, anda dapat memilih variabel-variabel yang akan dijadikan variabel terikat (respon), variabel bebas (prediktor), dan identitas sebagai model formula untuk mean

    Variabel Y (Respon) Identitas Responden:

    Gambar 1. Plot Indeks dari Respon
    Gambar 2. Diagram Pencar Satu Prediktor Terhadap Respon Berulang dengan Smoother CNS (Cubic Natural Splines)

    DF Spline:

    Dengan korelasi antar pengukuran berulang (klaster):
    
    
      
    Gambar 3. Diagram Korelasi Respon Berulang

    Prediktor untuk model mean dan model dispersi

    Model dan prediktor untuk parameter dispersi (scale)

    Pemilihan Distribusi, Link dan Korelasi

    Setelah menentukan variabel respon dan variabel prediktor,selanjutnya menentukan maen link sebagai link distribusi, varian sebagai distribusi, struktur korelasi, dan link korelasi.
    Pilih link untuk mean: Pilih Jenis Distribusi: Pilih struktur korelasi: Pilih link untuk korelasi:

    Hasil Estimasi GEE2

    Berikut adalah luaran umum dari GEE dengan pilihan yang telah dilakukan sebelumnya (san=sandwich)
    
    
    
    
    
    
    
    
    

    Pilihan Hasil Analisis

    Selain hasil estimasi diatas ada beberapa output lain yang dapat dipilih seperti dibawah ini:
    
    
    

    Goodness of Fit dari GEE2

    
    
    Keterangan :
    Dalam program ini,nilai QIC yang ditentukan berdasarkan variabel dan model sehingga  tidak berpengaruh terhadap struktur korelasi dan link korelasi.
    
    

    Luaran dari GEE1

    
    
    
    
    

    Catatan

    Model terbaik dari link korelasi maupun struktur korelasi pada GEE2 dapat dilihat berdasarkan nilai standard error yang lebih minimum. Sedangkan Uji signifikansi model dapat dilakukan dengan melihat nilai Wald atau P-value.

    DAFTAR PUSTAKA

      Højsgaard, S., Halekoh, U. & Yan J. 2006. The R Package geepack for Generalized Estimating Equations. Journal of Statistical Software, 15, 2, pp1--11
      Hidayati, R.D. 2013. "Pendekatan Generalized Estimating Equations Orde 2 (GEE2) untuk Data Longitudinal". Tidak Diterbitkan. Skripsi. Jember : Universitas Jember.
      Lane, S. 2007. Generalized Estimating Equations for Pedigree Analysis. Departemen of Mathematics and Statistics : University of Melbourne.
      Tambun, A. 2012. "Analisis GEE (Generalized Estimating Equations) untuk Respon Biner Bivariat". Tidak Diterbitkan. Skripsi. Jember : Universitas Jember.
      Ziegler, A. 2011. Generalized Estimating Equations. New York : Springer.

    LAMPIRAN

    Pilihan untuk menampilkan beberapa sampel yang diinginkan