GEE2 merupakan perkembangan metode untuk menambah efisiensi dari GEE yang diperkenalkan oleh Zhao dan Prentice tahun 1990.
Tambun (2012) telah menganalisis data yang menghasilkan model dengan korelasi Independence merupakan model yang lebih baik dibandingkan dengan model korelasi Exchangeable dan menurut Uji Wald diperoleh intersep serta variabel X1 signifikan terhadap respon. Hidayati (2013) juga telah menganalisis data dengan menggunakan Generalized Estimating Equations orde 2 (GEE2). Penelitian tersebut menghasilkan nilai AIC dan standard error untuk metode GEE2 jauh lebih minimum dibandingkan dengan GEE biasa, sehingga model dengan metode GEE2 lebih baik daripada GEE biasa. Hal tersebut dikarenakan dalam GEE2 link korelasinya dimodelkan, sedangkan dalam GEE biasa tidak dimodelkan. Link korelasi pada GEE2 yaitu Identity dan
Fisherz.
Berikut adalah contoh bentuk data yang digunakan untuk analisis menggunakan GEE2 merupakan data longitudinal (data yang diukur secara berskala).
Dalam model linier yang peubah responnya masih saling
bebas, meskipun tidak berdistribusi normal, fungsi likelihoodnya
relatif mudah dievaluasi dan dimaksimumkan. Metode yang
menganalisis data yang tidak berdistribusi normal tetapi masih
saling bebas disebut GLM. Untuk data yang tidak saling bebas,
dengan model marjinal, kita hanya menentukan bentuk rataan
(sebagai momen pertama) dan matriks varians-kovariansnya (sebagai
momen kedua). Untuk distribusi normal, kedua momen ini telah cukup
menentukan fungsi likelihoodnya, namun tidak demikian halnya
dengan distribusi lainnya seperti distribusi binomial, poisson dan
gamma, misalnya. Untuk mengetahui keseluruhan likelihood
diperlukan asumsi-asumsi lainnya. Meskipun dengan asumsi-asumsi
tambahan, likelihood seringkali tetap sulit ditentukan dan
melibatkan banyak paremeter gangguan ( nuisance) selain
parameter regresi ($\boldsymbol{\beta}$) dan parameter korelasi
(misalnya,$\alpha$) yang harus diduga. Untuk alasan ini,
pendekatan yang relatif mudah dipahami dan masuk akal dalam
mengatasi kesulitan ini adalah dengan menggunakan Generalized
Estimating Equations (untuk selanjutnya disingkat
GEE) yang pertama diperkenalkan oleh Liang dan
Zeger (yaitu Liang \& Zeger
(1986), Zeger
\& Liang (1986), Zeger
\& Liang (1992), Liang
et al. (1992), Zeger et al.
(1988). GEE merupakan sebuah analogi atau
generalisasi multivariat dari quasi-likelihood untuk respon saling
bebas(Diggle, et al. (1994). Manakala tidak
ada fungsi likelihood yang pasti untuk dijadikan acuan, cukup
beralasan untuk menduga/ mengestimasi dengan menyelesaikan sebuah
analogi multivariat dari metode quasi-score yang diperkenalkan
Wedderburn (1972) yaitu:
\begin{equation}
S(\boldsymbol{\beta})=\sum_{i=1}^n\left(\frac{\partial
\boldsymbol{\mu_i}}{\partial \boldsymbol{\beta}}\right)^T Var
\left(\mathbf{Y_i}\right)^{-1}\left(\mathbf{Y_i}-\boldsymbol{\mu_i}\right)=
\mathbf{0}
\label{eq:wedb1}\end{equation}
Karena secara umum berlaku
$g(\boldsymbol{\mu_{ij}})=\mathbf{x_i}\boldsymbol{\beta}$ , maka
melalui fungsi hungungan ({\em link function}) akan langsung dapat
dicari turunan $g(.)$ terhadap $\eta$ dan karenanya persamaan
\eqref{eq:wedb1} dapat dimodifikasi menjadi
\begin{equation}
S(\boldsymbol{\beta})=\sum_{i=1}^n \mathbf{X_i}^T
\left(\frac{\partial \boldsymbol{\mu_i}}{\partial
\boldsymbol{\eta_i}}\right)^T Var
\left(\mathbf{Y_i}\right)^{-1}\left(\mathbf{Y_i}-\boldsymbol{\mu_i}\right)=
\mathbf{0}
\label{eq:wedb2}\end{equation}
dimana, $\mathbf{Yi}, \boldsymbol{\mu_i}$ dan $\eta_i$ adalah
vektor dan $Var(\mathbf{Y_i})$ merupakan matrik simetris. Dalam
kasus multivariat, ada tambahan komplikasi seperti $S_\beta$ yang
sesungguhnya juga tergantung pada parameter $\boldsymbol{\beta}$
maupun $\alpha$, karena $Var(\mathbf{Y_i}) = \phi
Var(\mathbf{Y_i};\boldsymbol{\beta};\alpha)$.
Generalisasi dan Bentuk GEE
Dibandingkan dengan
persamaan untuk memperoleh penduga pada model linier normal (NLM)
seperti pada persamaan dan pada model linier tergenaralisir (GLM),
GEE ini mengalami generalisasi atau perbedaan dalam beberapa hal.
Dalam NLM dan GLM respon $Y_i,$
ekspektasi $E(Y_i) = \mu_i$ merupakan variabel univariat,
sedangkan dalam GEE mereka berupa vektor yang berhubungan dengan
subjek ke-i, sebagai konsekuensinya, maka model Linear Normal
harus digeneralisasi dengan mempertimbangkan jumlah untuk seluruh
individu/subjek $\mathbf{Y}$;
Dalam NLM, nilai $\displaystyle
\left(\frac{\partial
\boldsymbol{\mu_i}}{\boldsymbol{\eta_i}}\right)$ adalah 1, pada
GLM nilainya bergantung pada fungsi link $g(.).$ Dalam
GEE, karena ekspektasi dan prediktor liniernya dua-duanya
merupakan vektor berukuran $t$, maka $\displaystyle
\left(\frac{\partial
\boldsymbol{\mu_i}}{\boldsymbol{\eta_i}}\right)$ merupakan matrik diagonal
berukuran $t \times t$ dengan unsur diagonalnya adalah $\displaystyle
\left(\frac{\partial \mu_{ij}}{\partial \eta_{ij}}\right)$ yang
nilainya riilnya juga masih bergantung pada fungsi link $g(.)$
yang digunakan.
Dalam NLM varians dari respon,
$var(Y_i)=\phi v(\mu_i)$ adalah konstan yaitu $\sigma^2$. Dalam
GLM dia adalah tidak konstan tetapi berupa matriks diagonal,
sedangkan dalam GEE dia berupa matriks kovarians yang bersifat
umum (simetris) yang tidak saja bergantung pada $\mu$ atau
$\boldsymbol{\beta}$ tetapi juga pada $\phi$ dan $\alpha$, yang
dapat dinyatakan dalam bentuk
\[\mathbf{v_i}=\phi\sqrt{v(\boldsymbol{\mu_i}}\,\mathbf{R}(\alpha)
\sqrt{v(\boldsymbol{\mu_i}}\] dengan $\mathbf{R}(\alpha)$ adalah
matriks korelasi yang diasumsikan, misalnya struktur korelasi
seragam yang biasa disebut exchageable/uniform, dan lain-
lain (Kenward \& Smith, 1995).
Dengan demikian secara keseluruhan
$Var(\mathbf{Y})$ untuk NLM adalah 2I, untuk GLM adalah matriks
diagonal dengan unsur diagonal $Var(Y_i),$ sedangan pada GEE dia
adalah matriks diagonal blok dengan blok ke-i adalah
$\mathbf{V_i}.$
Struktur Matriks Korelasi
Untuk struktur korelasi seragam atau exchangeablebentuknya matriks
korelasinya adalah
\[\mathbf{R(\alpha)}=\begin{pmatrix}
1 & \alpha & \cdots &\alpha \\
\alpha & 1 &\cdots &\alpha \\
\vdots & \vdots & \ddots&\vdots\\
\alpha & \alpha &\cdots &1 \\
\end{pmatrix}\]
Sedangkan untuk serial atau AR-1 bentuk korelasinya adalah
\[\mathbf{R(\alpha)}=\begin{pmatrix}
1 & \alpha & \alpha^2&\cdots &\alpha^{p-1} \\
\alpha & 1 &\alpha& \cdots &\alpha^{p-2} \\
\alpha^2 &\alpha&1& \cdots &\alpha^{p-3} \\
\vdots & \vdots & \ddots & \ddots &\vdots\\
\alpha^{p-1} & \alpha^{p-2}&\alpha^{p-3} &\cdots &1 \\
\end{pmatrix}\]
Dengan mencari turunan, terhadap $\boldsymbol{\beta}$, dari ruas
kiri pada persamaan \eqref{eq:wedb2}, maka diperoleh persamaan
dalam bentuk iterasi Fisher Scoring, untuk penduga
$\boldsymbol{\beta}$ dapat dinyatakan dengan persamaan berikut
$$
\begin{align}
\mathbf{b^{(1)}}=& \mathbf{b^{(0)}}+\left[\sum_{i=1}^n
\mathbf{X_i}^T \left(\frac{\partial \boldsymbol{\mu_i}}{\partial
\boldsymbol{\eta_i}}\right)
\left[var(\mathbf{Y_i})\right]^{-1}\left(\frac{\partial
\boldsymbol{\mu_i}}{\partial
\boldsymbol{\eta_i}}\right)\mathbf{X_i} \right]^{-1}\nonumber\\
& \hspace{1cm}\left[\sum_{i=1}^n \mathbf{X_i}^T \left(\frac{\partial
\boldsymbol{\mu_i}}{\partial\boldsymbol{\eta_i}}\right)\left[var(\mathbf{Y_i})\right]^{-1}
\left(\mathbf{Y_i}-\boldsymbol{\mu_i}\right)\right]
\label{eq.it.gee}\end{align}
$$
Dalam bentuk iterasi seperti persamaan \eqref{eq.it.gee}, maka
varians "biasa" $\mathbf{b}$, yang biasa disebut varians
naive dapat ditentukan dengan
\begin{equation}
\mathbf{V_N}=\left[\sum_{i=1}^n \mathbf{X_i}^T
\left(\frac{\partial \boldsymbol{\mu_i}}{\partial
\boldsymbol{\eta_i}}\right)
\left[var(\mathbf{Y_i})\right]^{-1}\left(\frac{\partial
\boldsymbol{\mu_i}}{\partial
\boldsymbol{\eta_i}}\right)\mathbf{X_i} \right]^{-1}.
\label{eq.naive}
\end{equation}
Variansi yang lebih tegar, biasa disebut sandwich/
robust variance diperoleh dengan menerapkan hukum bahwa untuk
matriks konstanta $\mathbf A$, maka $var(\mathbf{AY})=\mathbf{A}^Tvar\mathbf{(Y)A}$
dengan
\[
A=\left[\sum_{i=1}^n
\mathbf{X_i}^T \left(\frac{\partial \boldsymbol{\mu_i}}{\partial
\boldsymbol{\eta_i}}\right)
\left[var(\mathbf{Y_i})\right]^{-1}\left(\frac{\partial
\boldsymbol{\mu_i}}{\partial
\boldsymbol{\eta_i}}\right)\mathbf{X_i} \right]^{-1}
\left[\sum_{i=1}^n \mathbf{X_i}^T \left(\frac{\partial
\boldsymbol{\mu_i}}{\partial\boldsymbol{\eta_i}}\right)\left[var(\mathbf{Y_i})\right]^{-1}
\right]
\]
Jika perkalian dengan invers dinotasikan dengan 'pecahan' seperti notasi
\citeasnoun{art:KenwardSmith95},
maka $A$ dapat dinotasikan dengan:
\[
A=\frac{\left[\sum_{i=1}^n \mathbf{X_i}^T \left(\frac{\partial
\boldsymbol{\mu_i}}{\partial\boldsymbol{\eta_i}}\right)\left[var(\mathbf{Y_i})\right]^{-1}
\right]}{\left[\sum_{i=1}^n
\mathbf{X_i}^T \left(\frac{\partial \boldsymbol{\mu_i}}{\partial
\boldsymbol{\eta_i}}\right)
\left[var(\mathbf{Y_i})\right]^{-1}\left(\frac{\partial
\boldsymbol{\mu_i}}{\partial
\boldsymbol{\eta_i}}\right)\mathbf{X_i} \right]}
\]
Untuk menambah efisiensi dari Generalized Estimating Equations (GEE), Prentice & Zhao (1990) memperkenalkan variasi yang disebut GEE2. Kerangka kerja dalam GEE cocok untuk estimasi konsisten dari koefisien regresi dan standar errornya ketika mempunyai data yang berkorelasi. Jika pada GEE menganggap korelasi sebagai nuisiance (parameter gangguan), sedangkan dalam GEE2 mengatasi masalah tersebut dengan memperkenalkan persamaan estimasi kedua untuk parameter kovarian dan diselesaikan secara bersamaan dengan persamaan estimasi pertama.
Metode dengan GEE2 ini memodelkan link korelasi untuk menambah keefisienan dari hasil estimasi yang dilihat dari nilai standar error yang lebih minimum.
Dasar memperoleh GEE2 adalah model eksponensial kuadratik, perluasan dari model GLM yang digunakan di bawah GEE. Model probabilitas marjinal persamaan kuadratik adalah sebagai berikut :
$$P_{i}(y_{i},\mu_{i},\sigma_{i})=\Delta_{i}^{-1}\exp{y_{i}'\theta_{i}+\omega_{i}'\lambda_{i}+c_{i}(y_{i})}$$
dimana $\Delta_{i}=\Delta_{i}(\sigma_{i},\lambda_{i},c_{i}(.))$ adalah normalizing constant, $\omega_{i}'=(y_{{i1}}^{2},y_{i1},y_{i2},...,y_{{i2}}^{2},y_{i2},y_{i3},...)$, $c_{i}(.)$="shape" fungsi, $\theta_{i}'=\theta_{i}'(\mu_{i},\sigma_{i})=(\theta_{i1},...,\theta_{in_{i}})$, $\lambda_{i}'=\lambda_{i}'(\mu_{i},\sigma_{i})=(\lambda_{i11},\lambda_{i12},...,\lambda_{i22},\lambda_{i23},...)$,
dengan $\theta_{i}$ dan $\lambda_{i}$ adalah fungsi parameter mean dan varian, dan $\mu_{i}=\mu_{i}(\beta)$, $\sigma_{i}=\sigma_{i}(\beta,\alpha)$ (Lane,2007).
Estimasi parameter dapat ditunjukkan dalam 'score' persamaan untuk $\beta$ dan $\alpha$ dengan menggunakan GEE2 yaitu
$$K^{-1/2}\sum_{{i=1}}^{n}D_{i}'V_{{i}}^{-1}f_{i}=0$$
dimana
$$D_{i}=\begin{pmatrix}
\frac{\partial\mu_{i}}{\partial\beta}& 0\\
\frac{\partial\sigma_{i}}{\partial\beta}&\frac{\partial\sigma_{i}}{\partial\alpha}
\end{pmatrix}$$
$$V_{i}=\begin{pmatrix}
V_{i11}& V_{i12}\\
V_{i21}& V_{i22}
\end{pmatrix}=\begin{pmatrix}
var(y_{i})& cov(y_{i},s_{i})\\
cov(s_{i},y_{i})& var(s_{i})
\end{pmatrix}$$
$$f_{i}=\begin{pmatrix}
y_{i}-\mu_{i}\\
s_{i}-\sigma_{i}
\end{pmatrix}$$
dengan $s_{i}'=(s_{i11},s_{i12},...,s_{in_{i}n_{i}}$ dan $s_{ijk}=(y_{ij}-\mu_{ij})(y_{ik}-\mu_{ik})$ menjadi kovarian empiris antara individu j dan k (Lane,2007).
Ekuivalensi GEE dan GEE2
Hubungan antara GEE2 dan GEE dapat diringkas dalam tabel berikut
Tabel Perbandingan antara Komponen GEE dan GEE2
No
Komponen
GEE2
GEE
1
Distribusi
Keluarga Eksponensial
(Gaussian, Gamma, Binomial, Poisson)
Idem
2
Struktur Korelasi
Independen, AR-1, Exchangeable,Unstructured
Idem
3
Link Korelasi
Identitas, Fisherz
Identitas
4
Model dispersi
Linier (dengan beberapa prediktor)
Konstan
Dengan demikian ketika pilihan link korelasi adalah 'identity' dan model dispersi adalah
'konstan', maka kita mendapatkan/menggunakan model yang identik dengan GEE (Gee orde 1)
Untuk GEE1 dengan geeglm() tidak ada opsi untuk formula dispersi (identik dengan konstan)
dan tidak ada opsi untuk link korelasi (identik dengan identitas).
Berdasarkan summary data yang ada, anda dapat memilih variabel-variabel
yang akan dijadikan variabel terikat (respon), variabel bebas (prediktor), dan identitas sebagai
model formula untuk mean
Variabel Y (Respon)
Identitas Responden:
Gambar 1. Plot Indeks dari Respon
Gambar 2. Diagram Pencar Satu Prediktor Terhadap Respon Berulang
Dengan korelasi antar pengukuran berulang (klaster):
Prediktor untuk model mean dan model dispersi
Model dan prediktor untuk parameter dispersi (scale)
Pemilihan Distribusi, Link dan Korelasi
Setelah menentukan variabel respon dan variabel prediktor,selanjutnya menentukan maen link sebagai link distribusi, varian sebagai distribusi, struktur korelasi, dan link korelasi.
Pilih link untuk mean:
Pilih Jenis Distribusi:
Pilih struktur korelasi:
Pilih link untuk korelasi:
Hasil Estimasi GEE2
Berikut adalah luaran umum dari GEE dengan pilihan yang telah dilakukan sebelumnya
Pilihan Hasil Analisis
Selain hasil estimasi diatas ada beberapa output lain yang dapat dipilih seperti dibawah ini:
Keterangan :
Dalam program ini,nilai QIC yang ditentukan berdasarkan variabel dan model sehingga tidak berpengaruh terhadap struktur korelasi dan link korelasi.
Model terbaik dari link korelasi maupun struktur korelasi pada GEE2 dapat dilihat berdasarkan nilai standard error yang lebih minimum. Sedangkan Uji signifikansi model dapat dilakukan dengan melihat nilai Wald atau P-value.
Højsgaard, S., Halekoh, U. & Yan J. 2006. The R Package geepack for
Generalized Estimating Equations. Journal of Statistical Software, 15,
2, pp1--11
Hidayati, R.D. 2013. "Pendekatan Generalized Estimating Equations Orde 2 (GEE2) untuk Data Longitudinal". Tidak Diterbitkan. Skripsi. Jember : Universitas Jember.Lane, S. 2007. Generalized Estimating Equations for Pedigree Analysis. Departemen of Mathematics and Statistics : University of Melbourne.Tambun, A. 2012. "Analisis GEE (Generalized Estimating Equations) untuk Respon Biner Bivariat". Tidak Diterbitkan. Skripsi. Jember : Universitas Jember.Ziegler, A. 2011. Generalized Estimating Equations. New York : Springer.