Generalized Estimating Equation (GEE) dengan Respon Multinomial Berskala Ordinal Dengan Paket Multgee (Draft)

Tirta, IM., Wijiasih, L.,Anggraeni, D.
Jurusan Matematika FMIPA Universitas Jember, 2015.

DAFTAR ISI

  1. PENDAHULUAN
  2. RINGKASAN TEORI
  3. ILUSTRASI DENGAN R
  4. APLIKASI MODEL
  5. CATATAN
  6. DAFTAR BACAAN
  7. LAMPIRAN DATA

PENDAHULUAN

Latar belakang

Dalam suatu penelitian, statistika sering dipilih dalam menganalisis suatu data. Statistika digunakan karena mampu memenuhi asumsi kompleksitas data dan mampu memenuhi tujuan-tujuan dalam penelitian. Penelitian dengan menggunakan statistika terdiri dari beberapa metode, salah satunya metode Generalized Estimating Equation (GEE). Generalized Estimating Equation (GEE) merupakan metode statistika yang digunakan untuk menganalisa data berkorelasi salah satunya karena pengukuran berulang (repeated measurement). Data dengan respon berkorelasi disebut sebagai data longitudinal. Metode GEE dalam penelitian ini, diterapkan pada respon multinomial berskala ordinal. Data longitudinal berskala ordinal adalah data dengan respon yang memiliki order (tingkatan penyakit dalam kesehatan (stadium 1, stadium 2, stadium3, stadium 4), tempat tinggal seseorang (tidak punya, kontrak, rumah pribadi dll.), tingkat kepuasan pelanggan layanan sosial (puskesmas, internet, toko, supermarket, dll) yang diukur secara berkala sesuai dengan waktu yang ditentukan. Dalam menganalisis GEE untuk respon multinomial, Touloumis (2014) dan Touloumis (2015) telah memperkenalkan paket dalam program R yaitu paket multgee. Namun, dalam penggunaanya paket tersebut akan tidak mudah terutama bagi peneliti yang kurang menguasai pemrograman R. Sehingga, dalam program ini paket multgee dalam pengaplikasian GEE respon multinomial untuk data ordinal dibuat dengan sistem web interaktif. Sehingga, mempermudah seseorang yang kurang menguasai pemrograman R menjadi lebih mudah untuk melakukan analisis GEE multinomial pada data ordinal secara online hanya dengan memasukkan data dan memilih menu tanpa harus menginstall dan menguasai program R dan melakukannya secara offline dalam komputernya. Contoh bentuk data yang diperlukan untuk analisis merupakan data dengan skala ordinal yang diukur secara berkala (Longitudinal) adalah seperti tabel dibawah ini.

$No$ $X_{1}$ $X_{2}$ $X_{3}$ $Y_{t_1}$ $Y_{t_2}$ $Y_{t_3}$
1 A L $x_{13}$ 0 0 1
2 A L $x_{23}$ 1 2 2
3 B P $x_{33}$ 0 2 1
$\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$
$i$ C L $x_{i3}$0 23
$\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$
$N$ D P $x_{N3}$ 10 3

Tujuan

Pada web ini, pengguna diharapkan
  1. dapat melakukan analisis GEE multinomial berskala ordinal;
  2. dapat memilih model terbaik dalam menggunakan analisis GEE multinomial data ordinal untuk masing-masing korelasi dengan mean square error

Bahasan

Materi yang dibahas dalam kegiatan ini adalah
  1. asumsi dan komponen penting dalam GEE multinomial berskala ordinal
  2. estimasi parameter pada GEE multinomial bersakala ordinal
  3. menentukan model terbaik

RINGKASAN TEORI

PENDEKATAN GEE RASIO ODDS LOKAL

Misalkan $${Y_i}=(Y_{i11},...,Y_{i1(I-1)},...,Y_{i21},...,Y_{i2(I-1)},...,Y_{iT1},...,Y_{iT(I-1)})^T$$ dimana ${Y_{itj}=1}$ untuk subjek $i$ pada waktu $t$ pada respon $I$ dan ${Y_{itj}=0}$ untuk lainnya. Untuk itu dapat dikatakan apabila terdapat $I$ kategori respon maka berdasarkan rasio odds lokal maka satu respon dianggap 1 dan $(I-1)$=0 dan ${x_i}=({x_{i1}}^T,...,{x_{iT}}^{T})^{T}$ merupakan matriks kovariat untuk subjek ke-$i$. Didefinisikan dengan ${\pi_{itj}}={E}({Y_{itj}}|\mathbf{x_{i}})={P}({Y_{it}}=j|{x_{i}})$ untuk $j=1,...,I$ , $t=1,...,T$ sebagai peluang kategori respon ke-$j$ pada waktu $t$ untuk subjek $i$, dan misalkan ${\pi_i}=({\pi_{i1}}^T,...,\mathbf{\pi_{iT}}^{T})^{T}$ adalah mean vektor $\boldsymbol{Y_i}$ dimana ${\pi_i}=({\pi_{it1}},...,{\pi_{it(I-1)}})^{T}$ sehingga ${Y_{itI}} =1-\sum_{j=1}^{I-1}{Y_{itj}}$ dan ${\pi_{itI}}=1-\sum_{j=1}^{I-1}{\pi_{itj}}$ (Touloumis, 2015).

Model Marjinal Untuk Korelasi Respon Multinomial (Ordinal)

Pilihan dari model marjinal tergantung skala respon. Untuk respon multinomial skala ordinal, model marjinal yang digunakan adalah model link komulatif \[F^{-1}\left[P(Y_{it}\leq j|x_i\right]=\beta_{0j}+\beta_{*}^Tx_{it}\] dan adjacent category logit model(acl) \[\log\left(\frac{\mathbf{\pi_{itj}}}{\mathbf{\pi_{it(j+1)}}}\right)=\beta_{0j}+\beta_{*}^Tx_{it}\] dimana ${\beta_{0j}:j=1,...,I-1}$ adalah intersep dari kategori respon. Sehingga, untuk hasil estimasinya akan didapat hasil intersep sebanyak $(I-1)$ dan $\beta$ sesuai untuk masing masing $x$. Maka untuk memperoleh peluang kategoi ke-$I$ dapat diperoleh sesuai dengan fungsi link yang digunakan.

Estimasi Vektor Parameter Regresi Marjinal

Estimator GEE $\hat{\boldsymbol{\beta}}$adalah penyelesaian untuk persamaan $$U({\beta},{\alpha})=\sum_{i=1}^N{D_i} ^{-1} ({Y_i} - {\pi_i})$$ dimana ${D_i}=\frac{\partial{\pi_i}}{\partial{\beta}}$ dan ${V_i}={V_i}({\beta},{\alpha})$ merupakan ${T_i}(I - 1) \times {T_i}(I - 1)$ matriks pembobot yang biasanya berpengaruh sebagai 'working' matriks kovarian (Touloumis et al., 2013).

Estimasi Vektor Parameter Nuisance dan Matriks Pembobot

Misalkan $L=T{(T-1)/2}$ pasangan waktu dengan elemen pasangan bervariasi seperti $(1,2),(1,3),...,(T-1,T)$ ,dan $G$ adalah grup variabel dengan $L$ order pasangan untuk masing masing pasangan waktu $(t,t\prime)$ , abaikan kovariat and klasifikasi respon antar subjek untuk membentuk sebuah tabel kontingensi $I \times I$ sehingga total baris sesuai dengan jumlah pengamatan pada waktu $t$ dan jumlah kolom untuk total observasi pada waktu $t\prime$, dan misalkan $\theta_{{t}{j}{t\prime}{j\prime}}$ merupakan rasio odds lokal pada titik potong $(j j\prime)$ berdasarkann perkiraan frekuensi $f_{{t}{j}{t\prime}{j\prime}} : j, {j\prime} = 1 ,..., j$. untuk alasan notasi , misalkan $A$ dan $B$ merupakan baris dan kolom masing-masing. Dengan asumsi skema sampel Poisson dengan $L$ himpunan dari $I \times I$ tabel kontingensi, sesuai dengan RC-G (1) jenis Model (Becker dan Clogg 1989). \begin{equation} \log f_{{t}{j}{t\prime}{j\prime}} = \lambda + \lambda^A_{j} + \lambda^B_{j\prime} + \lambda^G_{t,{t\prime}} + \lambda^{AG}_{j{t,{t\prime}}} + \lambda^{BG}_{{t\prime}{t,{t\prime}}} + \phi^{t,{t\prime}} \mu^{t,{t\prime}}_{j} \mu^{t,{t\prime}}_{j\prime} , \end{equation} dimana ${\mu^{t,{t\prime}}_{j\prime} : j = 1,...,I}$ adalah parameter untuk nilai $I$ dengan setiap pasangan pada ${t,{t\prime}}$ . Setelah mengidentifikasi batasan parameter regresi di persamaan $(5)$, dengan struktur rasio odds lokal sebagai berikut \begin{equation} \log \theta_{{t}{j}{t\prime}{j\prime}} = \phi^{t,{t\prime}} (\mu^{t,{t\prime}}_{j} - \mu^{t,{t\prime}}_{j+1}) (\mu^{t,{t\prime}}_{j\prime} - \mu^{t,{t\prime}}_{{j\prime}+1}) \end{equation} Pada persamaan $(6)$ merangkum struktur rasio odds lokal di $I$ dengan nilai parameter dan parameter intrinsik $\phi^{t,{t\prime}}$ yang mengukur rata-rata korelasi dari tabel kontingensi marjinal. Karena nilai parameter tidak perlu diperbaiki atau mono-tonik, struktur rasio odds lokal berlaku untuk kedua respon multinomial baik nominal dan ordinal (Touloumis, 2015). Touloumis et al. $(2013)$ mendefinisikan $\alpha$ sebagai vektor parameter yang berisi struktur rasio odds lokal \begin{equation} \boldsymbol{\alpha}= (\theta_{1121},...,\theta_{1{(I-1)2(I-1)}},..., \theta_{{(T-1)}{1T1}},.., \theta_{(T-1)(I-1)T(I-1)})^T \end{equation} dimana $\theta_{tj{t\prime}{j\prime}}$ memenuhi persamaan $(6)$. Struktur rasio odds lokal untuk skala ordinal, Touloumis, et.al, (2013) mengajukan untuk menggunakan nilai parameter yang umum antar unit $(\mu^{(t,{t\prime})}_j = j)$ dan/atau parameter intrinsik umum $(\phi^{(t,{t\prime})}_j = \phi)$ pada tiap pasangan waktu. Untuk mengestimasi $\alpha$, metode maximum likelihood digunakan untuk perlakuan $L$ tabel kontingensi marjinal sebagai independen. Untuk detail tehnik dan kebenaran tentang prosedur estimasi ini dapat ditemukan dalam Touloumis (2011) and Touloumis et al. (2013). Syarat atau kondisi dalam mengestimasi struktur rasio odds lokal marjinal ${\hat{\alpha}}$ dan spesifikasi model marjinal pada waktu $t$ dan $t^\prime$, ${P(Y_{it}=j,Y_{i{t\prime}}={j\prime}|x_i)}$ diperoleh dengan solusi unik dari iterative proportional fitting procedure (IPFP) ((Deming and Stephan (1940) dalam Touloumis (2011)). Oleh karena itu, ${\textbf{V}_i}$ dapat dihitung dan estimasi persamaan (7) dapat diselesaikan terhadap $\beta$.
Tabel marjinal L merupakan tabel persegi. Untuk selanjutnya dapat ditetapkan model korelasi dengan menggunakan $log\theta_{{t}{j}{t\prime}{j\prime}}$. Untuk data dengan respon multinomial skala respon ordinal menurut Touloumis et al.,(2013) struktur yang digunakan adalah

  1. Struktur Uniform, $\log \theta_{{t}{j}{t\prime}{j\prime}} = \phi$ dapat diperoleh dengan mencocokan ke homogenan kelinieran model asosiasi. Struktur ini mengasumsikan keseragaman dari pasangan waktu dan pasangan kategori bertetangga.
  2. Struktur Category Exchangeability, $\log \theta_{{t}{j}{t\prime}{j\prime}} = \phi_{tt\prime}$ dapat diperoleh dengan mencocokkan ke heterogenan kelinieran model asosiasi. Struktur ini mengasumsikan lokal odds rasio yang umum pada setiap pasangan waktu, tetapi mengijinkan pasangan berbeda untuk memiliki asosiasi yang berbeda.

Sifat-sifat Asimtotik dari Estimator GEE

Untuk suatu $ \hat{\alpha} $, penarikan kesimpulan dari $ \beta $ didasarkan fakta bahwa $\sqrt{N}(\hat{\beta}_{G}-\beta) \sim N(0,\Sigma)$ secara asimtotik, dimana $$\Sigma= \lim_{N\rightarrow\infty} N \boldsymbol{\Sigma}_{0}^{-1}\boldsymbol{\Sigma}_{1} \boldsymbol{\Sigma}_{0}^{-1} $$ dengan $\boldsymbol{\Sigma}_{0}=\sum_{i=1}^{N} \mathbf{D_{i}^{T} V_{i}}$ dan $\boldsymbol{\Sigma}_{1}=\sum_{i=1}^{N} \mathbf{D_{i}^{T} V_{i}^{-1}}$ COV $\mathbf{(Y_{i}\mid x_{i})V_{i}^{-1} D_{i}}$. Untuk ukuran sampel terbatas $\widehat{\Sigma}$ diestimasi dengan menghitung limit $(8)$ dan mengganti $\beta$ dengan $\widehat{{\beta}_{G}}$ dan COV $(Y_{i}\mid x_{i})$ dengan $(Y_{i}-\hat{\pi}_{i})(Y_{i}-\hat{\pi}_{i})^{T}$pada $\Sigma_{0}$ dan $\Sigma_{1}$.Pada sumber $\widehat{\Sigma}/N$ sering dimasukkan sebagai "sandwich" atau "robust" matriks kovarian dari $\widehat{{\beta}_{G}}$ (Touloumis, 2015).

Ilustrasi dengan R

Sintaks untuk melakukan analisis GEE multinomial adalah dengan paket multgee() untuk data Ordinal digunakan fungsi ordLORgee()
ordLORgee(y~x1+x2+...+xn, data=..., id=.., link=... ,LORstr=...,)
(Touloumis,2015)

APLIKASI MODEL

Pilih Data


Pilihan Data
Khusus untuk Import Data, cari file:
Header: , Pemisah: , Kutipan:

Tampilan Data Lengkap Klik Disini

EKSPLORASI DATA

Ringkasan Data

Dari summary data yang ada, anda bisa menentukan variabel-variabel (kuantitatif) yang akan dijadikan variabel bebas (eksplanatori) dan variabel terikat (respon). Variabel respon harus yang berdistribusi multinomial dengan skala ordinal.


Pilih Variabel Identitas untuk multgee

Pilih Variabel Respon untuk multgee

Pilih Pengulangan (Repeated) untuk multgee

Pilih Variabel Prediktor untuk multgee

Setelah menentukan variabel bebas dan terikat (respon),anda dapat juga menentukan link dan struktur rasio odds lokal yang sesuai.
Dalam pemilihan fungsi link, pilihan link meliputi logit, probit, cauchit, dan cloglog yang berkorespondensi dengan fungsi distribusi komulatif $F$ dalam fungsi link komulatif sedangkan pilihan fungsi link acl mengimplikasikan adjacent category logit model (Touloumis,2015).


Pilih Fungsi Link


Setelah memilih link pilih struktur rasio odds lokal yang akan digunakan

Pilih Jenis Rasio Odds Lokal

HASIL ESTIMASI MULTINOMIAL GEE ORDINAL



ROOT MEAN SQUARE ERROR (RMSE)

Untuk uji kecocokan model untuk membandingkna model yang lebih baik berdasarkan struktur rasio odds lokalnya digunakan nilai Root Mean Square Error (RMSE) yang dicari dengan rumus $$RMSE=\sqrt{\frac{\sum_{i=1}^N \left(\widehat{Y}_i-Y_i\right)^{2}}{N}}$$


DETAIL PILIHAN HASIL ANALISIS

Selain output-output diatas ada beberapa output lain yang dapat dipilih seperti dibawah ini:


CATATAN

Dalam Generalized Estimating Equation (GEE) Multinomial Skala Ordinal ini untuk mengetahui model terbaik dapat diketahui melalui nilai Root Mean Square Error(RMSE) dengan mengganti struktur rasio odds lokal yang digunakan. Berdasarkan model marjinalnya maka hasil estimasinya diperoleh parameter sebanyak $(I-1)$ dimana $I$ adalah jumlah variabel responnnya dengan tiap tiap estimator memiliki intersep. Sehingga untuk peluang kategori yang belum diketahui dapat diperoleh dengan ${Y_{itI}} =1-\sum_{j=1}^{J-1}{Y_{itj}}$ dan ${\pi_{itI}}=1-\sum_{j=1}^{I-1}{\pi_{itj}}$

DAFTAR PUSTAKA

  1. Becker, M. dan Clogg, C.1989. Analysis of set of two-way contingency tables using assosiation models. Journal of American Statistic Assosiation 84, 142-151.
  2. Deming, W. and Stephan, F. (1940). On a least squares adjustment of a sampled frequency table when the expected marginal totals are known. The Annals of Mathematical Statistics 11,427-444.
  3. Godman, L.1985. The analysis of cross-classified data having ordered and/or unordered categories: Assosiation models. Correlation models, and asymetry models for contingency tables with or without missing entry. The Annals of statistics 13,10-69.
  4. Lumley, T.1996. Generalized estimating equation for ordinal data: A note on the working correlation structure. Biometrics, 52,354-361.
  5. Touloumis, A., Angresti, A., Kateri, M. 2013. GEE for Multinomial Response Using a Local Odds Ratios Parameterization. Biometrics.69.663-640.
  6. Touloumis, A.2011. General Estimating Equations for Multinomial Respon.Disertasi.University of Florida.
  7. Touloumis, A.2014.GEE Solver for Correlated Nominal or Ordinal Multinomial Responses.R package version 1.5.0.
  8. Touloumis, A.2015.R Package multgee : A Generalized Estimating Equations Solver for Multinomial Respon. Journal of Statistics Software.Vol 64 issue 8.

LAMPIRAN DATA


Berikut adalah detail data yang dipilih

Pilihan untuk menampilkan banyaknya sampel yang diinginkan