Panel Data — Mathematical Derivation

FE, RE, Hausman — dari Prinsip Pertama

econometrics-math

intermediate

Derivasi matematis estimator Fixed Effects, Random Effects, Hausman test, dan First Difference untuk panel data. Kapan FE vs RE, dan apa yang sebenarnya diuji Hausman test.

1 Kenapa Ini Penting?

Why This Matters for Your Work

Panel data ada di mana-mana dalam penelitian ekonomi dan sosial. Memahami math di balik FE vs RE sangat penting untuk:

Tahu kapan Hausman test matters dan apa yang sebenarnya diuji
Paham kenapa FE tidak bisa estimasi koefisien variabel time-invariant (misal: gender, ras)
Mengerti trade-off efisiensi vs konsistensi
Debug hasil yang aneh (misalnya: kenapa FE dan RE beda jauh?)

Kalau selama ini kamu pakai FE karena “lebih aman”, setelah ini kamu akan tahu exactly kenapa itu benar — atau kapan tidak.

2 Setup Panel Data

Definisi: Panel Data Model

Observasi: $i = 1, \ldots, N$ (individuals/units), $t = 1, \ldots, T$ (time periods).

Model dasar: \[y_{it} = x_{it}^T\beta + \alpha_i + \varepsilon_{it}\]

$y_{it}$: outcome untuk unit $i$ pada waktu $t$
$x_{it}$: vektor regressor (bisa time-varying atau time-invariant)
$\alpha_i$: individual fixed effect — unobserved heterogeneity spesifik unit $i$
$\varepsilon_{it}$: idiosyncratic error, $E[\varepsilon_{it}|x, \alpha] = 0$

$\alpha_i$ menangkap semua karakteristik unit $i$ yang tidak berubah sepanjang waktu dan tidak terobservasi: kemampuan bawaan, budaya perusahaan, karakteristik geografis permanen.

Asumsi kunci yang membedakan FE vs RE: apakah $\alpha_i$ berkorelasi dengan $x_{it}$?

Fixed Effects: tidak ada asumsi tentang $\text{Cor}(\alpha_i, x_{it})$
Random Effects: mengasumsikan $\text{Cor}(\alpha_i, x_{it}) = 0$

3 Fixed Effects (FE) Estimator — Within Estimator

3.1 Ide Dasar: Eliminasi $\alpha_i$ via Demeaning

Karena $\alpha_i$ tidak terobservasi dan bisa berkorelasi dengan $x_{it}$, kita perlu mengeliminasi $\alpha_i$.

Ambil rata-rata dalam kelompok $i$: \[\bar{y}_i = \bar{x}_i^T\beta + \alpha_i + \bar{\varepsilon}_i\]

Kurangi dari persamaan asal (within transformation): \[\tilde{y}_{it} = \tilde{x}_{it}^T\beta + \tilde{\varepsilon}_{it}\]

di mana $\tilde{y}_{it} = y_{it} - \bar{y}_i$ dan $\tilde{x}_{it} = x_{it} - \bar{x}_i$.

$\alpha_i$ hilang! Sekarang bisa OLS pada data yang sudah di-demean.

3.2 FE Estimator

\[\hat{\beta}_{FE} = \left(\sum_{i=1}^N\sum_{t=1}^T \tilde{x}_{it}\tilde{x}_{it}^T\right)^{-1}\left(\sum_{i=1}^N\sum_{t=1}^T \tilde{x}_{it}\tilde{y}_{it}\right)\]

Dalam notasi matrix: definisikan $M_D$ sebagai within-group demeaning matrix (annihilator terhadap group dummies $D$):

\[\hat{\beta}_{FE} = (X^T M_D X)^{-1} X^T M_D y\]

$M_D = I - D(D^TD)^{-1}D^T$ di mana $D$ adalah matrix dummy variabel individu.

3.3 FWL Theorem dan FE

Definisi: Frisch-Waugh-Lovell (FWL) Theorem

FWL menjamin: estimator FE identik dengan OLS yang memasukkan individual dummies secara eksplisit:

\[y_{it} = x_{it}^T\beta + \sum_{i=1}^N d_i \alpha_i + \varepsilon_{it}\]

di mana $d_i$ adalah dummy untuk individual $i$.

FWL: koefisien $\hat{\beta}$ dari regresi panjang = koefisien dari regresi residual-pada-residual setelah mempartial-out efek dummies.

Ini yang disebut within estimator — hanya menggunakan variasi dalam individu dari waktu ke waktu.

3.4 Properties FE Estimator

Konsisten meskipun $\text{Cor}(\alpha_i, x_{it}) \neq 0$ — ini keunggulan utama FE
Tidak bisa estimasi time-invariant regressors: jika $x_{it} = x_i$ (konstan dalam waktu), maka $\tilde{x}_{it} = 0$ — terdrop dari regresi!
Variance: \[\text{Var}(\hat{\beta}_{FE}) = \sigma_\varepsilon^2 \left(\sum_i\sum_t \tilde{x}_{it}\tilde{x}_{it}^T\right)^{-1}\]
Degrees of freedom: $NT - N - k$ (kehilangan $N$ df karena mengestimasi $N$ fixed effects)

4 Between Estimator (BE)

OLS pada group means (cross-section dari rata-rata): \[\bar{y}_i = \bar{x}_i^T\beta + \alpha_i + \bar{\varepsilon}_i\]

\[\hat{\beta}_{BE} = \left(\sum_i \bar{x}_i\bar{x}_i^T\right)^{-1}\left(\sum_i \bar{x}_i\bar{y}_i\right)\]

BE menggunakan variasi antar-individu — kebalikan FE. Tapi BE biased jika $\alpha_i$ berkorelasi dengan $x_{it}$!

BE berguna sebagai building block untuk memahami RE.

5 Random Effects (RE) Estimator

5.1 Asumsi RE

\[\alpha_i \sim N(0, \sigma_\alpha^2), \quad \text{independent of } x_{it}\]

\[u_{it} = \alpha_i + \varepsilon_{it} \quad \Rightarrow \quad \text{Var}(u_{it}) = \sigma_\alpha^2 + \sigma_\varepsilon^2\]

5.2 Struktur Covariance Error

Untuk unit $i$, error vector $\mathbf{u}_i = (\alpha_i + \varepsilon_{i1}, \ldots, \alpha_i + \varepsilon_{iT})^T$:

\[\Omega_i = E[\mathbf{u}_i\mathbf{u}_i^T] = \sigma_\varepsilon^2 I_T + \sigma_\alpha^2 \iota_T\iota_T^T\]

di mana $\iota_T$ adalah vektor satuan. Perhatikan serial correlation: $\text{Cov}(u_{it}, u_{is}) = \sigma_\alpha^2$ untuk $t \neq s$ — errors dalam satu individu berkorelasi karena berbagi $\alpha_i$.

OLS mengabaikan struktur ini → inefficient tapi masih unbiased jika RE assumption hold.

5.3 GLS Estimator (RE)

GLS menggunakan $\Omega^{-1}$ untuk transformasi:

\[\hat{\beta}_{RE} = \left(X^T \Omega^{-1} X\right)^{-1} X^T \Omega^{-1} y\]

Transformasi Mundlak-Swamy (partial demeaning):

\[\tilde{y}_{it}^{RE} = y_{it} - \hat{\theta}\bar{y}_i\]

di mana: \[\hat{\theta} = 1 - \sqrt{\frac{\sigma_\varepsilon^2}{\sigma_\varepsilon^2 + T\sigma_\alpha^2}} \in (0, 1)\]

$\theta \to 0$: RE $\approx$ OLS (heterogeneity kecil, $\sigma_\alpha^2 \approx 0$)
$\theta \to 1$: RE $\approx$ FE (heterogeneity dominan, $T$ besar)

RE adalah matrix-weighted average dari FE dan BE: \[\hat{\beta}_{RE} = \Lambda \hat{\beta}_{FE} + (I - \Lambda)\hat{\beta}_{BE}\]

untuk matriks bobot tertentu $\Lambda$.

5.4 Properties RE

Efficient (minimum variance) jika RE assumption holds
Inconsistent jika $\text{Cor}(\alpha_i, x_{it}) \neq 0$ (endogeneity bias)
Bisa estimasi time-invariant regressors (tidak di-demean sepenuhnya)

6 Hausman Test

6.1 Intuisi

Jika $H_0: \text{Cor}(\alpha_i, x_{it}) = 0$ benar, maka keduanya FE dan RE konsisten — tapi RE lebih efisien. Keduanya harus memberikan estimasi yang “dekat”.

Jika $H_1$ benar (korelasi ada), FE tetap konsisten tapi RE biased. Perbedaan $\hat{\beta}_{FE} - \hat{\beta}_{RE}$ akan “besar”.

6.2 Test Statistic

Definisi: Hausman Test Statistic

\[H = (\hat{\beta}_{FE} - \hat{\beta}_{RE})^T \left[\widehat{\text{Var}}(\hat{\beta}_{FE}) - \widehat{\text{Var}}(\hat{\beta}_{RE})\right]^{-1} (\hat{\beta}_{FE} - \hat{\beta}_{RE})\]

Asymptotically: $H \sim \chi^2(k)$ under $H_0$, di mana $k$ = jumlah parameter yang bervariasi sepanjang waktu.

Key insight: $\widehat{\text{Var}}(\hat{\beta}_{FE}) - \widehat{\text{Var}}(\hat{\beta}_{RE})$ harus positive semi-definite under $H_0$ (karena FE tidak efisien).

Jika $H > \chi^2_{k, \alpha}$: tolak $H_0$ → gunakan FE.

Jika $H \leq \chi^2_{k, \alpha}$: gagal tolak $H_0$ → RE OK (lebih efisien).

Catatan penting: Hausman test “classical” bisa gagal jika $\hat{V}_{FE} - \hat{V}_{RE}$ tidak positive semi-definite secara numeris. Alternatif: Mundlak auxiliary regression.

6.3 Mundlak Auxiliary Regression

Cara alternatif untuk Hausman: tambahkan group means $\bar{x}_i$ ke model RE:

\[y_{it} = x_{it}^T\beta + \bar{x}_i^T\pi + \alpha_i + \varepsilon_{it}\]

Test $H_0: \pi = 0$. Setara dengan Hausman test tapi numerically lebih stabil.

7 First Difference (FD) Estimator

7.1 Idea

Eliminasi $\alpha_i$ dengan differencing berturutan:

\[\Delta y_{it} = y_{it} - y_{it-1} = \Delta x_{it}^T\beta + \Delta\varepsilon_{it}\]

$\alpha_i$ hilang! OLS pada first-differenced data.

\[\hat{\beta}_{FD} = \left(\sum_{i,t}\Delta x_{it}\Delta x_{it}^T\right)^{-1}\left(\sum_{i,t}\Delta x_{it}\Delta y_{it}\right)\]

7.2 FD vs FE

$T = 2$: FD dan FE identik!
$T > 2$: FD dan FE tidak sama — perbedaan ada di struktur error
- Jika $\varepsilon_{it}$ i.i.d.: FE lebih efisien
- Jika $\varepsilon_{it}$ memiliki unit root ($\Delta\varepsilon_{it}$ adalah white noise): FD lebih efisien
Interpretasi: FD mengukur perubahan sepanjang waktu — sensible untuk panel pendek

8 Worked Example: Wage-Education Panel

Worked Example: FE, RE, Hausman di R

library(plm)
library(tidyverse)

# Load NLSY data atau simulasi data wage panel
data("Wages", package = "plm")

# Set sebagai panel data frame
pdata <- pdata.frame(Wages, index = c("id", "time"))

# 1. Pooled OLS
ols <- lm(lwage ~ ed + exp + exp2 + wks + south + smsa + married + union,
          data = Wages)

# 2. Between Estimator
be_model <- plm(lwage ~ ed + exp + exp2 + wks + south + smsa + married + union,
                data = pdata, model = "between")

# 3. Fixed Effects (Within)
fe_model <- plm(lwage ~ ed + exp + exp2 + wks + south + smsa + married + union,
                data = pdata, model = "within")
# Note: ed (education) akan di-drop karena time-invariant!

# 4. Random Effects
re_model <- plm(lwage ~ ed + exp + exp2 + wks + south + smsa + married + union,
                data = pdata, model = "random")

# Bandingkan koefisien
cat("=== Pooled OLS ===\n")
print(coef(ols))

cat("\n=== Fixed Effects ===\n")
print(coef(fe_model))

cat("\n=== Random Effects ===\n")
print(coef(re_model))

# 5. Hausman Test
hausman <- phtest(fe_model, re_model)
print(hausman)

# Interpretasi:
# p-value < 0.05 -> tolak H0 -> gunakan FE
# p-value > 0.05 -> gagal tolak H0 -> RE OK

# 6. Manual within transformation
Wages_fe <- Wages %>%
  group_by(id) %>%
  mutate(
    lwage_dm = lwage - mean(lwage),
    exp_dm   = exp - mean(exp),
    wks_dm   = wks - mean(wks),
    union_dm = union - mean(union)
  ) %>%
  ungroup()

# FE = OLS on demeaned data
fe_manual <- lm(lwage_dm ~ exp_dm + wks_dm + union_dm - 1,
                data = Wages_fe)
cat("\n=== Manual FE (should match plm) ===\n")
print(coef(fe_manual))

# 7. Theta parameter untuk RE
summary(re_model)$theta  # Partial demeaning parameter

Step-by-step within transformation:

Hitung $\bar{y}_i = \frac{1}{T}\sum_t y_{it}$ untuk setiap individu $i$
Buat $\tilde{y}_{it} = y_{it} - \bar{y}_i$
Ulangi untuk semua regressors
OLS pada variabel yang sudah di-demean
SE perlu koreksi df karena kehilangan $N$ df untuk estimasi group means

Expected results untuk wage data: - FE: education terdrop (time-invariant), koefisien union relatif rendah - RE: education significant, koefisien lebih tinggi dari FE - Hausman test biasanya reject H0 → FE preferred

9 Ringkasan: Memilih Estimator

Situasi	Rekomendasi	Alasan
$\text{Cor}(\alpha_i, x_{it}) \neq 0$ (endogenous FE)	FE	Konsisten
$\text{Cor}(\alpha_i, x_{it}) = 0$ dan perlu time-invariant	RE	Efisien, bisa estimasi
$T = 2$, serial correlation dalam $\varepsilon_{it}$	FD	Robust
Uji formal diperlukan	Hausman test	Systematic
RE tapi khawatir bias	Mundlak regression	Robust alternative

Connection: Dynamic Panels dan DiD

Panel data punya banyak ekstensi penting:

Arellano-Bond (GMM): dynamic panel $y_{it} = \rho y_{it-1} + x_{it}^T\beta + \alpha_i + \varepsilon_{it}$. FE masih biased karena $y_{it-1}$ berkorelasi dengan $\alpha_i$. Solusi: gunakan level-lagged sebagai instruments dalam first difference.
Difference-in-Differences (DiD) adalah FE model! Model standar DiD: \[y_{it} = \alpha_i + \lambda_t + \delta(D_i \times \text{Post}_t) + \varepsilon_{it}\] memasukkan individual FE dan time FE. Staggered DiD dan synthetic control adalah ekstensi.
Correlated Random Effects (Mundlak-Chamberlain): RE model dengan $\alpha_i = \bar{x}_i^T\xi + a_i$ — merupakan kompromi antara FE dan RE.

10 Practice Problems

Practice Problems

Problem 1: Tunjukkan FD = FE ketika $T = 2$.

Untuk $T = 2$: within transformation memberikan $\tilde{y}_{i1} = y_{i1} - \bar{y}_i = (y_{i1} - y_{i2})/2$ dan $\tilde{y}_{i2} = (y_{i2} - y_{i1})/2 = -\tilde{y}_{i1}$.

FD: $\Delta y_i = y_{i2} - y_{i1}$, $\Delta x_i = x_{i2} - x_{i1}$.

$\hat{\beta}_{FD} = (\Delta X^T \Delta X)^{-1}\Delta X^T \Delta y$ di mana $\Delta X$ dan $\Delta y$ hanya ada satu observasi per individu.

Numerically identical dengan FE karena setiap observasi $\tilde{x}_{it}$ adalah linear transformation dari $\Delta x_i$.

Problem 2: Buktikan bahwa $\hat{\beta}_{RE}$ adalah weighted average dari $\hat{\beta}_{FE}$ dan $\hat{\beta}_{BE}$.

Hint: Dekomposisi $\hat{V}^{-1}_{RE}$ menjadi $\hat{V}^{-1}_{FE}$ dan $\hat{V}^{-1}_{BE}$ components.

Problem 3: Mengapa FE tidak bisa estimasi koefisien variabel time-invariant?

Jika $x_{it} = x_i$ (tidak berubah): $\tilde{x}_{it} = x_{it} - \bar{x}_i = x_i - x_i = 0$. Variabel terdrop dari regresi karena tidak ada variasi “within” untuk dieksploitasi.

Problem 4: Jelaskan apa yang terjadi ketika $\sigma_\alpha^2 \to \infty$ pada estimator RE.

$\theta = 1 - \sqrt{\sigma_\varepsilon^2/(\sigma_\varepsilon^2 + T\sigma_\alpha^2)} \to 1$. Partial demeaning menjadi full demeaning → RE $\to$ FE.

Problem 5: Dalam konteks DiD, apa peran “parallel trends assumption”?

Parallel trends: tanpa treatment, $E[y_{it}^{(0)} - y_{it-1}^{(0)} | D_i = 1] = E[y_{it}^{(0)} - y_{it-1}^{(0)} | D_i = 0]$. Ini setara dengan mengasumsikan $\alpha_i$ tidak berinteraksi dengan time trend — asumsi yang lebih kuat dari RE assumption biasa.

Navigasi: ← MLE Discrete Choice | Time Series Math →

--- title: "Panel Data — Mathematical Derivation" subtitle: "FE, RE, Hausman — dari Prinsip Pertama" description: "Derivasi matematis estimator Fixed Effects, Random Effects, Hausman test, dan First Difference untuk panel data. Kapan FE vs RE, dan apa yang sebenarnya diuji Hausman test." categories: [econometrics-math, intermediate] --- ## Kenapa Ini Penting? ::: {.callout-note title="Why This Matters for Your Work"} Panel data ada di mana-mana dalam penelitian ekonomi dan sosial. Memahami math di balik FE vs RE sangat penting untuk: - Tahu kapan **Hausman test matters** dan apa yang sebenarnya diuji - Paham kenapa FE **tidak bisa estimasi koefisien** variabel time-invariant (misal: gender, ras) - Mengerti trade-off **efisiensi vs konsistensi** - Debug hasil yang aneh (misalnya: kenapa FE dan RE beda jauh?) Kalau selama ini kamu pakai FE karena "lebih aman", setelah ini kamu akan tahu exactly kenapa itu benar — atau kapan tidak. ::: --- ## Setup Panel Data ::: {.callout-important title="Definisi: Panel Data Model"} Observasi: $i = 1, \ldots, N$ (individuals/units), $t = 1, \ldots, T$ (time periods). **Model dasar**: $$y_{it} = x_{it}^T\beta + \alpha_i + \varepsilon_{it}$$ - $y_{it}$: outcome untuk unit $i$ pada waktu $t$ - $x_{it}$: vektor regressor (bisa time-varying atau time-invariant) - $\alpha_i$: **individual fixed effect** — unobserved heterogeneity spesifik unit $i$ - $\varepsilon_{it}$: idiosyncratic error, $E[\varepsilon_{it}|x, \alpha] = 0$ $\alpha_i$ menangkap semua karakteristik unit $i$ yang tidak berubah sepanjang waktu dan tidak terobservasi: kemampuan bawaan, budaya perusahaan, karakteristik geografis permanen. ::: **Asumsi kunci yang membedakan FE vs RE**: apakah $\alpha_i$ berkorelasi dengan $x_{it}$? - **Fixed Effects**: tidak ada asumsi tentang $\text{Cor}(\alpha_i, x_{it})$ - **Random Effects**: mengasumsikan $\text{Cor}(\alpha_i, x_{it}) = 0$ --- ## Fixed Effects (FE) Estimator — Within Estimator ### Ide Dasar: Eliminasi $\alpha_i$ via Demeaning Karena $\alpha_i$ tidak terobservasi dan bisa berkorelasi dengan $x_{it}$, kita perlu **mengeliminasi** $\alpha_i$. Ambil rata-rata dalam kelompok $i$: $$\bar{y}_i = \bar{x}_i^T\beta + \alpha_i + \bar{\varepsilon}_i$$ Kurangi dari persamaan asal (within transformation): $$\tilde{y}_{it} = \tilde{x}_{it}^T\beta + \tilde{\varepsilon}_{it}$$ di mana $\tilde{y}_{it} = y_{it} - \bar{y}_i$ dan $\tilde{x}_{it} = x_{it} - \bar{x}_i$. $\alpha_i$ hilang! Sekarang bisa OLS pada data yang sudah di-demean. ### FE Estimator $$\hat{\beta}_{FE} = \left(\sum_{i=1}^N\sum_{t=1}^T \tilde{x}_{it}\tilde{x}_{it}^T\right)^{-1}\left(\sum_{i=1}^N\sum_{t=1}^T \tilde{x}_{it}\tilde{y}_{it}\right)$$ **Dalam notasi matrix**: definisikan $M_D$ sebagai **within-group demeaning matrix** (annihilator terhadap group dummies $D$): $$\hat{\beta}_{FE} = (X^T M_D X)^{-1} X^T M_D y$$ $M_D = I - D(D^TD)^{-1}D^T$ di mana $D$ adalah matrix dummy variabel individu. ### FWL Theorem dan FE ::: {.callout-important title="Definisi: Frisch-Waugh-Lovell (FWL) Theorem"} FWL menjamin: estimator FE identik dengan OLS yang memasukkan individual dummies secara eksplisit: $$y_{it} = x_{it}^T\beta + \sum_{i=1}^N d_i \alpha_i + \varepsilon_{it}$$ di mana $d_i$ adalah dummy untuk individual $i$. FWL: koefisien $\hat{\beta}$ dari regresi panjang = koefisien dari regresi residual-pada-residual setelah mempartial-out efek dummies. Ini yang disebut **within estimator** — hanya menggunakan variasi **dalam** individu dari waktu ke waktu. ::: ### Properties FE Estimator 1. **Konsisten** meskipun $\text{Cor}(\alpha_i, x_{it}) \neq 0$ — ini keunggulan utama FE 2. **Tidak bisa estimasi time-invariant regressors**: jika $x_{it} = x_i$ (konstan dalam waktu), maka $\tilde{x}_{it} = 0$ — terdrop dari regresi! 3. **Variance**: $$\text{Var}(\hat{\beta}_{FE}) = \sigma_\varepsilon^2 \left(\sum_i\sum_t \tilde{x}_{it}\tilde{x}_{it}^T\right)^{-1}$$ 4. **Degrees of freedom**: $NT - N - k$ (kehilangan $N$ df karena mengestimasi $N$ fixed effects) --- ## Between Estimator (BE) OLS pada **group means** (cross-section dari rata-rata): $$\bar{y}_i = \bar{x}_i^T\beta + \alpha_i + \bar{\varepsilon}_i$$ $$\hat{\beta}_{BE} = \left(\sum_i \bar{x}_i\bar{x}_i^T\right)^{-1}\left(\sum_i \bar{x}_i\bar{y}_i\right)$$ **BE menggunakan variasi antar-individu** — kebalikan FE. Tapi BE **biased** jika $\alpha_i$ berkorelasi dengan $x_{it}$! BE berguna sebagai building block untuk memahami RE. --- ## Random Effects (RE) Estimator ### Asumsi RE $$\alpha_i \sim N(0, \sigma_\alpha^2), \quad \text{independent of } x_{it}$$ $$u_{it} = \alpha_i + \varepsilon_{it} \quad \Rightarrow \quad \text{Var}(u_{it}) = \sigma_\alpha^2 + \sigma_\varepsilon^2$$ ### Struktur Covariance Error Untuk unit $i$, error vector $\mathbf{u}_i = (\alpha_i + \varepsilon_{i1}, \ldots, \alpha_i + \varepsilon_{iT})^T$: $$\Omega_i = E[\mathbf{u}_i\mathbf{u}_i^T] = \sigma_\varepsilon^2 I_T + \sigma_\alpha^2 \iota_T\iota_T^T$$ di mana $\iota_T$ adalah vektor satuan. Perhatikan **serial correlation**: $\text{Cov}(u_{it}, u_{is}) = \sigma_\alpha^2$ untuk $t \neq s$ — errors dalam satu individu berkorelasi karena berbagi $\alpha_i$. OLS mengabaikan struktur ini → inefficient tapi masih unbiased jika RE assumption hold. ### GLS Estimator (RE) GLS menggunakan $\Omega^{-1}$ untuk transformasi: $$\hat{\beta}_{RE} = \left(X^T \Omega^{-1} X\right)^{-1} X^T \Omega^{-1} y$$ **Transformasi Mundlak-Swamy (partial demeaning)**: $$\tilde{y}_{it}^{RE} = y_{it} - \hat{\theta}\bar{y}_i$$ di mana: $$\hat{\theta} = 1 - \sqrt{\frac{\sigma_\varepsilon^2}{\sigma_\varepsilon^2 + T\sigma_\alpha^2}} \in (0, 1)$$ - $\theta \to 0$: RE $\approx$ OLS (heterogeneity kecil, $\sigma_\alpha^2 \approx 0$) - $\theta \to 1$: RE $\approx$ FE (heterogeneity dominan, $T$ besar) RE adalah **matrix-weighted average** dari FE dan BE: $$\hat{\beta}_{RE} = \Lambda \hat{\beta}_{FE} + (I - \Lambda)\hat{\beta}_{BE}$$ untuk matriks bobot tertentu $\Lambda$. ### Properties RE - **Efficient** (minimum variance) jika RE assumption holds - **Inconsistent** jika $\text{Cor}(\alpha_i, x_{it}) \neq 0$ (endogeneity bias) - **Bisa estimasi time-invariant regressors** (tidak di-demean sepenuhnya) --- ## Hausman Test ### Intuisi Jika $H_0: \text{Cor}(\alpha_i, x_{it}) = 0$ benar, maka **keduanya** FE dan RE konsisten — tapi RE lebih efisien. Keduanya harus memberikan estimasi yang "dekat". Jika $H_1$ benar (korelasi ada), FE tetap konsisten tapi RE biased. Perbedaan $\hat{\beta}_{FE} - \hat{\beta}_{RE}$ akan "besar". ### Test Statistic ::: {.callout-important title="Definisi: Hausman Test Statistic"} $$H = (\hat{\beta}_{FE} - \hat{\beta}_{RE})^T \left[\widehat{\text{Var}}(\hat{\beta}_{FE}) - \widehat{\text{Var}}(\hat{\beta}_{RE})\right]^{-1} (\hat{\beta}_{FE} - \hat{\beta}_{RE})$$ Asymptotically: $H \sim \chi^2(k)$ under $H_0$, di mana $k$ = jumlah parameter yang bervariasi sepanjang waktu. **Key insight**: $\widehat{\text{Var}}(\hat{\beta}_{FE}) - \widehat{\text{Var}}(\hat{\beta}_{RE})$ harus positive semi-definite under $H_0$ (karena FE tidak efisien). ::: Jika $H > \chi^2_{k, \alpha}$: tolak $H_0$ → gunakan FE. Jika $H \leq \chi^2_{k, \alpha}$: gagal tolak $H_0$ → RE OK (lebih efisien). **Catatan penting**: Hausman test "classical" bisa gagal jika $\hat{V}_{FE} - \hat{V}_{RE}$ tidak positive semi-definite secara numeris. Alternatif: Mundlak auxiliary regression. ### Mundlak Auxiliary Regression Cara alternatif untuk Hausman: tambahkan group means $\bar{x}_i$ ke model RE: $$y_{it} = x_{it}^T\beta + \bar{x}_i^T\pi + \alpha_i + \varepsilon_{it}$$ Test $H_0: \pi = 0$. Setara dengan Hausman test tapi numerically lebih stabil. --- ## First Difference (FD) Estimator ### Idea Eliminasi $\alpha_i$ dengan differencing berturutan: $$\Delta y_{it} = y_{it} - y_{it-1} = \Delta x_{it}^T\beta + \Delta\varepsilon_{it}$$ $\alpha_i$ hilang! OLS pada first-differenced data. $$\hat{\beta}_{FD} = \left(\sum_{i,t}\Delta x_{it}\Delta x_{it}^T\right)^{-1}\left(\sum_{i,t}\Delta x_{it}\Delta y_{it}\right)$$ ### FD vs FE - **$T = 2$**: FD dan FE identik! - **$T > 2$**: FD dan FE tidak sama — perbedaan ada di struktur error - Jika $\varepsilon_{it}$ i.i.d.: FE lebih efisien - Jika $\varepsilon_{it}$ memiliki unit root ($\Delta\varepsilon_{it}$ adalah white noise): FD lebih efisien - **Interpretasi**: FD mengukur perubahan sepanjang waktu — sensible untuk panel pendek --- ## Worked Example: Wage-Education Panel ::: {.callout-tip title="Worked Example: FE, RE, Hausman di R" collapse="true"} ```r library(plm) library(tidyverse) # Load NLSY data atau simulasi data wage panel data("Wages", package = "plm") # Set sebagai panel data frame pdata <- pdata.frame(Wages, index = c("id", "time")) # 1. Pooled OLS ols <- lm(lwage ~ ed + exp + exp2 + wks + south + smsa + married + union, data = Wages) # 2. Between Estimator be_model <- plm(lwage ~ ed + exp + exp2 + wks + south + smsa + married + union, data = pdata, model = "between") # 3. Fixed Effects (Within) fe_model <- plm(lwage ~ ed + exp + exp2 + wks + south + smsa + married + union, data = pdata, model = "within") # Note: ed (education) akan di-drop karena time-invariant! # 4. Random Effects re_model <- plm(lwage ~ ed + exp + exp2 + wks + south + smsa + married + union, data = pdata, model = "random") # Bandingkan koefisien cat("=== Pooled OLS ===\n") print(coef(ols)) cat("\n=== Fixed Effects ===\n") print(coef(fe_model)) cat("\n=== Random Effects ===\n") print(coef(re_model)) # 5. Hausman Test hausman <- phtest(fe_model, re_model) print(hausman) # Interpretasi: # p-value < 0.05 -> tolak H0 -> gunakan FE # p-value > 0.05 -> gagal tolak H0 -> RE OK # 6. Manual within transformation Wages_fe <- Wages %>% group_by(id) %>% mutate( lwage_dm = lwage - mean(lwage), exp_dm = exp - mean(exp), wks_dm = wks - mean(wks), union_dm = union - mean(union) ) %>% ungroup() # FE = OLS on demeaned data fe_manual <- lm(lwage_dm ~ exp_dm + wks_dm + union_dm - 1, data = Wages_fe) cat("\n=== Manual FE (should match plm) ===\n") print(coef(fe_manual)) # 7. Theta parameter untuk RE summary(re_model)$theta # Partial demeaning parameter ``` **Step-by-step within transformation**: 1. Hitung $\bar{y}_i = \frac{1}{T}\sum_t y_{it}$ untuk setiap individu $i$ 2. Buat $\tilde{y}_{it} = y_{it} - \bar{y}_i$ 3. Ulangi untuk semua regressors 4. OLS pada variabel yang sudah di-demean 5. SE perlu koreksi df karena kehilangan $N$ df untuk estimasi group means **Expected results untuk wage data**: - FE: education terdrop (time-invariant), koefisien union relatif rendah - RE: education significant, koefisien lebih tinggi dari FE - Hausman test biasanya reject H0 → FE preferred ::: --- ## Ringkasan: Memilih Estimator | Situasi | Rekomendasi | Alasan | |---------|-------------|--------| | $\text{Cor}(\alpha_i, x_{it}) \neq 0$ (endogenous FE) | **FE** | Konsisten | | $\text{Cor}(\alpha_i, x_{it}) = 0$ dan perlu time-invariant | **RE** | Efisien, bisa estimasi | | $T = 2$, serial correlation dalam $\varepsilon_{it}$ | **FD** | Robust | | Uji formal diperlukan | Hausman test | Systematic | | RE tapi khawatir bias | Mundlak regression | Robust alternative | --- ::: {.callout-caution title="Connection: Dynamic Panels dan DiD"} Panel data punya banyak ekstensi penting: - **Arellano-Bond (GMM)**: dynamic panel $y_{it} = \rho y_{it-1} + x_{it}^T\beta + \alpha_i + \varepsilon_{it}$. FE masih biased karena $y_{it-1}$ berkorelasi dengan $\alpha_i$. Solusi: gunakan level-lagged sebagai instruments dalam first difference. - **Difference-in-Differences (DiD)** adalah FE model! Model standar DiD: $$y_{it} = \alpha_i + \lambda_t + \delta(D_i \times \text{Post}_t) + \varepsilon_{it}$$ memasukkan individual FE dan time FE. Staggered DiD dan synthetic control adalah ekstensi. - **Correlated Random Effects (Mundlak-Chamberlain)**: RE model dengan $\alpha_i = \bar{x}_i^T\xi + a_i$ — merupakan kompromi antara FE dan RE. ::: --- ## Practice Problems ::: {.callout-warning title="Practice Problems" collapse="true"} **Problem 1**: Tunjukkan FD = FE ketika $T = 2$. Untuk $T = 2$: within transformation memberikan $\tilde{y}_{i1} = y_{i1} - \bar{y}_i = (y_{i1} - y_{i2})/2$ dan $\tilde{y}_{i2} = (y_{i2} - y_{i1})/2 = -\tilde{y}_{i1}$. FD: $\Delta y_i = y_{i2} - y_{i1}$, $\Delta x_i = x_{i2} - x_{i1}$. $\hat{\beta}_{FD} = (\Delta X^T \Delta X)^{-1}\Delta X^T \Delta y$ di mana $\Delta X$ dan $\Delta y$ hanya ada satu observasi per individu. Numerically identical dengan FE karena setiap observasi $\tilde{x}_{it}$ adalah linear transformation dari $\Delta x_i$. **Problem 2**: Buktikan bahwa $\hat{\beta}_{RE}$ adalah weighted average dari $\hat{\beta}_{FE}$ dan $\hat{\beta}_{BE}$. Hint: Dekomposisi $\hat{V}^{-1}_{RE}$ menjadi $\hat{V}^{-1}_{FE}$ dan $\hat{V}^{-1}_{BE}$ components. **Problem 3**: Mengapa FE tidak bisa estimasi koefisien variabel time-invariant? Jika $x_{it} = x_i$ (tidak berubah): $\tilde{x}_{it} = x_{it} - \bar{x}_i = x_i - x_i = 0$. Variabel terdrop dari regresi karena tidak ada variasi "within" untuk dieksploitasi. **Problem 4**: Jelaskan apa yang terjadi ketika $\sigma_\alpha^2 \to \infty$ pada estimator RE. $\theta = 1 - \sqrt{\sigma_\varepsilon^2/(\sigma_\varepsilon^2 + T\sigma_\alpha^2)} \to 1$. Partial demeaning menjadi full demeaning → RE $\to$ FE. **Problem 5**: Dalam konteks DiD, apa peran "parallel trends assumption"? Parallel trends: tanpa treatment, $E[y_{it}^{(0)} - y_{it-1}^{(0)} | D_i = 1] = E[y_{it}^{(0)} - y_{it-1}^{(0)} | D_i = 0]$. Ini setara dengan mengasumsikan $\alpha_i$ tidak berinteraksi dengan time trend — asumsi yang lebih kuat dari RE assumption biasa. ::: --- **Navigasi**: [← MLE Discrete Choice](04-mle-econometrics.qmd) | [Time Series Math →](06-time-series-math.qmd)