Instrumental Variables & GMM
When OLS Breaks: Endogeneity, Instruments, and Optimal Moment Estimation
Ketika \(E[\varepsilon | X] \neq 0\) — ada omitted variable, reverse causality, atau measurement error — OLS bukan hanya inefficient, tapi biased dan inconsistent. Tidak ada jumlah data yang akan memperbaikinya.
IV dan GMM adalah toolkit untuk situasi di mana kamu tidak bisa randomize, tidak bisa observe semua confounders, tapi punya variable yang “seperti” instrument quasi-random. Ini adalah inti dari causal inference dalam data observasional.
Setelah memahami topik ini, kamu akan: - Tahu secara matematika kenapa endogeneity membuat OLS fail - Derive IV estimator dari first principles (bukan hafalan) - Understand 2SLS sebagai dua-tahap OLS, bukan “black box” - Paham GMM sebagai generalisasi dari IV ke banyak moment conditions - Tahu persis apa yang Hausman test sedang test secara statistik
1 The Endogeneity Problem
1.1 Setup
Model populasi: \[y = X\beta + \varepsilon\]
OLS menjadi biased ketika \(E[X^T\varepsilon] \neq 0\). Secara intuitif:
\[\text{plim}(\hat{\beta}_{OLS}) = \beta + \text{plim}\left[(X^TX/n)^{-1}(X^T\varepsilon/n)\right] \neq \beta\]
Jika \(X^T\varepsilon/n \to_p c \neq 0\), maka OLS akan selalu overestimate atau underestimate \(\beta\), tidak peduli \(n\) seberapa besar.
1.2 Sumber Endogeneity
Omitted Variable Bias: True model \(y = X\beta + Z\gamma + u\), tapi kita regress hanya \(y\) pada \(X\). Maka \(\varepsilon = Z\gamma + u\), dan jika \(\text{Cov}(X, Z) \neq 0\), maka \(E[X^T\varepsilon] \neq 0\).
Bias formula: \(\text{plim}(\hat{\beta}_{OLS}) = \beta + (X^TX/n)^{-1}(X^TZ/n)\gamma\)
Simultaneity: \(y\) dan \(x\) jointly determined (supply & demand). \(y\) affects \(x\) AND \(x\) affects \(y\) → \(x\) correlated dengan error.
Measurement Error: \(x\) diobservasi sebagai \(x^* = x + \nu\) (classical measurement error). OLS dari \(y\) pada \(x^*\) memberikan attenuation bias: koefisien biased toward zero.
2 IV Estimator
2.1 Motivasi: Instrumental Variable
Kita butuh variable \(Z \in \mathbb{R}^{n \times \ell}\) (matrix instruments, \(\ell \geq k\)) yang memenuhi:
(Relevance): \(E[Z^TX]\) has rank \(k\) — instruments correlated dengan endogenous regressors. \[\text{Formal: } Z \text{ relevant jika } \text{plim}(Z^TX/n) \text{ full rank}\]
(Exogeneity): \(E[Z^T\varepsilon] = 0\) — instruments uncorrelated dengan error. \[\text{Formal: } E[z_i \varepsilon_i] = 0 \quad \forall \text{ kolom } z \text{ dari } Z\]
2.2 Just-Identified Case: \(\ell = k\)
Ketika jumlah instruments sama dengan jumlah endogenous regressors, IV estimator adalah:
\[\boxed{\hat{\beta}_{IV} = (Z^TX)^{-1}Z^Ty}\]
Derivasi: Dari moment condition \(E[Z^T\varepsilon] = 0\), yaitu \(E[Z^T(y - X\beta)] = 0\):
Sample analog: \(Z^T(y - X\hat{\beta}) = 0\), maka \(Z^TX\hat{\beta} = Z^Ty\).
Jika \(Z^TX\) invertible (relevance + just-identified): \(\hat{\beta}_{IV} = (Z^TX)^{-1}Z^Ty\).
2.3 Consistency
\[\text{plim}(\hat{\beta}_{IV}) = \text{plim}\left[(Z^TX/n)^{-1}(Z^Ty/n)\right]\] \[= \text{plim}\left[(Z^TX/n)^{-1}(Z^TX\beta/n + Z^T\varepsilon/n)\right]\] \[= \beta + \underbrace{\left(\text{plim}(Z^TX/n)\right)^{-1}}_{\text{finite}} \underbrace{\text{plim}(Z^T\varepsilon/n)}_{= 0 \text{ by exogeneity}}\] \[= \beta\]
IV consistent selama relevance dan exogeneity terpenuhi.
2.4 Asymptotic Variance of IV
\[\sqrt{n}(\hat{\beta}_{IV} - \beta) \to_d N\left(0, \sigma^2 \left[(Z^TX/n)^{-1}(Z^TZ/n)(X^TZ/n)^{-1}\right] \cdot \frac{n}{1}\right)\]
Simplified: \(\text{Avar}(\hat{\beta}_{IV}) = \sigma^2 (Z^TX)^{-1}(Z^TZ)(X^TZ)^{-1}\)
Perhatikan bahwa \(\text{Avar}(\hat{\beta}_{IV}) \geq \text{Avar}(\hat{\beta}_{OLS}) = \sigma^2(X^TX)^{-1}\) (dalam PSD sense) — IV membayar efficiency cost untuk consistency.
3 Two-Stage Least Squares (2SLS)
3.1 Over-Identified Case: \(\ell > k\)
Ketika \(\ell > k\) (lebih banyak instruments dari endogenous regressors), kita punya lebih banyak moment conditions daripada unknowns. Tidak bisa solve \(Z^Ty = Z^TX\hat{\beta}\) secara langsung karena sistem over-determined.
2SLS menyelesaikan ini dengan dua langkah:
3.2 First Stage
Regress \(X\) pada \(Z\) menggunakan OLS:
\[\hat{X} = Z(Z^TZ)^{-1}Z^TX = P_Z X\]
di mana \(P_Z = Z(Z^TZ)^{-1}Z^T\) adalah projection matrix ke column space of \(Z\).
\(\hat{X}\) adalah “komponen \(X\) yang dijelaskan oleh instruments” — ini hanya mengandung variasi exogenous.
3.3 Second Stage
Regress \(y\) pada \(\hat{X}\) menggunakan OLS:
\[\hat{\beta}_{2SLS} = (\hat{X}^T\hat{X})^{-1}\hat{X}^Ty\]
3.4 Bentuk Compact 2SLS
Substitusi \(\hat{X} = P_Z X\):
\[\hat{\beta}_{2SLS} = (X^TP_Z^T P_Z X)^{-1}X^TP_Z^Ty\]
Karena \(P_Z\) idempotent dan simetrik (\(P_Z^2 = P_Z\), \(P_Z^T = P_Z\)):
\[\boxed{\hat{\beta}_{2SLS} = (X^TP_ZX)^{-1}X^TP_Zy}\]
Catatan penting: Standard errors dari second stage naif salah karena \(\hat{X}\) adalah estimasi, bukan observed. Harus pakai formula SE yang benar (atau gunakan package yang menangani ini otomatis seperti AER::ivreg() di R).
3.5 Variance of 2SLS
\[\text{Var}(\hat{\beta}_{2SLS} | X, Z) = \sigma^2 (X^TP_ZX)^{-1}\]
Estimasi \(\sigma^2\) menggunakan residuals dari model asli: \(\hat{\varepsilon} = y - X\hat{\beta}_{2SLS}\) (bukan residual dari second stage!).
4 GMM: Generalized Method of Moments
GMM adalah generalisasi dari IV yang memungkinkan lebih banyak moment conditions dan optimal weighting.
4.1 Moment Conditions
GMM dimulai dari moment conditions:
\[E[g(y_i, x_i, \theta)] = 0\]
di mana \(g: \mathbb{R} \times \mathbb{R}^k \times \mathbb{R}^p \to \mathbb{R}^\ell\) adalah vector-valued function.
Untuk IV, moment conditions adalah: \(g_i(\theta) = z_i(y_i - x_i^T\beta)\) — sehingga \(E[g_i] = E[z_i \varepsilon_i] = 0\).
4.2 Sample Moment Conditions
Definisikan sample analog: \[\bar{g}(\theta) = \frac{1}{n}\sum_{i=1}^n g(y_i, x_i, \theta) = \frac{1}{n}Z^T(y - X\theta)\]
(untuk kasus IV linear)
4.3 GMM Objective Function
Untuk over-identified case (\(\ell > k\)), kita tidak bisa set semua moments = 0 simultaneously. GMM meminimize weighted quadratic form dari sample moments:
\[\hat{\theta}_{GMM} = \arg\min_\theta \bar{g}(\theta)^T W \bar{g}(\theta)\]
di mana \(W \in \mathbb{R}^{\ell \times \ell}\) adalah positive definite weighting matrix.
4.4 GMM Estimator (Linear Case)
FOC:
\[\frac{\partial}{\partial \theta}\left[\bar{g}(\theta)^T W \bar{g}(\theta)\right] = 2 \frac{\partial \bar{g}}{\partial \theta}^T W \bar{g}(\theta) = 0\]
Untuk kasus linear: \(\frac{\partial \bar{g}}{\partial \theta} = -X^TZ/n\)
\[(-X^TZ/n)W(Z^T(y - X\hat{\theta})/n) = 0\] \[X^TZW Z^Ty = X^TZW Z^X\hat{\theta}\]
\[\boxed{\hat{\theta}_{GMM} = (X^TZWZ^TX)^{-1}X^TZWZ^Ty}\]
4.5 Optimal Weighting Matrix
Asymptotic variance dari GMM:
\[\text{Avar}(\hat{\theta}_{GMM}) = \frac{1}{n}(X^TZWZ^TX)^{-1}X^TZW S WZ^TX(X^TZWZ^TX)^{-1}\]
di mana \(S = \text{Avar}(\sqrt{n}\bar{g}(\theta_0)) = \text{Var}(g_i(\theta_0))\) (long-run variance dari moments).
Optimal weighting matrix yang meminimize asymptotic variance:
\[W^* = S^{-1} = \left[\text{Var}(g_i(\theta_0))\right]^{-1}\]
Dengan \(W = W^*\), variance GMM menjadi:
\[\text{Avar}(\hat{\theta}_{GMM}^*) = \frac{1}{n}(X^TZS^{-1}Z^TX)^{-1}\]
Ini adalah efficient GMM.
4.6 Hubungan 2SLS dan GMM
Dengan \(W = (Z^TZ/n)^{-1}\) (karena \(S = \sigma^2 Z^TZ/n\) untuk homoskedastic case):
\[\hat{\theta}_{GMM} = (X^TP_ZX)^{-1}X^TP_Zy = \hat{\beta}_{2SLS}\]
Jadi 2SLS adalah special case dari GMM dengan weighting matrix \(W = (Z^TZ)^{-1}\).
Di bawah heteroskedasticity, 2SLS tidak lagi efficient — efficient GMM dengan \(W = S^{-1}\) akan lebih baik.
5 Worked Example: Simple IV
5.1 Setup
Kita ingin estimasi returns to education: \[\log(wage_i) = \beta_0 + \beta_1 educ_i + \varepsilon_i\]
Masalah: educ endogenous karena ability \(a_i\) mempengaruhi baik educ maupun wage.
Instrument: jarak ke perguruan tinggi (dist) — relevant (mempengaruhi educ), exogenous (tidak langsung mempengaruhi wage).
library(AER) # for ivreg()
data(CollegeDistance, package = "AER")
# OLS (likely biased upward due to ability bias)
ols <- lm(log(wage) ~ education, data = CollegeDistance)
# IV using distance as instrument
iv <- ivreg(log(wage) ~ education | distance, data = CollegeDistance)
summary(ols)
summary(iv)
# IV coefficient typically smaller than OLS — consistent with ability bias
# Manual IV calculation
y <- log(CollegeDistance$wage)
X <- cbind(1, CollegeDistance$education)
Z <- cbind(1, CollegeDistance$distance)
n <- nrow(X)
# IV estimator: beta_IV = (Z'X)^{-1} Z'y
ZtX <- t(Z) %*% X
Zty <- t(Z) %*% y
beta_IV_manual <- solve(ZtX) %*% Zty
cat("Manual IV:\n"); print(beta_IV_manual)
# Compare with ivreg coefficients
cat("AER ivreg:\n"); print(coef(iv))5.2 First Stage F-statistic
Instrument relevance bisa ditest via first stage F-stat. Rule of thumb: F > 10.
first_stage <- lm(education ~ distance, data = CollegeDistance)
summary(first_stage)
# F-statistic dari first stage harus > 10 untuk avoid weak instruments problemJika F-stat rendah → weak instruments → IV estimator punya large variance dan bisa bias dalam small samples.
5.3 Hausman Test: OLS vs IV
Test apakah endogeneity signifikan:
\(H_0\): \(X\) exogenous (OLS consistent) \(H_1\): \(X\) endogenous (IV needed)
# Hausman test via augmented regression
first_stage_resid <- residuals(first_stage)
augmented <- lm(log(wage) ~ education + first_stage_resid, data = CollegeDistance)
# Test jika koefisien first_stage_resid = 0
# (koefisien signifikan → evidence of endogeneity)
summary(augmented)6 Hausman Test: Mathematical Derivation
6.1 Setup
Test membandingkan dua estimators: - \(\hat{\beta}_{OLS}\): efficient under \(H_0\) (exogeneity), inconsistent under \(H_1\) - \(\hat{\beta}_{IV}\): consistent under both \(H_0\) and \(H_1\), but less efficient than OLS
6.2 Hausman Statistic
Kunci insight: di bawah \(H_0\), \(\hat{\beta}_{IV} - \hat{\beta}_{OLS}\) harus mendekati nol.
\[H = (\hat{\beta}_{IV} - \hat{\beta}_{OLS})^T \left[\hat{V}_{IV} - \hat{V}_{OLS}\right]^{-1} (\hat{\beta}_{IV} - \hat{\beta}_{OLS}) \sim \chi^2(k)\]
di mana \(k\) adalah dimensi \(\beta\) yang sedang ditest.
Mengapa menggunakan \(V_{IV} - V_{OLS}\) (bukan \(V_{IV}\))?
Karena di bawah \(H_0\), \(\text{Cov}(\hat{\beta}_{IV} - \hat{\beta}_{OLS}, \hat{\beta}_{OLS}) = 0\) (orthogonality of efficient estimator), sehingga \(\text{Var}(\hat{\beta}_{IV} - \hat{\beta}_{OLS}) = \text{Var}(\hat{\beta}_{IV}) - \text{Var}(\hat{\beta}_{OLS})\).
Jika \(H > \chi^2_{k,0.05}\), reject \(H_0\) → ada endogeneity → gunakan IV.
7 Connection: Panel Data, Heteroskedasticity, and Weak Instruments
Panel IV: Dalam panel data, sering menggunakan lagged values sebagai instruments. Untuk dynamic panel model \(y_{it} = \alpha y_{i,t-1} + \beta x_{it} + u_{it} + \varepsilon_{it}\): - Arellano-Bond estimator: pakai \(y_{i,t-2}, y_{i,t-3}, \ldots\) sebagai instruments - Blundell-Bond: tambahkan level instruments
Heteroskedasticity-robust IV SEs: Jika errors heteroskedastic, gunakan optimal GMM (bukan 2SLS) untuk efficient estimation. Standard errors dari GMM dengan \(W = \hat{S}^{-1}\) otomatis heteroskedasticity-robust.
Weak Instruments Problem: Ketika relevance condition hampir tidak terpenuhi, \(Z^TX/n \approx 0\): - First-stage F-stat < 10 → suspect weak instruments - IV bias toward OLS (bukan toward true \(\beta\)) - Inference invalid — t-stats tidak mengikuti normal distribution - Solusi: Anderson-Rubin test (robust ke weak instruments), LIML, atau cari instruments yang lebih kuat
8 Practice Problems
8.1 Problem 1: Derive IV Estimator dari Moment Conditions
Tunjukkan bahwa IV estimator \(\hat{\beta}_{IV} = (Z^TX)^{-1}Z^Ty\) adalah solusi dari sample moment condition \(\frac{1}{n}Z^T(y - X\hat{\beta}) = 0\).
8.2 Problem 2: Verify 2SLS = OLS pada \(\hat{X}\)
Tunjukkan secara aljabar bahwa \((\hat{X}^TX)^{-1}\hat{X}^Ty = (\hat{X}^T\hat{X})^{-1}\hat{X}^Ty\) di mana \(\hat{X} = P_Z X\).
Hint: Gunakan fakta bahwa \(\hat{X}^T = X^T P_Z^T = X^T P_Z\) (karena \(P_Z\) simetrik), dan \(P_Z \hat{X} = P_Z P_Z X = P_Z X = \hat{X}\) (karena \(P_Z\) idempotent).
8.3 Problem 3: Attenuation Bias dari Measurement Error
Misalkan true model: \(y_i = \beta x_i + \varepsilon_i\), tapi kita observasi \(x_i^* = x_i + \nu_i\) di mana \(\nu_i \sim (0, \sigma_\nu^2)\) independent dari \(x_i\) dan \(\varepsilon_i\).
Tunjukkan bahwa: \[\text{plim}(\hat{\beta}_{OLS}) = \beta \cdot \frac{\sigma_x^2}{\sigma_x^2 + \sigma_\nu^2}\]
Ini adalah attenuation bias — koefisien biased toward zero sebesar faktor reliability ratio \(\lambda = \sigma_x^2/(\sigma_x^2 + \sigma_\nu^2) \in (0,1)\).
# Simulasi attenuation bias
set.seed(42)
n <- 10000
x_true <- rnorm(n, mean = 5, sd = 2) # sigma_x = 2
eps <- rnorm(n, sd = 1)
y <- 3 * x_true + eps # true beta = 3
sigma_nu_vals <- c(0, 0.5, 1, 2, 4)
results <- sapply(sigma_nu_vals, function(sigma_nu) {
nu <- rnorm(n, sd = sigma_nu)
x_obs <- x_true + nu
coef(lm(y ~ x_obs - 1)) # no intercept
})
reliability_ratio <- 4 / (4 + sigma_nu_vals^2) # sigma_x^2 = 4
cat("True beta:", 3, "\n")
cat("Theoretical plim:", 3 * reliability_ratio, "\n")
cat("Simulated estimates:", round(results, 3), "\n")8.4 Problem 4: GMM dengan Multiple Instruments
Dengan \(Z = [z_1, z_2, z_3]\) (3 instruments untuk 1 endogenous regressor), derive optimal GMM estimator dan tunjukkan bahwa hasilnya equivalent dengan 2SLS ketika errors homoskedastic.
9 Summary
| Estimator | Formula | Asumsi Kritis | Ketika Dipakai |
|---|---|---|---|
| OLS | \((X^TX)^{-1}X^Ty\) | \(E[\varepsilon\|X] = 0\) | X exogenous |
| IV (just-ID) | \((Z^TX)^{-1}Z^Ty\) | Relevance + Exogeneity | 1 instrument per endogenous var |
| 2SLS | \((X^TP_ZX)^{-1}X^TP_Zy\) | Relevance + Exogeneity | Multiple instruments |
| GMM | \((X^TZWZ^TX)^{-1}X^TZWZ^Ty\) | Moment conditions | General, allows heteroskedasticity |
| Optimal GMM | GMM with \(W = S^{-1}\) | Moment conditions | Efficient under heteroskedasticity |