Instrumental Variables & GMM

When OLS Breaks: Endogeneity, Instruments, and Optimal Moment Estimation

Why This Matters for Your Work

Ketika $E[\varepsilon | X] \neq 0$ — ada omitted variable, reverse causality, atau measurement error — OLS bukan hanya inefficient, tapi biased dan inconsistent. Tidak ada jumlah data yang akan memperbaikinya.

IV dan GMM adalah toolkit untuk situasi di mana kamu tidak bisa randomize, tidak bisa observe semua confounders, tapi punya variable yang “seperti” instrument quasi-random. Ini adalah inti dari causal inference dalam data observasional.

Setelah memahami topik ini, kamu akan: - Tahu secara matematika kenapa endogeneity membuat OLS fail - Derive IV estimator dari first principles (bukan hafalan) - Understand 2SLS sebagai dua-tahap OLS, bukan “black box” - Paham GMM sebagai generalisasi dari IV ke banyak moment conditions - Tahu persis apa yang Hausman test sedang test secara statistik

1 The Endogeneity Problem

1.1 Setup

Model populasi: \[y = X\beta + \varepsilon\]

OLS menjadi biased ketika $E[X^T\varepsilon] \neq 0$. Secara intuitif:

\[\text{plim}(\hat{\beta}_{OLS}) = \beta + \text{plim}\left[(X^TX/n)^{-1}(X^T\varepsilon/n)\right] \neq \beta\]

Jika $X^T\varepsilon/n \to_p c \neq 0$, maka OLS akan selalu overestimate atau underestimate $\beta$, tidak peduli $n$ seberapa besar.

1.2 Sumber Endogeneity

Omitted Variable Bias: True model $y = X\beta + Z\gamma + u$, tapi kita regress hanya $y$ pada $X$. Maka $\varepsilon = Z\gamma + u$, dan jika $\text{Cov}(X, Z) \neq 0$, maka $E[X^T\varepsilon] \neq 0$.

Bias formula: $\text{plim}(\hat{\beta}_{OLS}) = \beta + (X^TX/n)^{-1}(X^TZ/n)\gamma$

Simultaneity: $y$ dan $x$ jointly determined (supply & demand). $y$ affects $x$ AND $x$ affects $y$ → $x$ correlated dengan error.

Measurement Error: $x$ diobservasi sebagai $x^* = x + \nu$ (classical measurement error). OLS dari $y$ pada $x^*$ memberikan attenuation bias: koefisien biased toward zero.

2 IV Estimator

2.1 Motivasi: Instrumental Variable

Kita butuh variable $Z \in \mathbb{R}^{n \times \ell}$ (matrix instruments, $\ell \geq k$) yang memenuhi:

Definisi: IV Conditions

(Relevance): $E[Z^TX]$ has rank $k$ — instruments correlated dengan endogenous regressors. \[\text{Formal: } Z \text{ relevant jika } \text{plim}(Z^TX/n) \text{ full rank}\]

(Exogeneity): $E[Z^T\varepsilon] = 0$ — instruments uncorrelated dengan error. \[\text{Formal: } E[z_i \varepsilon_i] = 0 \quad \forall \text{ kolom } z \text{ dari } Z\]

2.2 Just-Identified Case: $\ell = k$

Ketika jumlah instruments sama dengan jumlah endogenous regressors, IV estimator adalah:

\[\boxed{\hat{\beta}_{IV} = (Z^TX)^{-1}Z^Ty}\]

Derivasi: Dari moment condition $E[Z^T\varepsilon] = 0$, yaitu $E[Z^T(y - X\beta)] = 0$:

Sample analog: $Z^T(y - X\hat{\beta}) = 0$, maka $Z^TX\hat{\beta} = Z^Ty$.

Jika $Z^TX$ invertible (relevance + just-identified): $\hat{\beta}_{IV} = (Z^TX)^{-1}Z^Ty$.

2.3 Consistency

\[\text{plim}(\hat{\beta}_{IV}) = \text{plim}\left[(Z^TX/n)^{-1}(Z^Ty/n)\right]\] \[= \text{plim}\left[(Z^TX/n)^{-1}(Z^TX\beta/n + Z^T\varepsilon/n)\right]\] \[= \beta + \underbrace{\left(\text{plim}(Z^TX/n)\right)^{-1}}_{\text{finite}} \underbrace{\text{plim}(Z^T\varepsilon/n)}_{= 0 \text{ by exogeneity}}\] \[= \beta\]

IV consistent selama relevance dan exogeneity terpenuhi.

2.4 Asymptotic Variance of IV

\[\sqrt{n}(\hat{\beta}_{IV} - \beta) \to_d N\left(0, \sigma^2 \left[(Z^TX/n)^{-1}(Z^TZ/n)(X^TZ/n)^{-1}\right] \cdot \frac{n}{1}\right)\]

Simplified: $\text{Avar}(\hat{\beta}_{IV}) = \sigma^2 (Z^TX)^{-1}(Z^TZ)(X^TZ)^{-1}$

Perhatikan bahwa $\text{Avar}(\hat{\beta}_{IV}) \geq \text{Avar}(\hat{\beta}_{OLS}) = \sigma^2(X^TX)^{-1}$ (dalam PSD sense) — IV membayar efficiency cost untuk consistency.

3 Two-Stage Least Squares (2SLS)

3.1 Over-Identified Case: $\ell > k$

Ketika $\ell > k$ (lebih banyak instruments dari endogenous regressors), kita punya lebih banyak moment conditions daripada unknowns. Tidak bisa solve $Z^Ty = Z^TX\hat{\beta}$ secara langsung karena sistem over-determined.

2SLS menyelesaikan ini dengan dua langkah:

3.2 First Stage

Regress $X$ pada $Z$ menggunakan OLS:

\[\hat{X} = Z(Z^TZ)^{-1}Z^TX = P_Z X\]

di mana $P_Z = Z(Z^TZ)^{-1}Z^T$ adalah projection matrix ke column space of $Z$.

$\hat{X}$ adalah “komponen $X$ yang dijelaskan oleh instruments” — ini hanya mengandung variasi exogenous.

3.3 Second Stage

Regress $y$ pada $\hat{X}$ menggunakan OLS:

\[\hat{\beta}_{2SLS} = (\hat{X}^T\hat{X})^{-1}\hat{X}^Ty\]

3.4 Bentuk Compact 2SLS

Substitusi $\hat{X} = P_Z X$:

\[\hat{\beta}_{2SLS} = (X^TP_Z^T P_Z X)^{-1}X^TP_Z^Ty\]

Karena $P_Z$ idempotent dan simetrik ($P_Z^2 = P_Z$, $P_Z^T = P_Z$):

\[\boxed{\hat{\beta}_{2SLS} = (X^TP_ZX)^{-1}X^TP_Zy}\]

Catatan penting: Standard errors dari second stage naif salah karena $\hat{X}$ adalah estimasi, bukan observed. Harus pakai formula SE yang benar (atau gunakan package yang menangani ini otomatis seperti AER::ivreg() di R).

3.5 Variance of 2SLS

\[\text{Var}(\hat{\beta}_{2SLS} | X, Z) = \sigma^2 (X^TP_ZX)^{-1}\]

Estimasi $\sigma^2$ menggunakan residuals dari model asli: $\hat{\varepsilon} = y - X\hat{\beta}_{2SLS}$ (bukan residual dari second stage!).

4 GMM: Generalized Method of Moments

GMM adalah generalisasi dari IV yang memungkinkan lebih banyak moment conditions dan optimal weighting.

4.1 Moment Conditions

GMM dimulai dari moment conditions:

\[E[g(y_i, x_i, \theta)] = 0\]

di mana $g: \mathbb{R} \times \mathbb{R}^k \times \mathbb{R}^p \to \mathbb{R}^\ell$ adalah vector-valued function.

Untuk IV, moment conditions adalah: $g_i(\theta) = z_i(y_i - x_i^T\beta)$ — sehingga $E[g_i] = E[z_i \varepsilon_i] = 0$.

4.2 Sample Moment Conditions

Definisikan sample analog: \[\bar{g}(\theta) = \frac{1}{n}\sum_{i=1}^n g(y_i, x_i, \theta) = \frac{1}{n}Z^T(y - X\theta)\]

(untuk kasus IV linear)

4.3 GMM Objective Function

Untuk over-identified case ($\ell > k$), kita tidak bisa set semua moments = 0 simultaneously. GMM meminimize weighted quadratic form dari sample moments:

\[\hat{\theta}_{GMM} = \arg\min_\theta \bar{g}(\theta)^T W \bar{g}(\theta)\]

di mana $W \in \mathbb{R}^{\ell \times \ell}$ adalah positive definite weighting matrix.

4.4 GMM Estimator (Linear Case)

FOC:

\[\frac{\partial}{\partial \theta}\left[\bar{g}(\theta)^T W \bar{g}(\theta)\right] = 2 \frac{\partial \bar{g}}{\partial \theta}^T W \bar{g}(\theta) = 0\]

Untuk kasus linear: $\frac{\partial \bar{g}}{\partial \theta} = -X^TZ/n$

\[(-X^TZ/n)W(Z^T(y - X\hat{\theta})/n) = 0\] \[X^TZW Z^Ty = X^TZW Z^X\hat{\theta}\]

\[\boxed{\hat{\theta}_{GMM} = (X^TZWZ^TX)^{-1}X^TZWZ^Ty}\]

4.5 Optimal Weighting Matrix

Asymptotic variance dari GMM:

\[\text{Avar}(\hat{\theta}_{GMM}) = \frac{1}{n}(X^TZWZ^TX)^{-1}X^TZW S WZ^TX(X^TZWZ^TX)^{-1}\]

di mana $S = \text{Avar}(\sqrt{n}\bar{g}(\theta_0)) = \text{Var}(g_i(\theta_0))$ (long-run variance dari moments).

Optimal weighting matrix yang meminimize asymptotic variance:

\[W^* = S^{-1} = \left[\text{Var}(g_i(\theta_0))\right]^{-1}\]

Dengan $W = W^*$, variance GMM menjadi:

\[\text{Avar}(\hat{\theta}_{GMM}^*) = \frac{1}{n}(X^TZS^{-1}Z^TX)^{-1}\]

Ini adalah efficient GMM.

4.6 Hubungan 2SLS dan GMM

Dengan $W = (Z^TZ/n)^{-1}$ (karena $S = \sigma^2 Z^TZ/n$ untuk homoskedastic case):

\[\hat{\theta}_{GMM} = (X^TP_ZX)^{-1}X^TP_Zy = \hat{\beta}_{2SLS}\]

Jadi 2SLS adalah special case dari GMM dengan weighting matrix $W = (Z^TZ)^{-1}$.

Di bawah heteroskedasticity, 2SLS tidak lagi efficient — efficient GMM dengan $W = S^{-1}$ akan lebih baik.

5 Worked Example: Simple IV

Worked Example: Returns to Education with IV

5.1 Setup

Kita ingin estimasi returns to education: \[\log(wage_i) = \beta_0 + \beta_1 educ_i + \varepsilon_i\]

Masalah: educ endogenous karena ability $a_i$ mempengaruhi baik educ maupun wage.

Instrument: jarak ke perguruan tinggi (dist) — relevant (mempengaruhi educ), exogenous (tidak langsung mempengaruhi wage).

library(AER)  # for ivreg()
data(CollegeDistance, package = "AER")

# OLS (likely biased upward due to ability bias)
ols <- lm(log(wage) ~ education, data = CollegeDistance)

# IV using distance as instrument
iv <- ivreg(log(wage) ~ education | distance, data = CollegeDistance)

summary(ols)
summary(iv)
# IV coefficient typically smaller than OLS — consistent with ability bias

# Manual IV calculation
y <- log(CollegeDistance$wage)
X <- cbind(1, CollegeDistance$education)
Z <- cbind(1, CollegeDistance$distance)

n <- nrow(X)

# IV estimator: beta_IV = (Z'X)^{-1} Z'y
ZtX <- t(Z) %*% X
Zty <- t(Z) %*% y
beta_IV_manual <- solve(ZtX) %*% Zty
cat("Manual IV:\n"); print(beta_IV_manual)

# Compare with ivreg coefficients
cat("AER ivreg:\n"); print(coef(iv))

5.2 First Stage F-statistic

Instrument relevance bisa ditest via first stage F-stat. Rule of thumb: F > 10.

first_stage <- lm(education ~ distance, data = CollegeDistance)
summary(first_stage)
# F-statistic dari first stage harus > 10 untuk avoid weak instruments problem

Jika F-stat rendah → weak instruments → IV estimator punya large variance dan bisa bias dalam small samples.

5.3 Hausman Test: OLS vs IV

Test apakah endogeneity signifikan:

$H_0$: $X$ exogenous (OLS consistent) $H_1$: $X$ endogenous (IV needed)

# Hausman test via augmented regression
first_stage_resid <- residuals(first_stage)
augmented <- lm(log(wage) ~ education + first_stage_resid, data = CollegeDistance)
# Test jika koefisien first_stage_resid = 0
# (koefisien signifikan → evidence of endogeneity)
summary(augmented)

6 Hausman Test: Mathematical Derivation

6.1 Setup

Test membandingkan dua estimators: - $\hat{\beta}_{OLS}$: efficient under $H_0$ (exogeneity), inconsistent under $H_1$ - $\hat{\beta}_{IV}$: consistent under both $H_0$ and $H_1$, but less efficient than OLS

6.2 Hausman Statistic

Kunci insight: di bawah $H_0$, $\hat{\beta}_{IV} - \hat{\beta}_{OLS}$ harus mendekati nol.

\[H = (\hat{\beta}_{IV} - \hat{\beta}_{OLS})^T \left[\hat{V}_{IV} - \hat{V}_{OLS}\right]^{-1} (\hat{\beta}_{IV} - \hat{\beta}_{OLS}) \sim \chi^2(k)\]

di mana $k$ adalah dimensi $\beta$ yang sedang ditest.

Mengapa menggunakan $V_{IV} - V_{OLS}$ (bukan $V_{IV}$)?

Karena di bawah $H_0$, $\text{Cov}(\hat{\beta}_{IV} - \hat{\beta}_{OLS}, \hat{\beta}_{OLS}) = 0$ (orthogonality of efficient estimator), sehingga $\text{Var}(\hat{\beta}_{IV} - \hat{\beta}_{OLS}) = \text{Var}(\hat{\beta}_{IV}) - \text{Var}(\hat{\beta}_{OLS})$.

Jika $H > \chi^2_{k,0.05}$, reject $H_0$ → ada endogeneity → gunakan IV.

7 Connection: Panel Data, Heteroskedasticity, and Weak Instruments

Connection: IV dalam Konteks Panel Data

Panel IV: Dalam panel data, sering menggunakan lagged values sebagai instruments. Untuk dynamic panel model $y_{it} = \alpha y_{i,t-1} + \beta x_{it} + u_{it} + \varepsilon_{it}$: - Arellano-Bond estimator: pakai $y_{i,t-2}, y_{i,t-3}, \ldots$ sebagai instruments - Blundell-Bond: tambahkan level instruments

Heteroskedasticity-robust IV SEs: Jika errors heteroskedastic, gunakan optimal GMM (bukan 2SLS) untuk efficient estimation. Standard errors dari GMM dengan $W = \hat{S}^{-1}$ otomatis heteroskedasticity-robust.

Weak Instruments Problem: Ketika relevance condition hampir tidak terpenuhi, $Z^TX/n \approx 0$: - First-stage F-stat < 10 → suspect weak instruments - IV bias toward OLS (bukan toward true $\beta$) - Inference invalid — t-stats tidak mengikuti normal distribution - Solusi: Anderson-Rubin test (robust ke weak instruments), LIML, atau cari instruments yang lebih kuat

8 Practice Problems

Practice Problems

8.1 Problem 1: Derive IV Estimator dari Moment Conditions

Tunjukkan bahwa IV estimator $\hat{\beta}_{IV} = (Z^TX)^{-1}Z^Ty$ adalah solusi dari sample moment condition $\frac{1}{n}Z^T(y - X\hat{\beta}) = 0$.

8.2 Problem 2: Verify 2SLS = OLS pada $\hat{X}$

Tunjukkan secara aljabar bahwa $(\hat{X}^TX)^{-1}\hat{X}^Ty = (\hat{X}^T\hat{X})^{-1}\hat{X}^Ty$ di mana $\hat{X} = P_Z X$.

Hint: Gunakan fakta bahwa $\hat{X}^T = X^T P_Z^T = X^T P_Z$ (karena $P_Z$ simetrik), dan $P_Z \hat{X} = P_Z P_Z X = P_Z X = \hat{X}$ (karena $P_Z$ idempotent).

8.3 Problem 3: Attenuation Bias dari Measurement Error

Misalkan true model: $y_i = \beta x_i + \varepsilon_i$, tapi kita observasi $x_i^* = x_i + \nu_i$ di mana $\nu_i \sim (0, \sigma_\nu^2)$ independent dari $x_i$ dan $\varepsilon_i$.

Tunjukkan bahwa: \[\text{plim}(\hat{\beta}_{OLS}) = \beta \cdot \frac{\sigma_x^2}{\sigma_x^2 + \sigma_\nu^2}\]

Ini adalah attenuation bias — koefisien biased toward zero sebesar faktor reliability ratio $\lambda = \sigma_x^2/(\sigma_x^2 + \sigma_\nu^2) \in (0,1)$.

# Simulasi attenuation bias
set.seed(42)
n <- 10000
x_true <- rnorm(n, mean = 5, sd = 2)  # sigma_x = 2
eps <- rnorm(n, sd = 1)
y <- 3 * x_true + eps  # true beta = 3

sigma_nu_vals <- c(0, 0.5, 1, 2, 4)
results <- sapply(sigma_nu_vals, function(sigma_nu) {
  nu <- rnorm(n, sd = sigma_nu)
  x_obs <- x_true + nu
  coef(lm(y ~ x_obs - 1))  # no intercept
})

reliability_ratio <- 4 / (4 + sigma_nu_vals^2)  # sigma_x^2 = 4
cat("True beta:", 3, "\n")
cat("Theoretical plim:", 3 * reliability_ratio, "\n")
cat("Simulated estimates:", round(results, 3), "\n")

8.4 Problem 4: GMM dengan Multiple Instruments

Dengan $Z = [z_1, z_2, z_3]$ (3 instruments untuk 1 endogenous regressor), derive optimal GMM estimator dan tunjukkan bahwa hasilnya equivalent dengan 2SLS ketika errors homoskedastic.

9 Summary

Estimator	Formula	Asumsi Kritis	Ketika Dipakai
OLS	$(X^TX)^{-1}X^Ty$	$E[\varepsilon\\|X] = 0$	X exogenous
IV (just-ID)	$(Z^TX)^{-1}Z^Ty$	Relevance + Exogeneity	1 instrument per endogenous var
2SLS	$(X^TP_ZX)^{-1}X^TP_Zy$	Relevance + Exogeneity	Multiple instruments
GMM	$(X^TZWZ^TX)^{-1}X^TZWZ^Ty$	Moment conditions	General, allows heteroskedasticity
Optimal GMM	GMM with $W = S^{-1}$	Moment conditions	Efficient under heteroskedasticity

--- title: "Instrumental Variables & GMM" subtitle: "When OLS Breaks: Endogeneity, Instruments, and Optimal Moment Estimation" --- ::: {.callout-note title="Why This Matters for Your Work"} Ketika $E[\varepsilon | X] \neq 0$ — ada omitted variable, reverse causality, atau measurement error — OLS bukan hanya inefficient, tapi **biased dan inconsistent**. Tidak ada jumlah data yang akan memperbaikinya. IV dan GMM adalah toolkit untuk situasi di mana kamu tidak bisa randomize, tidak bisa observe semua confounders, tapi punya variable yang "seperti" instrument quasi-random. Ini adalah inti dari causal inference dalam data observasional. Setelah memahami topik ini, kamu akan: - Tahu secara matematika kenapa endogeneity membuat OLS fail - Derive IV estimator dari first principles (bukan hafalan) - Understand 2SLS sebagai dua-tahap OLS, bukan "black box" - Paham GMM sebagai generalisasi dari IV ke banyak moment conditions - Tahu persis apa yang Hausman test sedang test secara statistik ::: ## The Endogeneity Problem ### Setup Model populasi: $$y = X\beta + \varepsilon$$ OLS menjadi **biased** ketika $E[X^T\varepsilon] \neq 0$. Secara intuitif: $$\text{plim}(\hat{\beta}_{OLS}) = \beta + \text{plim}\left[(X^TX/n)^{-1}(X^T\varepsilon/n)\right] \neq \beta$$ Jika $X^T\varepsilon/n \to_p c \neq 0$, maka OLS akan selalu overestimate atau underestimate $\beta$, tidak peduli $n$ seberapa besar. ### Sumber Endogeneity **Omitted Variable Bias**: True model $y = X\beta + Z\gamma + u$, tapi kita regress hanya $y$ pada $X$. Maka $\varepsilon = Z\gamma + u$, dan jika $\text{Cov}(X, Z) \neq 0$, maka $E[X^T\varepsilon] \neq 0$. Bias formula: $\text{plim}(\hat{\beta}_{OLS}) = \beta + (X^TX/n)^{-1}(X^TZ/n)\gamma$ **Simultaneity**: $y$ dan $x$ jointly determined (supply & demand). $y$ affects $x$ AND $x$ affects $y$ → $x$ correlated dengan error. **Measurement Error**: $x$ diobservasi sebagai $x^* = x + \nu$ (classical measurement error). OLS dari $y$ pada $x^*$ memberikan **attenuation bias**: koefisien biased toward zero. --- ## IV Estimator ### Motivasi: Instrumental Variable Kita butuh variable $Z \in \mathbb{R}^{n \times \ell}$ (matrix instruments, $\ell \geq k$) yang memenuhi: ::: {.callout-important title="Definisi: IV Conditions"} **(Relevance)**: $E[Z^TX]$ has rank $k$ — instruments correlated dengan endogenous regressors. $$\text{Formal: } Z \text{ relevant jika } \text{plim}(Z^TX/n) \text{ full rank}$$ **(Exogeneity)**: $E[Z^T\varepsilon] = 0$ — instruments uncorrelated dengan error. $$\text{Formal: } E[z_i \varepsilon_i] = 0 \quad \forall \text{ kolom } z \text{ dari } Z$$ ::: ### Just-Identified Case: $\ell = k$ Ketika jumlah instruments sama dengan jumlah endogenous regressors, IV estimator adalah: $$\boxed{\hat{\beta}_{IV} = (Z^TX)^{-1}Z^Ty}$$ **Derivasi**: Dari moment condition $E[Z^T\varepsilon] = 0$, yaitu $E[Z^T(y - X\beta)] = 0$: Sample analog: $Z^T(y - X\hat{\beta}) = 0$, maka $Z^TX\hat{\beta} = Z^Ty$. Jika $Z^TX$ invertible (relevance + just-identified): $\hat{\beta}_{IV} = (Z^TX)^{-1}Z^Ty$. ### Consistency $$\text{plim}(\hat{\beta}_{IV}) = \text{plim}\left[(Z^TX/n)^{-1}(Z^Ty/n)\right]$$ $$= \text{plim}\left[(Z^TX/n)^{-1}(Z^TX\beta/n + Z^T\varepsilon/n)\right]$$ $$= \beta + \underbrace{\left(\text{plim}(Z^TX/n)\right)^{-1}}_{\text{finite}} \underbrace{\text{plim}(Z^T\varepsilon/n)}_{= 0 \text{ by exogeneity}}$$ $$= \beta$$ IV **consistent** selama relevance dan exogeneity terpenuhi. ### Asymptotic Variance of IV $$\sqrt{n}(\hat{\beta}_{IV} - \beta) \to_d N\left(0, \sigma^2 \left[(Z^TX/n)^{-1}(Z^TZ/n)(X^TZ/n)^{-1}\right] \cdot \frac{n}{1}\right)$$ Simplified: $\text{Avar}(\hat{\beta}_{IV}) = \sigma^2 (Z^TX)^{-1}(Z^TZ)(X^TZ)^{-1}$ Perhatikan bahwa $\text{Avar}(\hat{\beta}_{IV}) \geq \text{Avar}(\hat{\beta}_{OLS}) = \sigma^2(X^TX)^{-1}$ (dalam PSD sense) — IV membayar **efficiency cost** untuk consistency. --- ## Two-Stage Least Squares (2SLS) ### Over-Identified Case: $\ell > k$ Ketika $\ell > k$ (lebih banyak instruments dari endogenous regressors), kita punya lebih banyak moment conditions daripada unknowns. Tidak bisa solve $Z^Ty = Z^TX\hat{\beta}$ secara langsung karena sistem over-determined. 2SLS menyelesaikan ini dengan dua langkah: ### First Stage Regress $X$ pada $Z$ menggunakan OLS: $$\hat{X} = Z(Z^TZ)^{-1}Z^TX = P_Z X$$ di mana $P_Z = Z(Z^TZ)^{-1}Z^T$ adalah projection matrix ke column space of $Z$. $\hat{X}$ adalah "komponen $X$ yang dijelaskan oleh instruments" — ini hanya mengandung variasi exogenous. ### Second Stage Regress $y$ pada $\hat{X}$ menggunakan OLS: $$\hat{\beta}_{2SLS} = (\hat{X}^T\hat{X})^{-1}\hat{X}^Ty$$ ### Bentuk Compact 2SLS Substitusi $\hat{X} = P_Z X$: $$\hat{\beta}_{2SLS} = (X^TP_Z^T P_Z X)^{-1}X^TP_Z^Ty$$ Karena $P_Z$ idempotent dan simetrik ($P_Z^2 = P_Z$, $P_Z^T = P_Z$): $$\boxed{\hat{\beta}_{2SLS} = (X^TP_ZX)^{-1}X^TP_Zy}$$ **Catatan penting**: Standard errors dari second stage *naif* salah karena $\hat{X}$ adalah estimasi, bukan observed. Harus pakai formula SE yang benar (atau gunakan package yang menangani ini otomatis seperti `AER::ivreg()` di R). ### Variance of 2SLS $$\text{Var}(\hat{\beta}_{2SLS} | X, Z) = \sigma^2 (X^TP_ZX)^{-1}$$ Estimasi $\sigma^2$ menggunakan residuals dari model asli: $\hat{\varepsilon} = y - X\hat{\beta}_{2SLS}$ (bukan residual dari second stage!). --- ## GMM: Generalized Method of Moments GMM adalah generalisasi dari IV yang memungkinkan lebih banyak moment conditions dan optimal weighting. ### Moment Conditions GMM dimulai dari **moment conditions**: $$E[g(y_i, x_i, \theta)] = 0$$ di mana $g: \mathbb{R} \times \mathbb{R}^k \times \mathbb{R}^p \to \mathbb{R}^\ell$ adalah vector-valued function. Untuk IV, moment conditions adalah: $g_i(\theta) = z_i(y_i - x_i^T\beta)$ — sehingga $E[g_i] = E[z_i \varepsilon_i] = 0$. ### Sample Moment Conditions Definisikan sample analog: $$\bar{g}(\theta) = \frac{1}{n}\sum_{i=1}^n g(y_i, x_i, \theta) = \frac{1}{n}Z^T(y - X\theta)$$ (untuk kasus IV linear) ### GMM Objective Function Untuk over-identified case ($\ell > k$), kita tidak bisa set semua moments = 0 simultaneously. GMM meminimize **weighted quadratic form** dari sample moments: $$\hat{\theta}_{GMM} = \arg\min_\theta \bar{g}(\theta)^T W \bar{g}(\theta)$$ di mana $W \in \mathbb{R}^{\ell \times \ell}$ adalah positive definite **weighting matrix**. ### GMM Estimator (Linear Case) FOC: $$\frac{\partial}{\partial \theta}\left[\bar{g}(\theta)^T W \bar{g}(\theta)\right] = 2 \frac{\partial \bar{g}}{\partial \theta}^T W \bar{g}(\theta) = 0$$ Untuk kasus linear: $\frac{\partial \bar{g}}{\partial \theta} = -X^TZ/n$ $$(-X^TZ/n)W(Z^T(y - X\hat{\theta})/n) = 0$$ $$X^TZW Z^Ty = X^TZW Z^X\hat{\theta}$$ $$\boxed{\hat{\theta}_{GMM} = (X^TZWZ^TX)^{-1}X^TZWZ^Ty}$$ ### Optimal Weighting Matrix Asymptotic variance dari GMM: $$\text{Avar}(\hat{\theta}_{GMM}) = \frac{1}{n}(X^TZWZ^TX)^{-1}X^TZW S WZ^TX(X^TZWZ^TX)^{-1}$$ di mana $S = \text{Avar}(\sqrt{n}\bar{g}(\theta_0)) = \text{Var}(g_i(\theta_0))$ (long-run variance dari moments). **Optimal weighting matrix** yang meminimize asymptotic variance: $$W^* = S^{-1} = \left[\text{Var}(g_i(\theta_0))\right]^{-1}$$ Dengan $W = W^*$, variance GMM menjadi: $$\text{Avar}(\hat{\theta}_{GMM}^*) = \frac{1}{n}(X^TZS^{-1}Z^TX)^{-1}$$ Ini adalah **efficient GMM**. ### Hubungan 2SLS dan GMM Dengan $W = (Z^TZ/n)^{-1}$ (karena $S = \sigma^2 Z^TZ/n$ untuk homoskedastic case): $$\hat{\theta}_{GMM} = (X^TP_ZX)^{-1}X^TP_Zy = \hat{\beta}_{2SLS}$$ Jadi **2SLS adalah special case dari GMM** dengan weighting matrix $W = (Z^TZ)^{-1}$. Di bawah heteroskedasticity, 2SLS tidak lagi efficient — efficient GMM dengan $W = S^{-1}$ akan lebih baik. --- ## Worked Example: Simple IV ::: {.callout-tip title="Worked Example: Returns to Education with IV" collapse="true"} ### Setup Kita ingin estimasi returns to education: $$\log(wage_i) = \beta_0 + \beta_1 educ_i + \varepsilon_i$$ Masalah: `educ` endogenous karena ability $a_i$ mempengaruhi baik `educ` maupun `wage`. Instrument: jarak ke perguruan tinggi (`dist`) — relevant (mempengaruhi `educ`), exogenous (tidak langsung mempengaruhi `wage`). ```r library(AER) # for ivreg() data(CollegeDistance, package = "AER") # OLS (likely biased upward due to ability bias) ols <- lm(log(wage) ~ education, data = CollegeDistance) # IV using distance as instrument iv <- ivreg(log(wage) ~ education | distance, data = CollegeDistance) summary(ols) summary(iv) # IV coefficient typically smaller than OLS — consistent with ability bias # Manual IV calculation y <- log(CollegeDistance$wage) X <- cbind(1, CollegeDistance$education) Z <- cbind(1, CollegeDistance$distance) n <- nrow(X) # IV estimator: beta_IV = (Z'X)^{-1} Z'y ZtX <- t(Z) %*% X Zty <- t(Z) %*% y beta_IV_manual <- solve(ZtX) %*% Zty cat("Manual IV:\n"); print(beta_IV_manual) # Compare with ivreg coefficients cat("AER ivreg:\n"); print(coef(iv)) ``` ### First Stage F-statistic Instrument relevance bisa ditest via first stage F-stat. Rule of thumb: F > 10. ```r first_stage <- lm(education ~ distance, data = CollegeDistance) summary(first_stage) # F-statistic dari first stage harus > 10 untuk avoid weak instruments problem ``` Jika F-stat rendah → **weak instruments** → IV estimator punya large variance dan bisa bias dalam small samples. ### Hausman Test: OLS vs IV Test apakah endogeneity signifikan: $H_0$: $X$ exogenous (OLS consistent) $H_1$: $X$ endogenous (IV needed) ```r # Hausman test via augmented regression first_stage_resid <- residuals(first_stage) augmented <- lm(log(wage) ~ education + first_stage_resid, data = CollegeDistance) # Test jika koefisien first_stage_resid = 0 # (koefisien signifikan → evidence of endogeneity) summary(augmented) ``` ::: --- ## Hausman Test: Mathematical Derivation ### Setup Test membandingkan dua estimators: - $\hat{\beta}_{OLS}$: efficient under $H_0$ (exogeneity), inconsistent under $H_1$ - $\hat{\beta}_{IV}$: consistent under both $H_0$ and $H_1$, but less efficient than OLS ### Hausman Statistic Kunci insight: di bawah $H_0$, $\hat{\beta}_{IV} - \hat{\beta}_{OLS}$ harus mendekati nol. $$H = (\hat{\beta}_{IV} - \hat{\beta}_{OLS})^T \left[\hat{V}_{IV} - \hat{V}_{OLS}\right]^{-1} (\hat{\beta}_{IV} - \hat{\beta}_{OLS}) \sim \chi^2(k)$$ di mana $k$ adalah dimensi $\beta$ yang sedang ditest. **Mengapa menggunakan $V_{IV} - V_{OLS}$ (bukan $V_{IV}$)?** Karena di bawah $H_0$, $\text{Cov}(\hat{\beta}_{IV} - \hat{\beta}_{OLS}, \hat{\beta}_{OLS}) = 0$ (orthogonality of efficient estimator), sehingga $\text{Var}(\hat{\beta}_{IV} - \hat{\beta}_{OLS}) = \text{Var}(\hat{\beta}_{IV}) - \text{Var}(\hat{\beta}_{OLS})$. Jika $H > \chi^2_{k,0.05}$, reject $H_0$ → ada endogeneity → gunakan IV. --- ## Connection: Panel Data, Heteroskedasticity, and Weak Instruments ::: {.callout-caution title="Connection: IV dalam Konteks Panel Data"} **Panel IV**: Dalam panel data, sering menggunakan **lagged values** sebagai instruments. Untuk dynamic panel model $y_{it} = \alpha y_{i,t-1} + \beta x_{it} + u_{it} + \varepsilon_{it}$: - Arellano-Bond estimator: pakai $y_{i,t-2}, y_{i,t-3}, \ldots$ sebagai instruments - Blundell-Bond: tambahkan level instruments **Heteroskedasticity-robust IV SEs**: Jika errors heteroskedastic, gunakan optimal GMM (bukan 2SLS) untuk efficient estimation. Standard errors dari GMM dengan $W = \hat{S}^{-1}$ otomatis heteroskedasticity-robust. **Weak Instruments Problem**: Ketika relevance condition hampir tidak terpenuhi, $Z^TX/n \approx 0$: - First-stage F-stat < 10 → suspect weak instruments - IV bias toward OLS (bukan toward true $\beta$) - Inference invalid — t-stats tidak mengikuti normal distribution - Solusi: Anderson-Rubin test (robust ke weak instruments), LIML, atau cari instruments yang lebih kuat ::: --- ## Practice Problems ::: {.callout-warning title="Practice Problems" collapse="true"} ### Problem 1: Derive IV Estimator dari Moment Conditions Tunjukkan bahwa IV estimator $\hat{\beta}_{IV} = (Z^TX)^{-1}Z^Ty$ adalah solusi dari sample moment condition $\frac{1}{n}Z^T(y - X\hat{\beta}) = 0$. ### Problem 2: Verify 2SLS = OLS pada $\hat{X}$ Tunjukkan secara aljabar bahwa $(\hat{X}^TX)^{-1}\hat{X}^Ty = (\hat{X}^T\hat{X})^{-1}\hat{X}^Ty$ di mana $\hat{X} = P_Z X$. **Hint**: Gunakan fakta bahwa $\hat{X}^T = X^T P_Z^T = X^T P_Z$ (karena $P_Z$ simetrik), dan $P_Z \hat{X} = P_Z P_Z X = P_Z X = \hat{X}$ (karena $P_Z$ idempotent). ### Problem 3: Attenuation Bias dari Measurement Error Misalkan true model: $y_i = \beta x_i + \varepsilon_i$, tapi kita observasi $x_i^* = x_i + \nu_i$ di mana $\nu_i \sim (0, \sigma_\nu^2)$ independent dari $x_i$ dan $\varepsilon_i$. Tunjukkan bahwa: $$\text{plim}(\hat{\beta}_{OLS}) = \beta \cdot \frac{\sigma_x^2}{\sigma_x^2 + \sigma_\nu^2}$$ Ini adalah **attenuation bias** — koefisien biased toward zero sebesar faktor reliability ratio $\lambda = \sigma_x^2/(\sigma_x^2 + \sigma_\nu^2) \in (0,1)$. ```r # Simulasi attenuation bias set.seed(42) n <- 10000 x_true <- rnorm(n, mean = 5, sd = 2) # sigma_x = 2 eps <- rnorm(n, sd = 1) y <- 3 * x_true + eps # true beta = 3 sigma_nu_vals <- c(0, 0.5, 1, 2, 4) results <- sapply(sigma_nu_vals, function(sigma_nu) { nu <- rnorm(n, sd = sigma_nu) x_obs <- x_true + nu coef(lm(y ~ x_obs - 1)) # no intercept }) reliability_ratio <- 4 / (4 + sigma_nu_vals^2) # sigma_x^2 = 4 cat("True beta:", 3, "\n") cat("Theoretical plim:", 3 * reliability_ratio, "\n") cat("Simulated estimates:", round(results, 3), "\n") ``` ### Problem 4: GMM dengan Multiple Instruments Dengan $Z = [z_1, z_2, z_3]$ (3 instruments untuk 1 endogenous regressor), derive optimal GMM estimator dan tunjukkan bahwa hasilnya equivalent dengan 2SLS ketika errors homoskedastic. ::: --- ## Summary | Estimator | Formula | Asumsi Kritis | Ketika Dipakai | |-----------|---------|--------------|----------------| | OLS | $(X^TX)^{-1}X^Ty$ | $E[\varepsilon\|X] = 0$ | X exogenous | | IV (just-ID) | $(Z^TX)^{-1}Z^Ty$ | Relevance + Exogeneity | 1 instrument per endogenous var | | 2SLS | $(X^TP_ZX)^{-1}X^TP_Zy$ | Relevance + Exogeneity | Multiple instruments | | GMM | $(X^TZWZ^TX)^{-1}X^TZWZ^Ty$ | Moment conditions | General, allows heteroskedasticity | | Optimal GMM | GMM with $W = S^{-1}$ | Moment conditions | Efficient under heteroskedasticity |