Gauss-Markov Theorem & BLUE
Why OLS? — The Formal Justification
Gauss-Markov theorem adalah justifikasi mengapa kita pakai OLS. Ia menyatakan bahwa OLS adalah Best Linear Unbiased Estimator (BLUE) — di antara semua estimator yang linear dan unbiased, OLS punya variance terkecil.
Tapi yang lebih penting dari statement-nya adalah proofnya: proof Gauss-Markov menunjukkan secara eksplisit asumsi mana yang melakukan pekerjaan berat. Ketika kamu tahu ini, kamu langsung tahu: - Asumsi mana yang dilanggar ketika ada heteroskedasticity - Kenapa serial correlation membuat OLS inefficient (bukan biased) - Kenapa endogeneity adalah masalah yang berbeda sama sekali (membuat OLS biased, bukan hanya inefficient)
Memahami Gauss-Markov = memahami kapan dan mengapa kamu perlu GLS, robust SEs, atau IV.
1 The Gauss-Markov Assumptions
Untuk model \(y = X\beta + \varepsilon\), berikut adalah 5 asumsi klasik:
(A1) Linearity in Parameters \[y = X\beta + \varepsilon\] Model linear dalam parameter \(\beta\) (tapi \(X\) bisa mengandung nonlinear transformasi dari regressors asli, misal \(x^2\), \(\log x\)).
(A2) Random Sampling / Full Rank \((y_i, x_i)\) adalah random sample dari populasi, dan \(\text{rank}(X) = k\) (full column rank).
Implikasi: Tidak ada perfect multicollinearity. \(X^TX\) invertible.
(A3) Zero Conditional Mean \[E[\varepsilon_i | X] = 0 \quad \forall i\]
Ini adalah asumsi krusial. Implikasi: - \(E[\varepsilon_i | x_1, x_2, \ldots, x_n] = 0\) — error uncorrelated dengan semua regressors, bukan hanya regressors observasi \(i\) - Merupakan kondisi yang lebih kuat dari \(E[\varepsilon_i] = 0\)
(A4) Homoskedasticity \[\text{Var}(\varepsilon_i | X) = \sigma^2 \quad \forall i\]
Variance error sama untuk semua observasi. Ketika dilanggar → heteroskedasticity.
(A5) No Serial Correlation \[\text{Cov}(\varepsilon_i, \varepsilon_j | X) = 0 \quad \forall i \neq j\]
Errors uncorrelated across observations. Ketika dilanggar → serial correlation (penting di time series dan spatial data).
A4 + A5 bisa ditulis secara compact: \(\text{Var}(\varepsilon | X) = \sigma^2 I_n\).
1.1 Catatan tentang Kekuatan Asumsi
| Asumsi | Dibutuhkan Untuk | Jika Dilanggar |
|---|---|---|
| A1 (Linearity) | Semua properties | Model salah spesifikasi |
| A2 (Full rank) | Existensi \(\hat{\beta}\) | \((X^TX)^{-1}\) tidak exist |
| A3 (Zero cond. mean) | Unbiasedness | OLS biased → pakai IV |
| A4 (Homoskedasticity) | Efficiency + valid SEs | OLS inefficient → pakai GLS atau robust SEs |
| A5 (No serial corr.) | Efficiency + valid SEs | OLS inefficient → pakai Newey-West SEs |
2 BLUE: Definisi Presisi
Estimator \(\hat{\beta}\) disebut BLUE jika ia adalah:
B — Best: Punya minimum variance di antara semua estimator linear unbiased. Formal: Untuk semua estimator linear unbiased \(\tilde{\beta}\), \(\text{Var}(\hat{\beta}) \preceq \text{Var}(\tilde{\beta})\), artinya \(\text{Var}(\tilde{\beta}) - \text{Var}(\hat{\beta}) \succeq 0\) (positive semidefinite).
L — Linear: Estimator adalah fungsi linear dari \(y\): \[\tilde{\beta} = Cy \quad \text{untuk suatu matriks } C \in \mathbb{R}^{k \times n}\]
U — Unbiased: \(E[\tilde{\beta}] = \beta\) untuk semua \(\beta\).
E — Estimator: Sebuah statistik — fungsi dari data yang bisa dihitung.
Kenapa “linear”? Karena kita membatasi diri ke kelas estimator yang mudah. Untuk large samples, ada estimator nonlinear yang bisa lebih baik (misalnya MLE ketika distribusi diketahui). Tapi dalam kelas linear, OLS adalah optimal.
3 Proof of the Gauss-Markov Theorem
Diberikan asumsi A1–A5, OLS estimator \(\hat{\beta} = (X^TX)^{-1}X^Ty\) adalah BLUE.
3.1 Langkah 1: Karakterisasi Semua Linear Unbiased Estimators
Misalkan \(\tilde{\beta} = Cy\) adalah estimator linear sembarang, di mana \(C \in \mathbb{R}^{k \times n}\).
Agar \(\tilde{\beta}\) unbiased: \[E[\tilde{\beta} | X] = E[Cy | X] = CE[y | X] = CX\beta = \beta \quad \forall \beta\]
Ini harus berlaku untuk semua \(\beta\), sehingga wajib: \[CX = I_k\]
Ini adalah unbiasedness constraint.
3.2 Langkah 2: Dekomposisi \(C\)
Tulis: \[C = \underbrace{(X^TX)^{-1}X^T}_{= C_{OLS}} + D\]
di mana \(D = C - (X^TX)^{-1}X^T\) adalah “deviasi” dari OLS.
Dari unbiasedness constraint \(CX = I_k\): \[\left[(X^TX)^{-1}X^T + D\right]X = I_k\] \[(X^TX)^{-1}X^TX + DX = I_k\] \[I_k + DX = I_k\] \[DX = 0\]
Jadi: setiap linear unbiased estimator punya \(D\) dengan \(DX = 0\).
3.3 Langkah 3: Hitung Variance dari \(\tilde{\beta}\)
\[\tilde{\beta} = Cy = \left[(X^TX)^{-1}X^T + D\right]y\]
Karena \(y = X\beta + \varepsilon\): \[\tilde{\beta} - \beta = \left[(X^TX)^{-1}X^T + D\right]\varepsilon\]
Variance-covariance matrix: \[\text{Var}(\tilde{\beta} | X) = \left[(X^TX)^{-1}X^T + D\right]\text{Var}(\varepsilon | X)\left[(X^TX)^{-1}X^T + D\right]^T\]
Substitusi \(\text{Var}(\varepsilon | X) = \sigma^2 I\) (asumsi A4 + A5):
\[= \sigma^2 \left[(X^TX)^{-1}X^T + D\right]\left[X(X^TX)^{-1} + D^T\right]\]
Expand perkalian ini:
\[= \sigma^2 \left[(X^TX)^{-1}X^TX(X^TX)^{-1} + (X^TX)^{-1}X^TD^T + DX(X^TX)^{-1} + DD^T\right]\]
Gunakan \(DX = 0\) (maka \(X^TD^T = (DX)^T = 0\)) dan \((X^TX)^{-1}X^TX(X^TX)^{-1} = (X^TX)^{-1}\):
\[\text{Var}(\tilde{\beta} | X) = \sigma^2(X^TX)^{-1} + \sigma^2 DD^T\]
\[= \underbrace{\text{Var}(\hat{\beta}_{OLS} | X)}_{\sigma^2(X^TX)^{-1}} + \underbrace{\sigma^2 DD^T}_{\succeq 0}\]
3.4 Langkah 4: Kesimpulan
Karena \(DD^T \succeq 0\) (setiap matriks \(AA^T\) adalah positive semidefinite):
\[\text{Var}(\tilde{\beta} | X) - \text{Var}(\hat{\beta}_{OLS} | X) = \sigma^2 DD^T \succeq 0\]
Artinya \(\text{Var}(\hat{\beta}_{OLS}) \preceq \text{Var}(\tilde{\beta})\) untuk semua linear unbiased \(\tilde{\beta}\).
OLS adalah BLUE. \(\blacksquare\)
Dekomposisi \(C = (X^TX)^{-1}X^T + D\) adalah dekomposisi orthogonal dalam suatu norma tertentu.
\((X^TX)^{-1}X^T\) adalah “OLS part” dan \(D\) adalah “ekstra bagian yang hanya menambah variance” karena \(DD^T \succeq 0\).
Ini analog dengan: jika kamu project sebuah vector ke sebuah subspace, panjang proyeksi tidak bisa melebihi panjang vector aslinya. OLS adalah “proyeksi yang paling efisien.”
4 Apa yang Terjadi Ketika Asumsi Dilanggar?
4.1 Kasus 1: Heteroskedasticity (\(\text{Var}(\varepsilon_i | X) = \sigma_i^2 \neq \sigma^2\))
Apa yang terjadi pada OLS: - OLS masih unbiased (\(E[\hat{\beta}] = \beta\) — hanya butuh A3) - OLS tidak efficient (bukan BLUE lagi — proof di atas tidak berlaku karena menggunakan \(\text{Var}(\varepsilon) = \sigma^2 I\)) - Standard errors yang biasa salah → inference invalid
Solusi: 1. Heteroskedasticity-Consistent (HC) Standard Errors (Huber-White): pakai OLS tapi koreksi SEs \[\hat{V}_{HC} = (X^TX)^{-1}\left(\sum_i \hat{\varepsilon}_i^2 x_i x_i^T\right)(X^TX)^{-1}\]
Generalized Least Squares (GLS): jika \(\Omega = \text{diag}(\sigma_1^2, \ldots, \sigma_n^2)\) diketahui: \[\hat{\beta}_{GLS} = (X^T\Omega^{-1}X)^{-1}X^T\Omega^{-1}y\]
Feasible GLS (FGLS): estimasi \(\sigma_i^2\) dulu, lalu lakukan GLS.
4.2 Kasus 2: Serial Correlation (\(\text{Cov}(\varepsilon_i, \varepsilon_j) \neq 0\))
Apa yang terjadi pada OLS: - OLS masih unbiased - OLS tidak efficient (bukan BLUE) - Standard errors yang biasa terlalu kecil → t-stats inflate → overreject \(H_0\)
Solusi: 1. Newey-West (HAC) Standard Errors: robust terhadap heteroskedasticity DAN autocorrelation \[\hat{V}_{NW} = (X^TX)^{-1}\hat{S}(X^TX)^{-1}\] di mana \(\hat{S}\) menggunakan kernel weighting untuk lags
- GLS dengan struktur AR(1): jika \(\varepsilon_t = \rho\varepsilon_{t-1} + u_t\), bisa transform model dan apply OLS ke transformed model.
4.3 Kasus 3: Endogeneity (\(E[\varepsilon_i | x_i] \neq 0\))
Apa yang terjadi pada OLS: - OLS BIASED dan INCONSISTENT — ini beda fundamental dari kasus 1 dan 2! - Bukan sekedar masalah efficiency — estimator kamu tidak converge ke nilai yang benar bahkan dengan \(n \to \infty\)
Sumber endogeneity: - Omitted variable bias - Simultaneity / reverse causality - Measurement error
Solusi: - Instrumental Variables (IV): cari \(Z\) yang relevant (\(Z^TX\) full rank) dan exogenous (\(E[Z^T\varepsilon] = 0\)) - 2SLS, GMM: lihat Topik 3
4.4 Problem 1: Verifikasi Unbiasedness dalam Contoh Numerik
Dari data di Topik 1 (\(n=5\), \(y \approx 2x\)), simulasikan 1000 samples dengan \(\varepsilon_i \sim N(0, 1)\) dan verifikasi bahwa rata-rata \(\hat{\beta}_1\) mendekati true slope 2.
set.seed(42)
n <- 100
x <- runif(n, 0, 10)
X <- cbind(1, x)
beta_true <- c(0.5, 2.0) # true intercept and slope
# Simulate 1000 regressions
B <- 1000
beta_hats <- matrix(NA, B, 2)
for (b in 1:B) {
eps <- rnorm(n, 0, 2) # homoskedastic errors
y <- X %*% beta_true + eps
beta_hats[b, ] <- solve(t(X) %*% X) %*% t(X) %*% y
}
cat("E[beta_hat_0] =", mean(beta_hats[,1]), "(true:", beta_true[1], ")\n")
cat("E[beta_hat_1] =", mean(beta_hats[,2]), "(true:", beta_true[2], ")\n")4.5 Problem 2: Heteroskedasticity — OLS vs GLS Efficiency
Simulasikan data dengan heteroskedastic errors \(\varepsilon_i \sim N(0, x_i^2)\). Bandingkan variance OLS vs GLS.
set.seed(123)
n <- 200
x <- runif(n, 1, 5)
X <- cbind(1, x)
beta_true <- c(1, 2)
B <- 2000
beta_ols <- beta_gls <- matrix(NA, B, 2)
for (b in 1:B) {
# Heteroskedastic errors: var(eps_i) = x_i^2
eps <- rnorm(n, 0, x)
y <- X %*% beta_true + eps
# OLS
beta_ols[b, ] <- solve(t(X) %*% X) %*% t(X) %*% y
# GLS (assuming we know the true Omega)
Omega_inv <- diag(1 / x^2)
beta_gls[b, ] <- solve(t(X) %*% Omega_inv %*% X) %*% t(X) %*% Omega_inv %*% y
}
cat("Var(OLS slope) =", var(beta_ols[,2]), "\n")
cat("Var(GLS slope) =", var(beta_gls[,2]), "\n")
cat("Efficiency gain:", var(beta_ols[,2]) / var(beta_gls[,2]), "x\n")4.6 Problem 3: The \(D\) Matrix in Gauss-Markov Proof
Berikan contoh konkret dari linear unbiased estimator yang bukan OLS, dan verifikasi secara numeris bahwa variance-nya lebih besar.
Hint: Pertimbangkan estimator “naive” \(\tilde{\beta}_1 = \bar{y}/\bar{x}\) (slope saja, tanpa intercept) — apakah ini linear dan unbiased?
Alternatif: Coba estimator yang menggunakan hanya separuh observasi: \(\tilde{\beta} = (X_1^TX_1)^{-1}X_1^Ty_1\) di mana subscript 1 menunjukkan setengah pertama data. Verifikasi unbiasedness dan bandingkan variance.
# Contoh: estimator yang pakai setengah data
n <- 1000; x <- rnorm(n); X <- cbind(1, x); y <- X %*% c(1,2) + rnorm(n)
# OLS pakai semua data
beta_ols_full <- solve(t(X) %*% X) %*% t(X) %*% y
# OLS pakai setengah data pertama
half <- 1:(n/2)
beta_half <- solve(t(X[half,]) %*% X[half,]) %*% t(X[half,]) %*% y[half]
# Secara teoritis, Var(beta_half) = 2 * Var(beta_ols_full)
# (karena pakai n/2 observasi vs n)
cat("Var_ols ∝ 1/n, Var_half ∝ 2/n → efficiency ratio ≈ 2\n")4.7 Problem 4: Prove that GLS is BLUE under heteroskedasticity
Tunjukkan bahwa GLS (\(\hat{\beta}_{GLS} = (X^T\Omega^{-1}X)^{-1}X^T\Omega^{-1}y\)) adalah BLUE ketika \(\text{Var}(\varepsilon) = \sigma^2\Omega\).
Petunjuk: Transformasi model: biarkan \(y^* = \Omega^{-1/2}y\), \(X^* = \Omega^{-1/2}X\), \(\varepsilon^* = \Omega^{-1/2}\varepsilon\). Tunjukkan bahwa \(\text{Var}(\varepsilon^*) = \sigma^2 I\), lalu apply Gauss-Markov standard ke model transformasi.
5 Koneksi ke GLS, FGLS, dan Robust SEs
Semua variasi dari OLS yang kamu kenal di applied work bisa dipahami melalui lensa Gauss-Markov:
Robust Standard Errors: “OLS tetap OK, tapi SEs-nya harus dikoreksi karena Var(ε) ≠ σ²I”
GLS: “OLS pada model yang sudah ditransformasi sehingga Gauss-Markov berlaku lagi”
FGLS: “GLS di mana Ω diestimasi dari data (karena jarang diketahui)”
Panel Fixed Effects: “OLS pada demeaned data — FWL memastikan ini equivalent dengan mengontrol individual effects” (Gauss-Markov berlaku di dalam-unit)
Newey-West SEs: “Koreksi SEs untuk serial correlation dalam time series” (A5 dilanggar)
Clustered SEs: “Koreksi SEs ketika Cov(εᵢ, εⱼ) ≠ 0 untuk observasi dalam cluster yang sama”
Semua ini adalah respons terhadap pelanggaran asumsi A4 atau A5 — tapi bukan A3! Jika A3 dilanggar, kamu tidak bisa “patch” dengan SEs yang berbeda; kamu butuh estimator yang berbeda secara fundamental (IV/2SLS).
6 Summary
| Asumsi | Dibutuhkan | Akibat Pelanggaran | Solusi |
|---|---|---|---|
| A1: Linearity | Seluruh framework OLS | Model misspecification | Nonlinear model |
| A2: Full rank | Eksistensi \(\hat{\beta}\) | \((X^TX)^{-1}\) tidak ada | Drop collinear vars |
| A3: \(E[\varepsilon\|X]=0\) | Unbiasedness | OLS biased & inconsistent | IV, 2SLS, RDD, DiD |
| A4: Homoskedasticity | Efficiency, valid SEs | OLS inefficient, wrong SEs | Robust SEs, GLS, FGLS |
| A5: No serial corr. | Efficiency, valid SEs | OLS inefficient, wrong SEs | HAC SEs, GLS |
The Gauss-Markov Theorem adalah jaminan bahwa — selama semua asumsi terpenuhi — OLS adalah estimator linear terbaik yang mungkin. Memahami proofnya memberi kamu peta jalan lengkap untuk semua yang bisa salah dan cara memperbaikinya.