Gauss-Markov Theorem & BLUE

Why OLS? — The Formal Justification

NoteWhy This Matters for Your Work

Gauss-Markov theorem adalah justifikasi mengapa kita pakai OLS. Ia menyatakan bahwa OLS adalah Best Linear Unbiased Estimator (BLUE) — di antara semua estimator yang linear dan unbiased, OLS punya variance terkecil.

Tapi yang lebih penting dari statement-nya adalah proofnya: proof Gauss-Markov menunjukkan secara eksplisit asumsi mana yang melakukan pekerjaan berat. Ketika kamu tahu ini, kamu langsung tahu: - Asumsi mana yang dilanggar ketika ada heteroskedasticity - Kenapa serial correlation membuat OLS inefficient (bukan biased) - Kenapa endogeneity adalah masalah yang berbeda sama sekali (membuat OLS biased, bukan hanya inefficient)

Memahami Gauss-Markov = memahami kapan dan mengapa kamu perlu GLS, robust SEs, atau IV.

1 The Gauss-Markov Assumptions

ImportantDefinisi: The Classical Gauss-Markov Assumptions

Untuk model \(y = X\beta + \varepsilon\), berikut adalah 5 asumsi klasik:

(A1) Linearity in Parameters \[y = X\beta + \varepsilon\] Model linear dalam parameter \(\beta\) (tapi \(X\) bisa mengandung nonlinear transformasi dari regressors asli, misal \(x^2\), \(\log x\)).

(A2) Random Sampling / Full Rank \((y_i, x_i)\) adalah random sample dari populasi, dan \(\text{rank}(X) = k\) (full column rank).

Implikasi: Tidak ada perfect multicollinearity. \(X^TX\) invertible.

(A3) Zero Conditional Mean \[E[\varepsilon_i | X] = 0 \quad \forall i\]

Ini adalah asumsi krusial. Implikasi: - \(E[\varepsilon_i | x_1, x_2, \ldots, x_n] = 0\) — error uncorrelated dengan semua regressors, bukan hanya regressors observasi \(i\) - Merupakan kondisi yang lebih kuat dari \(E[\varepsilon_i] = 0\)

(A4) Homoskedasticity \[\text{Var}(\varepsilon_i | X) = \sigma^2 \quad \forall i\]

Variance error sama untuk semua observasi. Ketika dilanggar → heteroskedasticity.

(A5) No Serial Correlation \[\text{Cov}(\varepsilon_i, \varepsilon_j | X) = 0 \quad \forall i \neq j\]

Errors uncorrelated across observations. Ketika dilanggar → serial correlation (penting di time series dan spatial data).

A4 + A5 bisa ditulis secara compact: \(\text{Var}(\varepsilon | X) = \sigma^2 I_n\).

1.1 Catatan tentang Kekuatan Asumsi

Asumsi Dibutuhkan Untuk Jika Dilanggar
A1 (Linearity) Semua properties Model salah spesifikasi
A2 (Full rank) Existensi \(\hat{\beta}\) \((X^TX)^{-1}\) tidak exist
A3 (Zero cond. mean) Unbiasedness OLS biased → pakai IV
A4 (Homoskedasticity) Efficiency + valid SEs OLS inefficient → pakai GLS atau robust SEs
A5 (No serial corr.) Efficiency + valid SEs OLS inefficient → pakai Newey-West SEs

2 BLUE: Definisi Presisi

ImportantDefinisi: BLUE

Estimator \(\hat{\beta}\) disebut BLUE jika ia adalah:

B — Best: Punya minimum variance di antara semua estimator linear unbiased. Formal: Untuk semua estimator linear unbiased \(\tilde{\beta}\), \(\text{Var}(\hat{\beta}) \preceq \text{Var}(\tilde{\beta})\), artinya \(\text{Var}(\tilde{\beta}) - \text{Var}(\hat{\beta}) \succeq 0\) (positive semidefinite).

L — Linear: Estimator adalah fungsi linear dari \(y\): \[\tilde{\beta} = Cy \quad \text{untuk suatu matriks } C \in \mathbb{R}^{k \times n}\]

U — Unbiased: \(E[\tilde{\beta}] = \beta\) untuk semua \(\beta\).

E — Estimator: Sebuah statistik — fungsi dari data yang bisa dihitung.

Kenapa “linear”? Karena kita membatasi diri ke kelas estimator yang mudah. Untuk large samples, ada estimator nonlinear yang bisa lebih baik (misalnya MLE ketika distribusi diketahui). Tapi dalam kelas linear, OLS adalah optimal.


3 Proof of the Gauss-Markov Theorem

ImportantDefinisi: Gauss-Markov Theorem

Diberikan asumsi A1–A5, OLS estimator \(\hat{\beta} = (X^TX)^{-1}X^Ty\) adalah BLUE.

3.1 Langkah 1: Karakterisasi Semua Linear Unbiased Estimators

Misalkan \(\tilde{\beta} = Cy\) adalah estimator linear sembarang, di mana \(C \in \mathbb{R}^{k \times n}\).

Agar \(\tilde{\beta}\) unbiased: \[E[\tilde{\beta} | X] = E[Cy | X] = CE[y | X] = CX\beta = \beta \quad \forall \beta\]

Ini harus berlaku untuk semua \(\beta\), sehingga wajib: \[CX = I_k\]

Ini adalah unbiasedness constraint.

3.2 Langkah 2: Dekomposisi \(C\)

Tulis: \[C = \underbrace{(X^TX)^{-1}X^T}_{= C_{OLS}} + D\]

di mana \(D = C - (X^TX)^{-1}X^T\) adalah “deviasi” dari OLS.

Dari unbiasedness constraint \(CX = I_k\): \[\left[(X^TX)^{-1}X^T + D\right]X = I_k\] \[(X^TX)^{-1}X^TX + DX = I_k\] \[I_k + DX = I_k\] \[DX = 0\]

Jadi: setiap linear unbiased estimator punya \(D\) dengan \(DX = 0\).

3.3 Langkah 3: Hitung Variance dari \(\tilde{\beta}\)

\[\tilde{\beta} = Cy = \left[(X^TX)^{-1}X^T + D\right]y\]

Karena \(y = X\beta + \varepsilon\): \[\tilde{\beta} - \beta = \left[(X^TX)^{-1}X^T + D\right]\varepsilon\]

Variance-covariance matrix: \[\text{Var}(\tilde{\beta} | X) = \left[(X^TX)^{-1}X^T + D\right]\text{Var}(\varepsilon | X)\left[(X^TX)^{-1}X^T + D\right]^T\]

Substitusi \(\text{Var}(\varepsilon | X) = \sigma^2 I\) (asumsi A4 + A5):

\[= \sigma^2 \left[(X^TX)^{-1}X^T + D\right]\left[X(X^TX)^{-1} + D^T\right]\]

Expand perkalian ini:

\[= \sigma^2 \left[(X^TX)^{-1}X^TX(X^TX)^{-1} + (X^TX)^{-1}X^TD^T + DX(X^TX)^{-1} + DD^T\right]\]

Gunakan \(DX = 0\) (maka \(X^TD^T = (DX)^T = 0\)) dan \((X^TX)^{-1}X^TX(X^TX)^{-1} = (X^TX)^{-1}\):

\[\text{Var}(\tilde{\beta} | X) = \sigma^2(X^TX)^{-1} + \sigma^2 DD^T\]

\[= \underbrace{\text{Var}(\hat{\beta}_{OLS} | X)}_{\sigma^2(X^TX)^{-1}} + \underbrace{\sigma^2 DD^T}_{\succeq 0}\]

3.4 Langkah 4: Kesimpulan

Karena \(DD^T \succeq 0\) (setiap matriks \(AA^T\) adalah positive semidefinite):

\[\text{Var}(\tilde{\beta} | X) - \text{Var}(\hat{\beta}_{OLS} | X) = \sigma^2 DD^T \succeq 0\]

Artinya \(\text{Var}(\hat{\beta}_{OLS}) \preceq \text{Var}(\tilde{\beta})\) untuk semua linear unbiased \(\tilde{\beta}\).

OLS adalah BLUE. \(\blacksquare\)

CautionConnection: Interpretasi Geometri dari Proof

Dekomposisi \(C = (X^TX)^{-1}X^T + D\) adalah dekomposisi orthogonal dalam suatu norma tertentu.

\((X^TX)^{-1}X^T\) adalah “OLS part” dan \(D\) adalah “ekstra bagian yang hanya menambah variance” karena \(DD^T \succeq 0\).

Ini analog dengan: jika kamu project sebuah vector ke sebuah subspace, panjang proyeksi tidak bisa melebihi panjang vector aslinya. OLS adalah “proyeksi yang paling efisien.”


4 Apa yang Terjadi Ketika Asumsi Dilanggar?

4.1 Kasus 1: Heteroskedasticity (\(\text{Var}(\varepsilon_i | X) = \sigma_i^2 \neq \sigma^2\))

Apa yang terjadi pada OLS: - OLS masih unbiased (\(E[\hat{\beta}] = \beta\) — hanya butuh A3) - OLS tidak efficient (bukan BLUE lagi — proof di atas tidak berlaku karena menggunakan \(\text{Var}(\varepsilon) = \sigma^2 I\)) - Standard errors yang biasa salah → inference invalid

Solusi: 1. Heteroskedasticity-Consistent (HC) Standard Errors (Huber-White): pakai OLS tapi koreksi SEs \[\hat{V}_{HC} = (X^TX)^{-1}\left(\sum_i \hat{\varepsilon}_i^2 x_i x_i^T\right)(X^TX)^{-1}\]

  1. Generalized Least Squares (GLS): jika \(\Omega = \text{diag}(\sigma_1^2, \ldots, \sigma_n^2)\) diketahui: \[\hat{\beta}_{GLS} = (X^T\Omega^{-1}X)^{-1}X^T\Omega^{-1}y\]

  2. Feasible GLS (FGLS): estimasi \(\sigma_i^2\) dulu, lalu lakukan GLS.

4.2 Kasus 2: Serial Correlation (\(\text{Cov}(\varepsilon_i, \varepsilon_j) \neq 0\))

Apa yang terjadi pada OLS: - OLS masih unbiased - OLS tidak efficient (bukan BLUE) - Standard errors yang biasa terlalu kecil → t-stats inflate → overreject \(H_0\)

Solusi: 1. Newey-West (HAC) Standard Errors: robust terhadap heteroskedasticity DAN autocorrelation \[\hat{V}_{NW} = (X^TX)^{-1}\hat{S}(X^TX)^{-1}\] di mana \(\hat{S}\) menggunakan kernel weighting untuk lags

  1. GLS dengan struktur AR(1): jika \(\varepsilon_t = \rho\varepsilon_{t-1} + u_t\), bisa transform model dan apply OLS ke transformed model.

4.3 Kasus 3: Endogeneity (\(E[\varepsilon_i | x_i] \neq 0\))

Apa yang terjadi pada OLS: - OLS BIASED dan INCONSISTENT — ini beda fundamental dari kasus 1 dan 2! - Bukan sekedar masalah efficiency — estimator kamu tidak converge ke nilai yang benar bahkan dengan \(n \to \infty\)

Sumber endogeneity: - Omitted variable bias - Simultaneity / reverse causality - Measurement error

Solusi: - Instrumental Variables (IV): cari \(Z\) yang relevant (\(Z^TX\) full rank) dan exogenous (\(E[Z^T\varepsilon] = 0\)) - 2SLS, GMM: lihat Topik 3

4.4 Problem 1: Verifikasi Unbiasedness dalam Contoh Numerik

Dari data di Topik 1 (\(n=5\), \(y \approx 2x\)), simulasikan 1000 samples dengan \(\varepsilon_i \sim N(0, 1)\) dan verifikasi bahwa rata-rata \(\hat{\beta}_1\) mendekati true slope 2.

set.seed(42)
n <- 100
x <- runif(n, 0, 10)
X <- cbind(1, x)
beta_true <- c(0.5, 2.0)  # true intercept and slope

# Simulate 1000 regressions
B <- 1000
beta_hats <- matrix(NA, B, 2)
for (b in 1:B) {
  eps <- rnorm(n, 0, 2)  # homoskedastic errors
  y <- X %*% beta_true + eps
  beta_hats[b, ] <- solve(t(X) %*% X) %*% t(X) %*% y
}

cat("E[beta_hat_0] =", mean(beta_hats[,1]), "(true:", beta_true[1], ")\n")
cat("E[beta_hat_1] =", mean(beta_hats[,2]), "(true:", beta_true[2], ")\n")

4.5 Problem 2: Heteroskedasticity — OLS vs GLS Efficiency

Simulasikan data dengan heteroskedastic errors \(\varepsilon_i \sim N(0, x_i^2)\). Bandingkan variance OLS vs GLS.

set.seed(123)
n <- 200
x <- runif(n, 1, 5)
X <- cbind(1, x)
beta_true <- c(1, 2)

B <- 2000
beta_ols <- beta_gls <- matrix(NA, B, 2)
for (b in 1:B) {
  # Heteroskedastic errors: var(eps_i) = x_i^2
  eps <- rnorm(n, 0, x)
  y <- X %*% beta_true + eps

  # OLS
  beta_ols[b, ] <- solve(t(X) %*% X) %*% t(X) %*% y

  # GLS (assuming we know the true Omega)
  Omega_inv <- diag(1 / x^2)
  beta_gls[b, ] <- solve(t(X) %*% Omega_inv %*% X) %*% t(X) %*% Omega_inv %*% y
}

cat("Var(OLS slope) =", var(beta_ols[,2]), "\n")
cat("Var(GLS slope) =", var(beta_gls[,2]), "\n")
cat("Efficiency gain:", var(beta_ols[,2]) / var(beta_gls[,2]), "x\n")

4.6 Problem 3: The \(D\) Matrix in Gauss-Markov Proof

Berikan contoh konkret dari linear unbiased estimator yang bukan OLS, dan verifikasi secara numeris bahwa variance-nya lebih besar.

Hint: Pertimbangkan estimator “naive” \(\tilde{\beta}_1 = \bar{y}/\bar{x}\) (slope saja, tanpa intercept) — apakah ini linear dan unbiased?

Alternatif: Coba estimator yang menggunakan hanya separuh observasi: \(\tilde{\beta} = (X_1^TX_1)^{-1}X_1^Ty_1\) di mana subscript 1 menunjukkan setengah pertama data. Verifikasi unbiasedness dan bandingkan variance.

# Contoh: estimator yang pakai setengah data
n <- 1000; x <- rnorm(n); X <- cbind(1, x); y <- X %*% c(1,2) + rnorm(n)

# OLS pakai semua data
beta_ols_full <- solve(t(X) %*% X) %*% t(X) %*% y

# OLS pakai setengah data pertama
half <- 1:(n/2)
beta_half <- solve(t(X[half,]) %*% X[half,]) %*% t(X[half,]) %*% y[half]

# Secara teoritis, Var(beta_half) = 2 * Var(beta_ols_full)
# (karena pakai n/2 observasi vs n)
cat("Var_ols ∝ 1/n, Var_half ∝ 2/n → efficiency ratio ≈ 2\n")

4.7 Problem 4: Prove that GLS is BLUE under heteroskedasticity

Tunjukkan bahwa GLS (\(\hat{\beta}_{GLS} = (X^T\Omega^{-1}X)^{-1}X^T\Omega^{-1}y\)) adalah BLUE ketika \(\text{Var}(\varepsilon) = \sigma^2\Omega\).

Petunjuk: Transformasi model: biarkan \(y^* = \Omega^{-1/2}y\), \(X^* = \Omega^{-1/2}X\), \(\varepsilon^* = \Omega^{-1/2}\varepsilon\). Tunjukkan bahwa \(\text{Var}(\varepsilon^*) = \sigma^2 I\), lalu apply Gauss-Markov standard ke model transformasi.


5 Koneksi ke GLS, FGLS, dan Robust SEs

CautionConnection: Gauss-Markov sebagai Unifying Framework

Semua variasi dari OLS yang kamu kenal di applied work bisa dipahami melalui lensa Gauss-Markov:

Robust Standard Errors: “OLS tetap OK, tapi SEs-nya harus dikoreksi karena Var(ε) ≠ σ²I”

GLS: “OLS pada model yang sudah ditransformasi sehingga Gauss-Markov berlaku lagi”

FGLS: “GLS di mana Ω diestimasi dari data (karena jarang diketahui)”

Panel Fixed Effects: “OLS pada demeaned data — FWL memastikan ini equivalent dengan mengontrol individual effects” (Gauss-Markov berlaku di dalam-unit)

Newey-West SEs: “Koreksi SEs untuk serial correlation dalam time series” (A5 dilanggar)

Clustered SEs: “Koreksi SEs ketika Cov(εᵢ, εⱼ) ≠ 0 untuk observasi dalam cluster yang sama”

Semua ini adalah respons terhadap pelanggaran asumsi A4 atau A5 — tapi bukan A3! Jika A3 dilanggar, kamu tidak bisa “patch” dengan SEs yang berbeda; kamu butuh estimator yang berbeda secara fundamental (IV/2SLS).


6 Summary

Asumsi Dibutuhkan Akibat Pelanggaran Solusi
A1: Linearity Seluruh framework OLS Model misspecification Nonlinear model
A2: Full rank Eksistensi \(\hat{\beta}\) \((X^TX)^{-1}\) tidak ada Drop collinear vars
A3: \(E[\varepsilon\|X]=0\) Unbiasedness OLS biased & inconsistent IV, 2SLS, RDD, DiD
A4: Homoskedasticity Efficiency, valid SEs OLS inefficient, wrong SEs Robust SEs, GLS, FGLS
A5: No serial corr. Efficiency, valid SEs OLS inefficient, wrong SEs HAC SEs, GLS

The Gauss-Markov Theorem adalah jaminan bahwa — selama semua asumsi terpenuhi — OLS adalah estimator linear terbaik yang mungkin. Memahami proofnya memberi kamu peta jalan lengkap untuk semua yang bisa salah dan cara memperbaikinya.