Gauss-Markov Theorem & BLUE

Why OLS? — The Formal Justification

Why This Matters for Your Work

Gauss-Markov theorem adalah justifikasi mengapa kita pakai OLS. Ia menyatakan bahwa OLS adalah Best Linear Unbiased Estimator (BLUE) — di antara semua estimator yang linear dan unbiased, OLS punya variance terkecil.

Tapi yang lebih penting dari statement-nya adalah proofnya: proof Gauss-Markov menunjukkan secara eksplisit asumsi mana yang melakukan pekerjaan berat. Ketika kamu tahu ini, kamu langsung tahu: - Asumsi mana yang dilanggar ketika ada heteroskedasticity - Kenapa serial correlation membuat OLS inefficient (bukan biased) - Kenapa endogeneity adalah masalah yang berbeda sama sekali (membuat OLS biased, bukan hanya inefficient)

Memahami Gauss-Markov = memahami kapan dan mengapa kamu perlu GLS, robust SEs, atau IV.

1 The Gauss-Markov Assumptions

Definisi: The Classical Gauss-Markov Assumptions

Untuk model $y = X\beta + \varepsilon$, berikut adalah 5 asumsi klasik:

(A1) Linearity in Parameters \[y = X\beta + \varepsilon\] Model linear dalam parameter $\beta$ (tapi $X$ bisa mengandung nonlinear transformasi dari regressors asli, misal $x^2$, $\log x$).

(A2) Random Sampling / Full Rank $(y_i, x_i)$ adalah random sample dari populasi, dan $\text{rank}(X) = k$ (full column rank).

Implikasi: Tidak ada perfect multicollinearity. $X^TX$ invertible.

(A3) Zero Conditional Mean \[E[\varepsilon_i | X] = 0 \quad \forall i\]

Ini adalah asumsi krusial. Implikasi: - $E[\varepsilon_i | x_1, x_2, \ldots, x_n] = 0$ — error uncorrelated dengan semua regressors, bukan hanya regressors observasi $i$ - Merupakan kondisi yang lebih kuat dari $E[\varepsilon_i] = 0$

(A4) Homoskedasticity \[\text{Var}(\varepsilon_i | X) = \sigma^2 \quad \forall i\]

Variance error sama untuk semua observasi. Ketika dilanggar → heteroskedasticity.

(A5) No Serial Correlation \[\text{Cov}(\varepsilon_i, \varepsilon_j | X) = 0 \quad \forall i \neq j\]

Errors uncorrelated across observations. Ketika dilanggar → serial correlation (penting di time series dan spatial data).

A4 + A5 bisa ditulis secara compact: $\text{Var}(\varepsilon | X) = \sigma^2 I_n$.

1.1 Catatan tentang Kekuatan Asumsi

Asumsi	Dibutuhkan Untuk	Jika Dilanggar
A1 (Linearity)	Semua properties	Model salah spesifikasi
A2 (Full rank)	Existensi $\hat{\beta}$	$(X^TX)^{-1}$ tidak exist
A3 (Zero cond. mean)	Unbiasedness	OLS biased → pakai IV
A4 (Homoskedasticity)	Efficiency + valid SEs	OLS inefficient → pakai GLS atau robust SEs
A5 (No serial corr.)	Efficiency + valid SEs	OLS inefficient → pakai Newey-West SEs

2 BLUE: Definisi Presisi

Definisi: BLUE

Estimator $\hat{\beta}$ disebut BLUE jika ia adalah:

B — Best: Punya minimum variance di antara semua estimator linear unbiased. Formal: Untuk semua estimator linear unbiased $\tilde{\beta}$, $\text{Var}(\hat{\beta}) \preceq \text{Var}(\tilde{\beta})$, artinya $\text{Var}(\tilde{\beta}) - \text{Var}(\hat{\beta}) \succeq 0$ (positive semidefinite).

L — Linear: Estimator adalah fungsi linear dari $y$: \[\tilde{\beta} = Cy \quad \text{untuk suatu matriks } C \in \mathbb{R}^{k \times n}\]

U — Unbiased: $E[\tilde{\beta}] = \beta$ untuk semua $\beta$.

E — Estimator: Sebuah statistik — fungsi dari data yang bisa dihitung.

Kenapa “linear”? Karena kita membatasi diri ke kelas estimator yang mudah. Untuk large samples, ada estimator nonlinear yang bisa lebih baik (misalnya MLE ketika distribusi diketahui). Tapi dalam kelas linear, OLS adalah optimal.

3 Proof of the Gauss-Markov Theorem

Definisi: Gauss-Markov Theorem

Diberikan asumsi A1–A5, OLS estimator $\hat{\beta} = (X^TX)^{-1}X^Ty$ adalah BLUE.

3.1 Langkah 1: Karakterisasi Semua Linear Unbiased Estimators

Misalkan $\tilde{\beta} = Cy$ adalah estimator linear sembarang, di mana $C \in \mathbb{R}^{k \times n}$.

Agar $\tilde{\beta}$ unbiased: \[E[\tilde{\beta} | X] = E[Cy | X] = CE[y | X] = CX\beta = \beta \quad \forall \beta\]

Ini harus berlaku untuk semua $\beta$, sehingga wajib: \[CX = I_k\]

Ini adalah unbiasedness constraint.

3.2 Langkah 2: Dekomposisi $C$

Tulis: \[C = \underbrace{(X^TX)^{-1}X^T}_{= C_{OLS}} + D\]

di mana $D = C - (X^TX)^{-1}X^T$ adalah “deviasi” dari OLS.

Dari unbiasedness constraint $CX = I_k$: \[\left[(X^TX)^{-1}X^T + D\right]X = I_k\] \[(X^TX)^{-1}X^TX + DX = I_k\] \[I_k + DX = I_k\] \[DX = 0\]

Jadi: setiap linear unbiased estimator punya $D$ dengan $DX = 0$.

3.3 Langkah 3: Hitung Variance dari $\tilde{\beta}$

\[\tilde{\beta} = Cy = \left[(X^TX)^{-1}X^T + D\right]y\]

Karena $y = X\beta + \varepsilon$: \[\tilde{\beta} - \beta = \left[(X^TX)^{-1}X^T + D\right]\varepsilon\]

Variance-covariance matrix: \[\text{Var}(\tilde{\beta} | X) = \left[(X^TX)^{-1}X^T + D\right]\text{Var}(\varepsilon | X)\left[(X^TX)^{-1}X^T + D\right]^T\]

Substitusi $\text{Var}(\varepsilon | X) = \sigma^2 I$ (asumsi A4 + A5):

\[= \sigma^2 \left[(X^TX)^{-1}X^T + D\right]\left[X(X^TX)^{-1} + D^T\right]\]

Expand perkalian ini:

\[= \sigma^2 \left[(X^TX)^{-1}X^TX(X^TX)^{-1} + (X^TX)^{-1}X^TD^T + DX(X^TX)^{-1} + DD^T\right]\]

Gunakan $DX = 0$ (maka $X^TD^T = (DX)^T = 0$) dan $(X^TX)^{-1}X^TX(X^TX)^{-1} = (X^TX)^{-1}$:

\[\text{Var}(\tilde{\beta} | X) = \sigma^2(X^TX)^{-1} + \sigma^2 DD^T\]

\[= \underbrace{\text{Var}(\hat{\beta}_{OLS} | X)}_{\sigma^2(X^TX)^{-1}} + \underbrace{\sigma^2 DD^T}_{\succeq 0}\]

3.4 Langkah 4: Kesimpulan

Karena $DD^T \succeq 0$ (setiap matriks $AA^T$ adalah positive semidefinite):

\[\text{Var}(\tilde{\beta} | X) - \text{Var}(\hat{\beta}_{OLS} | X) = \sigma^2 DD^T \succeq 0\]

Artinya $\text{Var}(\hat{\beta}_{OLS}) \preceq \text{Var}(\tilde{\beta})$ untuk semua linear unbiased $\tilde{\beta}$.

OLS adalah BLUE. $\blacksquare$

Connection: Interpretasi Geometri dari Proof

Dekomposisi $C = (X^TX)^{-1}X^T + D$ adalah dekomposisi orthogonal dalam suatu norma tertentu.

$(X^TX)^{-1}X^T$ adalah “OLS part” dan $D$ adalah “ekstra bagian yang hanya menambah variance” karena $DD^T \succeq 0$.

Ini analog dengan: jika kamu project sebuah vector ke sebuah subspace, panjang proyeksi tidak bisa melebihi panjang vector aslinya. OLS adalah “proyeksi yang paling efisien.”

4 Apa yang Terjadi Ketika Asumsi Dilanggar?

4.1 Kasus 1: Heteroskedasticity ($\text{Var}(\varepsilon_i | X) = \sigma_i^2 \neq \sigma^2$)

Apa yang terjadi pada OLS: - OLS masih unbiased ($E[\hat{\beta}] = \beta$ — hanya butuh A3) - OLS tidak efficient (bukan BLUE lagi — proof di atas tidak berlaku karena menggunakan $\text{Var}(\varepsilon) = \sigma^2 I$) - Standard errors yang biasa salah → inference invalid

Solusi: 1. Heteroskedasticity-Consistent (HC) Standard Errors (Huber-White): pakai OLS tapi koreksi SEs \[\hat{V}_{HC} = (X^TX)^{-1}\left(\sum_i \hat{\varepsilon}_i^2 x_i x_i^T\right)(X^TX)^{-1}\]

Generalized Least Squares (GLS): jika $\Omega = \text{diag}(\sigma_1^2, \ldots, \sigma_n^2)$ diketahui: \[\hat{\beta}_{GLS} = (X^T\Omega^{-1}X)^{-1}X^T\Omega^{-1}y\]
Feasible GLS (FGLS): estimasi $\sigma_i^2$ dulu, lalu lakukan GLS.

4.2 Kasus 2: Serial Correlation ($\text{Cov}(\varepsilon_i, \varepsilon_j) \neq 0$)

Apa yang terjadi pada OLS: - OLS masih unbiased - OLS tidak efficient (bukan BLUE) - Standard errors yang biasa terlalu kecil → t-stats inflate → overreject $H_0$

Solusi: 1. Newey-West (HAC) Standard Errors: robust terhadap heteroskedasticity DAN autocorrelation \[\hat{V}_{NW} = (X^TX)^{-1}\hat{S}(X^TX)^{-1}\] di mana $\hat{S}$ menggunakan kernel weighting untuk lags

GLS dengan struktur AR(1): jika $\varepsilon_t = \rho\varepsilon_{t-1} + u_t$, bisa transform model dan apply OLS ke transformed model.

4.3 Kasus 3: Endogeneity ($E[\varepsilon_i | x_i] \neq 0$)

Apa yang terjadi pada OLS: - OLS BIASED dan INCONSISTENT — ini beda fundamental dari kasus 1 dan 2! - Bukan sekedar masalah efficiency — estimator kamu tidak converge ke nilai yang benar bahkan dengan $n \to \infty$

Sumber endogeneity: - Omitted variable bias - Simultaneity / reverse causality - Measurement error

Solusi: - Instrumental Variables (IV): cari $Z$ yang relevant ($Z^TX$ full rank) dan exogenous ($E[Z^T\varepsilon] = 0$) - 2SLS, GMM: lihat Topik 3

Practice Problems

4.4 Problem 1: Verifikasi Unbiasedness dalam Contoh Numerik

Dari data di Topik 1 ($n=5$, $y \approx 2x$), simulasikan 1000 samples dengan $\varepsilon_i \sim N(0, 1)$ dan verifikasi bahwa rata-rata $\hat{\beta}_1$ mendekati true slope 2.

set.seed(42)
n <- 100
x <- runif(n, 0, 10)
X <- cbind(1, x)
beta_true <- c(0.5, 2.0)  # true intercept and slope

# Simulate 1000 regressions
B <- 1000
beta_hats <- matrix(NA, B, 2)
for (b in 1:B) {
  eps <- rnorm(n, 0, 2)  # homoskedastic errors
  y <- X %*% beta_true + eps
  beta_hats[b, ] <- solve(t(X) %*% X) %*% t(X) %*% y
}

cat("E[beta_hat_0] =", mean(beta_hats[,1]), "(true:", beta_true[1], ")\n")
cat("E[beta_hat_1] =", mean(beta_hats[,2]), "(true:", beta_true[2], ")\n")

4.5 Problem 2: Heteroskedasticity — OLS vs GLS Efficiency

Simulasikan data dengan heteroskedastic errors $\varepsilon_i \sim N(0, x_i^2)$. Bandingkan variance OLS vs GLS.

set.seed(123)
n <- 200
x <- runif(n, 1, 5)
X <- cbind(1, x)
beta_true <- c(1, 2)

B <- 2000
beta_ols <- beta_gls <- matrix(NA, B, 2)
for (b in 1:B) {
  # Heteroskedastic errors: var(eps_i) = x_i^2
  eps <- rnorm(n, 0, x)
  y <- X %*% beta_true + eps

  # OLS
  beta_ols[b, ] <- solve(t(X) %*% X) %*% t(X) %*% y

  # GLS (assuming we know the true Omega)
  Omega_inv <- diag(1 / x^2)
  beta_gls[b, ] <- solve(t(X) %*% Omega_inv %*% X) %*% t(X) %*% Omega_inv %*% y
}

cat("Var(OLS slope) =", var(beta_ols[,2]), "\n")
cat("Var(GLS slope) =", var(beta_gls[,2]), "\n")
cat("Efficiency gain:", var(beta_ols[,2]) / var(beta_gls[,2]), "x\n")

4.6 Problem 3: The $D$ Matrix in Gauss-Markov Proof

Berikan contoh konkret dari linear unbiased estimator yang bukan OLS, dan verifikasi secara numeris bahwa variance-nya lebih besar.

Hint: Pertimbangkan estimator “naive” $\tilde{\beta}_1 = \bar{y}/\bar{x}$ (slope saja, tanpa intercept) — apakah ini linear dan unbiased?

Alternatif: Coba estimator yang menggunakan hanya separuh observasi: $\tilde{\beta} = (X_1^TX_1)^{-1}X_1^Ty_1$ di mana subscript 1 menunjukkan setengah pertama data. Verifikasi unbiasedness dan bandingkan variance.

# Contoh: estimator yang pakai setengah data
n <- 1000; x <- rnorm(n); X <- cbind(1, x); y <- X %*% c(1,2) + rnorm(n)

# OLS pakai semua data
beta_ols_full <- solve(t(X) %*% X) %*% t(X) %*% y

# OLS pakai setengah data pertama
half <- 1:(n/2)
beta_half <- solve(t(X[half,]) %*% X[half,]) %*% t(X[half,]) %*% y[half]

# Secara teoritis, Var(beta_half) = 2 * Var(beta_ols_full)
# (karena pakai n/2 observasi vs n)
cat("Var_ols ∝ 1/n, Var_half ∝ 2/n → efficiency ratio ≈ 2\n")

4.7 Problem 4: Prove that GLS is BLUE under heteroskedasticity

Tunjukkan bahwa GLS ($\hat{\beta}_{GLS} = (X^T\Omega^{-1}X)^{-1}X^T\Omega^{-1}y$) adalah BLUE ketika $\text{Var}(\varepsilon) = \sigma^2\Omega$.

Petunjuk: Transformasi model: biarkan $y^* = \Omega^{-1/2}y$, $X^* = \Omega^{-1/2}X$, $\varepsilon^* = \Omega^{-1/2}\varepsilon$. Tunjukkan bahwa $\text{Var}(\varepsilon^*) = \sigma^2 I$, lalu apply Gauss-Markov standard ke model transformasi.

5 Koneksi ke GLS, FGLS, dan Robust SEs

Connection: Gauss-Markov sebagai Unifying Framework

Semua variasi dari OLS yang kamu kenal di applied work bisa dipahami melalui lensa Gauss-Markov:

Robust Standard Errors: “OLS tetap OK, tapi SEs-nya harus dikoreksi karena Var(ε) ≠ σ²I”

GLS: “OLS pada model yang sudah ditransformasi sehingga Gauss-Markov berlaku lagi”

FGLS: “GLS di mana Ω diestimasi dari data (karena jarang diketahui)”

Panel Fixed Effects: “OLS pada demeaned data — FWL memastikan ini equivalent dengan mengontrol individual effects” (Gauss-Markov berlaku di dalam-unit)

Newey-West SEs: “Koreksi SEs untuk serial correlation dalam time series” (A5 dilanggar)

Clustered SEs: “Koreksi SEs ketika Cov(εᵢ, εⱼ) ≠ 0 untuk observasi dalam cluster yang sama”

Semua ini adalah respons terhadap pelanggaran asumsi A4 atau A5 — tapi bukan A3! Jika A3 dilanggar, kamu tidak bisa “patch” dengan SEs yang berbeda; kamu butuh estimator yang berbeda secara fundamental (IV/2SLS).

6 Summary

Asumsi	Dibutuhkan	Akibat Pelanggaran	Solusi
A1: Linearity	Seluruh framework OLS	Model misspecification	Nonlinear model
A2: Full rank	Eksistensi $\hat{\beta}$	$(X^TX)^{-1}$ tidak ada	Drop collinear vars
A3: $E[\varepsilon\\|X]=0$	Unbiasedness	OLS biased & inconsistent	IV, 2SLS, RDD, DiD
A4: Homoskedasticity	Efficiency, valid SEs	OLS inefficient, wrong SEs	Robust SEs, GLS, FGLS
A5: No serial corr.	Efficiency, valid SEs	OLS inefficient, wrong SEs	HAC SEs, GLS

The Gauss-Markov Theorem adalah jaminan bahwa — selama semua asumsi terpenuhi — OLS adalah estimator linear terbaik yang mungkin. Memahami proofnya memberi kamu peta jalan lengkap untuk semua yang bisa salah dan cara memperbaikinya.

--- title: "Gauss-Markov Theorem & BLUE" subtitle: "Why OLS? — The Formal Justification" --- ::: {.callout-note title="Why This Matters for Your Work"} Gauss-Markov theorem adalah **justifikasi** mengapa kita pakai OLS. Ia menyatakan bahwa OLS adalah **Best Linear Unbiased Estimator (BLUE)** — di antara semua estimator yang linear dan unbiased, OLS punya variance terkecil. Tapi yang lebih penting dari statement-nya adalah **proofnya**: proof Gauss-Markov menunjukkan secara eksplisit asumsi mana yang melakukan pekerjaan berat. Ketika kamu tahu ini, kamu langsung tahu: - Asumsi mana yang dilanggar ketika ada heteroskedasticity - Kenapa serial correlation membuat OLS inefficient (bukan biased) - Kenapa endogeneity adalah masalah yang berbeda sama sekali (membuat OLS **biased**, bukan hanya inefficient) Memahami Gauss-Markov = memahami kapan dan mengapa kamu perlu GLS, robust SEs, atau IV. ::: ## The Gauss-Markov Assumptions ::: {.callout-important title="Definisi: The Classical Gauss-Markov Assumptions"} Untuk model $y = X\beta + \varepsilon$, berikut adalah 5 asumsi klasik: **(A1) Linearity in Parameters** $$y = X\beta + \varepsilon$$ Model linear dalam parameter $\beta$ (tapi $X$ bisa mengandung nonlinear transformasi dari regressors asli, misal $x^2$, $\log x$). **(A2) Random Sampling / Full Rank** $(y_i, x_i)$ adalah random sample dari populasi, dan $\text{rank}(X) = k$ (full column rank). Implikasi: Tidak ada perfect multicollinearity. $X^TX$ invertible. **(A3) Zero Conditional Mean** $$E[\varepsilon_i | X] = 0 \quad \forall i$$ Ini adalah asumsi krusial. Implikasi: - $E[\varepsilon_i | x_1, x_2, \ldots, x_n] = 0$ — error uncorrelated dengan **semua** regressors, bukan hanya regressors observasi $i$ - Merupakan kondisi yang lebih kuat dari $E[\varepsilon_i] = 0$ **(A4) Homoskedasticity** $$\text{Var}(\varepsilon_i | X) = \sigma^2 \quad \forall i$$ Variance error sama untuk semua observasi. Ketika dilanggar → **heteroskedasticity**. **(A5) No Serial Correlation** $$\text{Cov}(\varepsilon_i, \varepsilon_j | X) = 0 \quad \forall i \neq j$$ Errors uncorrelated across observations. Ketika dilanggar → **serial correlation** (penting di time series dan spatial data). A4 + A5 bisa ditulis secara compact: $\text{Var}(\varepsilon | X) = \sigma^2 I_n$. ::: ### Catatan tentang Kekuatan Asumsi | Asumsi | Dibutuhkan Untuk | Jika Dilanggar | |--------|-----------------|----------------| | A1 (Linearity) | Semua properties | Model salah spesifikasi | | A2 (Full rank) | Existensi $\hat{\beta}$ | $(X^TX)^{-1}$ tidak exist | | A3 (Zero cond. mean) | Unbiasedness | OLS **biased** → pakai IV | | A4 (Homoskedasticity) | Efficiency + valid SEs | OLS inefficient → pakai GLS atau robust SEs | | A5 (No serial corr.) | Efficiency + valid SEs | OLS inefficient → pakai Newey-West SEs | --- ## BLUE: Definisi Presisi ::: {.callout-important title="Definisi: BLUE"} Estimator $\hat{\beta}$ disebut **BLUE** jika ia adalah: **B — Best**: Punya minimum variance di antara semua estimator linear unbiased. Formal: Untuk semua estimator linear unbiased $\tilde{\beta}$, $\text{Var}(\hat{\beta}) \preceq \text{Var}(\tilde{\beta})$, artinya $\text{Var}(\tilde{\beta}) - \text{Var}(\hat{\beta}) \succeq 0$ (positive semidefinite). **L — Linear**: Estimator adalah fungsi linear dari $y$: $$\tilde{\beta} = Cy \quad \text{untuk suatu matriks } C \in \mathbb{R}^{k \times n}$$ **U — Unbiased**: $E[\tilde{\beta}] = \beta$ untuk semua $\beta$. **E — Estimator**: Sebuah statistik — fungsi dari data yang bisa dihitung. ::: Kenapa "linear"? Karena kita membatasi diri ke kelas estimator yang mudah. Untuk large samples, ada estimator nonlinear yang bisa lebih baik (misalnya MLE ketika distribusi diketahui). Tapi dalam kelas linear, OLS adalah optimal. --- ## Proof of the Gauss-Markov Theorem ::: {.callout-important title="Definisi: Gauss-Markov Theorem"} Diberikan asumsi A1–A5, OLS estimator $\hat{\beta} = (X^TX)^{-1}X^Ty$ adalah **BLUE**. ::: ### Langkah 1: Karakterisasi Semua Linear Unbiased Estimators Misalkan $\tilde{\beta} = Cy$ adalah estimator linear sembarang, di mana $C \in \mathbb{R}^{k \times n}$. Agar $\tilde{\beta}$ **unbiased**: $$E[\tilde{\beta} | X] = E[Cy | X] = CE[y | X] = CX\beta = \beta \quad \forall \beta$$ Ini harus berlaku untuk **semua** $\beta$, sehingga wajib: $$CX = I_k$$ Ini adalah **unbiasedness constraint**. ### Langkah 2: Dekomposisi $C$ Tulis: $$C = \underbrace{(X^TX)^{-1}X^T}_{= C_{OLS}} + D$$ di mana $D = C - (X^TX)^{-1}X^T$ adalah "deviasi" dari OLS. Dari unbiasedness constraint $CX = I_k$: $$\left[(X^TX)^{-1}X^T + D\right]X = I_k$$ $$(X^TX)^{-1}X^TX + DX = I_k$$ $$I_k + DX = I_k$$ $$DX = 0$$ Jadi: **setiap linear unbiased estimator punya $D$ dengan $DX = 0$**. ### Langkah 3: Hitung Variance dari $\tilde{\beta}$ $$\tilde{\beta} = Cy = \left[(X^TX)^{-1}X^T + D\right]y$$ Karena $y = X\beta + \varepsilon$: $$\tilde{\beta} - \beta = \left[(X^TX)^{-1}X^T + D\right]\varepsilon$$ Variance-covariance matrix: $$\text{Var}(\tilde{\beta} | X) = \left[(X^TX)^{-1}X^T + D\right]\text{Var}(\varepsilon | X)\left[(X^TX)^{-1}X^T + D\right]^T$$ Substitusi $\text{Var}(\varepsilon | X) = \sigma^2 I$ (asumsi A4 + A5): $$= \sigma^2 \left[(X^TX)^{-1}X^T + D\right]\left[X(X^TX)^{-1} + D^T\right]$$ Expand perkalian ini: $$= \sigma^2 \left[(X^TX)^{-1}X^TX(X^TX)^{-1} + (X^TX)^{-1}X^TD^T + DX(X^TX)^{-1} + DD^T\right]$$ Gunakan $DX = 0$ (maka $X^TD^T = (DX)^T = 0$) dan $(X^TX)^{-1}X^TX(X^TX)^{-1} = (X^TX)^{-1}$: $$\text{Var}(\tilde{\beta} | X) = \sigma^2(X^TX)^{-1} + \sigma^2 DD^T$$ $$= \underbrace{\text{Var}(\hat{\beta}_{OLS} | X)}_{\sigma^2(X^TX)^{-1}} + \underbrace{\sigma^2 DD^T}_{\succeq 0}$$ ### Langkah 4: Kesimpulan Karena $DD^T \succeq 0$ (setiap matriks $AA^T$ adalah positive semidefinite): $$\text{Var}(\tilde{\beta} | X) - \text{Var}(\hat{\beta}_{OLS} | X) = \sigma^2 DD^T \succeq 0$$ Artinya $\text{Var}(\hat{\beta}_{OLS}) \preceq \text{Var}(\tilde{\beta})$ untuk semua linear unbiased $\tilde{\beta}$. **OLS adalah BLUE.** $\blacksquare$ ::: {.callout-caution title="Connection: Interpretasi Geometri dari Proof"} Dekomposisi $C = (X^TX)^{-1}X^T + D$ adalah dekomposisi **orthogonal** dalam suatu norma tertentu. $(X^TX)^{-1}X^T$ adalah "OLS part" dan $D$ adalah "ekstra bagian yang hanya menambah variance" karena $DD^T \succeq 0$. Ini analog dengan: jika kamu project sebuah vector ke sebuah subspace, panjang proyeksi tidak bisa melebihi panjang vector aslinya. OLS adalah "proyeksi yang paling efisien." ::: --- ## Apa yang Terjadi Ketika Asumsi Dilanggar? ### Kasus 1: Heteroskedasticity ($\text{Var}(\varepsilon_i | X) = \sigma_i^2 \neq \sigma^2$) **Apa yang terjadi pada OLS:** - OLS masih **unbiased** ($E[\hat{\beta}] = \beta$ — hanya butuh A3) - OLS **tidak efficient** (bukan BLUE lagi — proof di atas tidak berlaku karena menggunakan $\text{Var}(\varepsilon) = \sigma^2 I$) - Standard errors yang biasa **salah** → inference invalid **Solusi:** 1. **Heteroskedasticity-Consistent (HC) Standard Errors** (Huber-White): pakai OLS tapi koreksi SEs $$\hat{V}_{HC} = (X^TX)^{-1}\left(\sum_i \hat{\varepsilon}_i^2 x_i x_i^T\right)(X^TX)^{-1}$$ 2. **Generalized Least Squares (GLS)**: jika $\Omega = \text{diag}(\sigma_1^2, \ldots, \sigma_n^2)$ diketahui: $$\hat{\beta}_{GLS} = (X^T\Omega^{-1}X)^{-1}X^T\Omega^{-1}y$$ 3. **Feasible GLS (FGLS)**: estimasi $\sigma_i^2$ dulu, lalu lakukan GLS. ### Kasus 2: Serial Correlation ($\text{Cov}(\varepsilon_i, \varepsilon_j) \neq 0$) **Apa yang terjadi pada OLS:** - OLS masih **unbiased** - OLS **tidak efficient** (bukan BLUE) - Standard errors yang biasa **terlalu kecil** → t-stats inflate → overreject $H_0$ **Solusi:** 1. **Newey-West (HAC) Standard Errors**: robust terhadap heteroskedasticity DAN autocorrelation $$\hat{V}_{NW} = (X^TX)^{-1}\hat{S}(X^TX)^{-1}$$ di mana $\hat{S}$ menggunakan kernel weighting untuk lags 2. **GLS dengan struktur AR(1)**: jika $\varepsilon_t = \rho\varepsilon_{t-1} + u_t$, bisa transform model dan apply OLS ke transformed model. ### Kasus 3: Endogeneity ($E[\varepsilon_i | x_i] \neq 0$) **Apa yang terjadi pada OLS:** - OLS **BIASED** dan **INCONSISTENT** — ini beda fundamental dari kasus 1 dan 2! - Bukan sekedar masalah efficiency — estimator kamu tidak converge ke nilai yang benar bahkan dengan $n \to \infty$ **Sumber endogeneity:** - Omitted variable bias - Simultaneity / reverse causality - Measurement error **Solusi:** - **Instrumental Variables (IV)**: cari $Z$ yang relevant ($Z^TX$ full rank) dan exogenous ($E[Z^T\varepsilon] = 0$) - **2SLS**, **GMM**: lihat Topik 3 ::: {.callout-warning title="Practice Problems" collapse="true"} ### Problem 1: Verifikasi Unbiasedness dalam Contoh Numerik Dari data di Topik 1 ($n=5$, $y \approx 2x$), simulasikan 1000 samples dengan $\varepsilon_i \sim N(0, 1)$ dan verifikasi bahwa rata-rata $\hat{\beta}_1$ mendekati true slope 2. ```r set.seed(42) n <- 100 x <- runif(n, 0, 10) X <- cbind(1, x) beta_true <- c(0.5, 2.0) # true intercept and slope # Simulate 1000 regressions B <- 1000 beta_hats <- matrix(NA, B, 2) for (b in 1:B) { eps <- rnorm(n, 0, 2) # homoskedastic errors y <- X %*% beta_true + eps beta_hats[b, ] <- solve(t(X) %*% X) %*% t(X) %*% y } cat("E[beta_hat_0] =", mean(beta_hats[,1]), "(true:", beta_true[1], ")\n") cat("E[beta_hat_1] =", mean(beta_hats[,2]), "(true:", beta_true[2], ")\n") ``` ### Problem 2: Heteroskedasticity — OLS vs GLS Efficiency Simulasikan data dengan heteroskedastic errors $\varepsilon_i \sim N(0, x_i^2)$. Bandingkan variance OLS vs GLS. ```r set.seed(123) n <- 200 x <- runif(n, 1, 5) X <- cbind(1, x) beta_true <- c(1, 2) B <- 2000 beta_ols <- beta_gls <- matrix(NA, B, 2) for (b in 1:B) { # Heteroskedastic errors: var(eps_i) = x_i^2 eps <- rnorm(n, 0, x) y <- X %*% beta_true + eps # OLS beta_ols[b, ] <- solve(t(X) %*% X) %*% t(X) %*% y # GLS (assuming we know the true Omega) Omega_inv <- diag(1 / x^2) beta_gls[b, ] <- solve(t(X) %*% Omega_inv %*% X) %*% t(X) %*% Omega_inv %*% y } cat("Var(OLS slope) =", var(beta_ols[,2]), "\n") cat("Var(GLS slope) =", var(beta_gls[,2]), "\n") cat("Efficiency gain:", var(beta_ols[,2]) / var(beta_gls[,2]), "x\n") ``` ### Problem 3: The $D$ Matrix in Gauss-Markov Proof Berikan contoh konkret dari linear unbiased estimator yang bukan OLS, dan verifikasi secara numeris bahwa variance-nya lebih besar. **Hint**: Pertimbangkan estimator "naive" $\tilde{\beta}_1 = \bar{y}/\bar{x}$ (slope saja, tanpa intercept) — apakah ini linear dan unbiased? **Alternatif**: Coba estimator yang menggunakan hanya separuh observasi: $\tilde{\beta} = (X_1^TX_1)^{-1}X_1^Ty_1$ di mana subscript 1 menunjukkan setengah pertama data. Verifikasi unbiasedness dan bandingkan variance. ```r # Contoh: estimator yang pakai setengah data n <- 1000; x <- rnorm(n); X <- cbind(1, x); y <- X %*% c(1,2) + rnorm(n) # OLS pakai semua data beta_ols_full <- solve(t(X) %*% X) %*% t(X) %*% y # OLS pakai setengah data pertama half <- 1:(n/2) beta_half <- solve(t(X[half,]) %*% X[half,]) %*% t(X[half,]) %*% y[half] # Secara teoritis, Var(beta_half) = 2 * Var(beta_ols_full) # (karena pakai n/2 observasi vs n) cat("Var_ols ∝ 1/n, Var_half ∝ 2/n → efficiency ratio ≈ 2\n") ``` ### Problem 4: Prove that GLS is BLUE under heteroskedasticity Tunjukkan bahwa GLS ($\hat{\beta}_{GLS} = (X^T\Omega^{-1}X)^{-1}X^T\Omega^{-1}y$) adalah BLUE ketika $\text{Var}(\varepsilon) = \sigma^2\Omega$. **Petunjuk**: Transformasi model: biarkan $y^* = \Omega^{-1/2}y$, $X^* = \Omega^{-1/2}X$, $\varepsilon^* = \Omega^{-1/2}\varepsilon$. Tunjukkan bahwa $\text{Var}(\varepsilon^*) = \sigma^2 I$, lalu apply Gauss-Markov standard ke model transformasi. ::: --- ## Koneksi ke GLS, FGLS, dan Robust SEs ::: {.callout-caution title="Connection: Gauss-Markov sebagai Unifying Framework"} Semua variasi dari OLS yang kamu kenal di applied work bisa dipahami melalui lensa Gauss-Markov: **Robust Standard Errors**: "OLS tetap OK, tapi SEs-nya harus dikoreksi karena Var(ε) ≠ σ²I" **GLS**: "OLS pada model yang sudah ditransformasi sehingga Gauss-Markov berlaku lagi" **FGLS**: "GLS di mana Ω diestimasi dari data (karena jarang diketahui)" **Panel Fixed Effects**: "OLS pada demeaned data — FWL memastikan ini equivalent dengan mengontrol individual effects" (Gauss-Markov berlaku di dalam-unit) **Newey-West SEs**: "Koreksi SEs untuk serial correlation dalam time series" (A5 dilanggar) **Clustered SEs**: "Koreksi SEs ketika Cov(εᵢ, εⱼ) ≠ 0 untuk observasi dalam cluster yang sama" Semua ini adalah respons terhadap pelanggaran asumsi A4 atau A5 — tapi bukan A3! Jika A3 dilanggar, kamu tidak bisa "patch" dengan SEs yang berbeda; kamu butuh estimator yang berbeda secara fundamental (IV/2SLS). ::: --- ## Summary | Asumsi | Dibutuhkan | Akibat Pelanggaran | Solusi | |--------|-----------|-------------------|--------| | A1: Linearity | Seluruh framework OLS | Model misspecification | Nonlinear model | | A2: Full rank | Eksistensi $\hat{\beta}$ | $(X^TX)^{-1}$ tidak ada | Drop collinear vars | | A3: $E[\varepsilon\|X]=0$ | Unbiasedness | OLS biased & inconsistent | IV, 2SLS, RDD, DiD | | A4: Homoskedasticity | Efficiency, valid SEs | OLS inefficient, wrong SEs | Robust SEs, GLS, FGLS | | A5: No serial corr. | Efficiency, valid SEs | OLS inefficient, wrong SEs | HAC SEs, GLS | **The Gauss-Markov Theorem** adalah jaminan bahwa — selama semua asumsi terpenuhi — OLS adalah estimator linear terbaik yang mungkin. Memahami proofnya memberi kamu peta jalan lengkap untuk semua yang bisa salah dan cara memperbaikinya.

Gauss-Markov Theorem & BLUE

1 The Gauss-Markov Assumptions

1.1 Catatan tentang Kekuatan Asumsi

2 BLUE: Definisi Presisi

3 Proof of the Gauss-Markov Theorem

3.1 Langkah 1: Karakterisasi Semua Linear Unbiased Estimators

3.2 Langkah 2: Dekomposisi \(C\)

3.3 Langkah 3: Hitung Variance dari \(\tilde{\beta}\)

3.4 Langkah 4: Kesimpulan

4 Apa yang Terjadi Ketika Asumsi Dilanggar?

4.1 Kasus 1: Heteroskedasticity (\(\text{Var}(\varepsilon_i | X) = \sigma_i^2 \neq \sigma^2\))

4.2 Kasus 2: Serial Correlation (\(\text{Cov}(\varepsilon_i, \varepsilon_j) \neq 0\))

4.3 Kasus 3: Endogeneity (\(E[\varepsilon_i | x_i] \neq 0\))