OLS in Matrix Notation

The Most Important Formula in Econometrics — Derived

Why This Matters for Your Work

$\hat{\beta} = (X'X)^{-1}X'y$ bukan sekadar formula — ini adalah solusi elegan untuk masalah projection. Kamu sudah pakai formula ini ratusan kali lewat lm() atau reg di Stata. Tapi memahami derivasinya dari prinsip pertama adalah turning point dalam menjadi econometrician yang serius.

Setelah memahami topik ini, kamu akan: - Tahu persis kenapa OLS meminimize sum of squared residuals - Mengerti FE estimator dan Frisch-Waugh-Lovell pada level intuitif yang dalam - Bisa derive variance-covariance matrix dari tangan, bukan hafalan - Membaca paper teoritis tanpa tersangkut di notasi matrix

Ini adalah topik yang paling penting di seluruh modul. Investasikan waktu di sini.

1 Setup: The Population Model

Kita mulai dari model populasi linear:

\[y = X\beta + \varepsilon\]

Di mana:

Simbol	Dimensi	Deskripsi
$y$	$\mathbb{R}^n$	Vector dependent variable, $n$ observasi
$X$	$\mathbb{R}^{n \times k}$	Design matrix, $n$ observasi, $k$ regressors (termasuk intercept)
$\beta$	$\mathbb{R}^k$	True parameter vector (tidak diobservasi)
$\varepsilon$	$\mathbb{R}^n$	Error vector (tidak diobservasi)

Untuk setiap observasi $i$: \[y_i = x_i^T\beta + \varepsilon_i, \quad i = 1, \ldots, n\]

di mana $x_i \in \mathbb{R}^k$ adalah row $i$ dari $X$ (dalam bentuk column vector).

1.1 Unpacking Matrix Notation

Secara eksplisit, model kita terlihat seperti ini:

\[\underbrace{\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}}_{y} = \underbrace{\begin{pmatrix} 1 & x_{12} & \cdots & x_{1k} \\ 1 & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n2} & \cdots & x_{nk} \end{pmatrix}}_{X} \underbrace{\begin{pmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \end{pmatrix}}_{\beta} + \underbrace{\begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{pmatrix}}_{\varepsilon}\]

Kolom pertama $X$ adalah vector of ones (untuk intercept $\beta_1$). Kolom $j$ berikutnya adalah observasi regressor ke-$j-1$.

Kita ingin mengestimasi $\beta$ dari data $(y, X)$. OLS memberikan solusi $\hat{\beta}$.

2 Derivasi Metode 1: Kalkulus (First-Order Conditions)

2.1 Objective Function

OLS meminimize sum of squared residuals:

\[S(\beta) = \sum_{i=1}^n (y_i - x_i^T\beta)^2 = (y - X\beta)^T(y - X\beta)\]

2.2 Ekspansi Objective Function

Mari kita expand $(y - X\beta)^T(y - X\beta)$:

\[S(\beta) = y^Ty - y^TX\beta - \beta^TX^Ty + \beta^TX^TX\beta\]

Karena $y^TX\beta$ adalah scalar, $y^TX\beta = (y^TX\beta)^T = \beta^TX^Ty$. Jadi:

\[\boxed{S(\beta) = y^Ty - 2\beta^TX^Ty + \beta^TX^TX\beta}\]

2.3 Ambil Gradient (First-Order Condition)

Menggunakan aturan differensiasi matrix (lihat Modul Linear Algebra untuk derivasi):

$\frac{\partial}{\partial \beta}(\beta^T a) = a$
$\frac{\partial}{\partial \beta}(\beta^T A \beta) = 2A\beta$ (jika $A$ simetrik)

Perhatikan bahwa $X^TX$ simetrik karena $(X^TX)^T = X^T(X^T)^T = X^TX$. Maka:

\[\frac{\partial S}{\partial \beta} = -2X^Ty + 2X^TX\beta = 0\]

2.4 Normal Equations

Setting gradient sama dengan nol:

\[X^TX\beta = X^Ty\]

Ini disebut normal equations. Jika $X^TX$ invertible (yaitu $X$ punya full column rank), maka:

\[\boxed{\hat{\beta} = (X^TX)^{-1}X^Ty}\]

2.5 Second-Order Condition (Konfirmasi Minimum)

\[\frac{\partial^2 S}{\partial \beta \partial \beta^T} = 2X^TX\]

Matriks $X^TX$ adalah positive semidefinite (karena $v^TX^TXv = \|Xv\|^2 \geq 0$ untuk semua $v$). Jika $X$ full column rank, maka $X^TX$ positive definite, artinya FOC memberikan global minimum — bukan saddle point atau maximum.

3 Derivasi Metode 2: Geometri (Projection)

Ini adalah cara berpikir yang paling powerful dan akan memberikan insight yang tidak bisa kamu dapat dari kalkulus saja.

3.1 Intuisi: Projection ke Column Space

Kolom-kolom dari $X$ membentuk sebuah subspace di $\mathbb{R}^n$, yang disebut column space $\mathcal{C}(X)$. Nilai fitted $X\hat{\beta}$ adalah sebuah titik di dalam subspace ini.

OLS mencari titik $X\hat{\beta} \in \mathcal{C}(X)$ yang paling dekat dengan $y$ — dalam arti Euclidean distance. Jarak ini diminimize ketika residual $\hat{\varepsilon} = y - X\hat{\beta}$ tegak lurus (orthogonal) terhadap seluruh $\mathcal{C}(X)$.

Secara matematika, orthogonality berarti:

\[X^T\hat{\varepsilon} = 0\]

yaitu setiap kolom dari $X$ harus orthogonal terhadap residual.

3.2 Derivasi dari Orthogonality Condition

Substitusi $\hat{\varepsilon} = y - X\hat{\beta}$:

\[X^T(y - X\hat{\beta}) = 0\] \[X^Ty - X^TX\hat{\beta} = 0\] \[X^TX\hat{\beta} = X^Ty\]

Sama persis dengan normal equations dari kalkulus! Kedua pendekatan memberikan solusi yang sama.

3.3 Projection Matrix (Hat Matrix)

Solusi $\hat{y} = X\hat{\beta}$ dapat ditulis sebagai:

\[\hat{y} = X(X^TX)^{-1}X^Ty = P_X y\]

di mana:

\[\boxed{P_X = X(X^TX)^{-1}X^T}\]

disebut projection matrix atau hat matrix (karena ia “menaruh topi” pada $y$: $\hat{y} = P_X y$).

3.4 Annihilator Matrix

Residual dapat ditulis sebagai:

\[\hat{\varepsilon} = y - \hat{y} = y - P_X y = (I - P_X)y = M_X y\]

di mana:

\[\boxed{M_X = I - P_X}\]

disebut annihilator matrix atau residual maker — ia “mengannihilate” komponen $y$ yang ada di $\mathcal{C}(X)$, dan menyisakan komponen yang orthogonal.

4 Properties of the Hat Matrix $P_X$

Ini bukan sekedar notasi — properties ini dipakai berulang kali dalam derivasi lanjutan.

4.1 1. Symmetric

\[P_X^T = \left[X(X^TX)^{-1}X^T\right]^T = X\left[(X^TX)^{-1}\right]^T X^T = X(X^TX)^{-1}X^T = P_X \checkmark\]

(dipakai $(A^{-1})^T = (A^T)^{-1}$ dan $(X^TX)^T = X^TX$)

4.2 2. Idempotent

\[P_X^2 = \left[X(X^TX)^{-1}X^T\right]\left[X(X^TX)^{-1}X^T\right] = X(X^TX)^{-1}\underbrace{X^TX}_{= X^TX}(X^TX)^{-1}X^T = X(X^TX)^{-1}X^T = P_X \checkmark\]

Ini masuk akal secara geometri: jika kamu project suatu vector ke sebuah subspace, lalu project hasilnya lagi, kamu tidak bergerak (sudah ada di subspace).

4.3 3. $P_X X = X$ (Projection of $X$ onto itself)

\[P_X X = X(X^TX)^{-1}X^TX = XI = X \checkmark\]

4.4 4. $M_X X = 0$ (Residuals orthogonal to regressors)

\[M_X X = (I - P_X)X = X - P_X X = X - X = 0 \checkmark\]

Ini adalah algebraic statement dari orthogonality condition $X^T\hat{\varepsilon} = 0$.

4.5 5. Trace of $P_X$

\[\text{tr}(P_X) = \text{tr}(X(X^TX)^{-1}X^T) = \text{tr}((X^TX)^{-1}X^TX) = \text{tr}(I_k) = k\]

(menggunakan cyclic property of trace: $\text{tr}(ABC) = \text{tr}(BCA) = \text{tr}(CAB)$)

Jadi $\text{tr}(P_X) = k$ = jumlah kolom $X$ = degrees of freedom for fitted values.

4.6 6. Trace of $M_X$

\[\text{tr}(M_X) = \text{tr}(I_n - P_X) = n - \text{tr}(P_X) = n - k\]

Ini adalah degrees of freedom for residuals — yang muncul di formula $s^2 = \text{SSR}/(n-k)$.

4.7 Summary Table

Property	$P_X$	$M_X$
Symmetric	$P_X^T = P_X$	$M_X^T = M_X$
Idempotent	$P_X^2 = P_X$	$M_X^2 = M_X$
Orthogonal	$P_X M_X = 0$	$M_X P_X = 0$
Trace	$k$	$n - k$
Effect on $X$	$P_X X = X$	$M_X X = 0$

5 Statistical Properties Under Gauss-Markov Assumptions

Derivasi di atas hanya berkaitan dengan algebra — belum ada statistik. Sekarang kita masukkan asumsi:

Definisi: Gauss-Markov Assumptions (Versi OLS)

(GM1) Linearity: $y = X\beta + \varepsilon$

(GM2) Strict Exogeneity: $E[\varepsilon | X] = 0$ Implikasinya: $E[\varepsilon_i | X] = 0$ untuk semua $i$, dan $E[y|X] = X\beta$

(GM3) Homoskedasticity + No Serial Correlation: $\text{Var}(\varepsilon | X) = \sigma^2 I_n$ Implikasinya: $E[\varepsilon_i^2 | X] = \sigma^2$ dan $E[\varepsilon_i \varepsilon_j | X] = 0$ untuk $i \neq j$

(GM4) Full Column Rank: $\text{rank}(X) = k$ Implikasinya: $X^TX$ invertible, tidak ada perfect multicollinearity

5.1 Unbiasedness

Menggunakan $y = X\beta + \varepsilon$:

\[\hat{\beta} = (X^TX)^{-1}X^Ty = (X^TX)^{-1}X^T(X\beta + \varepsilon)\] \[= \underbrace{(X^TX)^{-1}X^TX}_{= I}\beta + (X^TX)^{-1}X^T\varepsilon\] \[= \beta + (X^TX)^{-1}X^T\varepsilon\]

Ambil expectation, kondisional pada $X$:

\[E[\hat{\beta} | X] = \beta + (X^TX)^{-1}X^T \underbrace{E[\varepsilon | X]}_{= 0 \text{ by GM2}} = \beta\]

Jadi: $E[\hat{\beta}] = \beta$ — OLS is unbiased.

Perhatikan bahwa unbiasedness hanya membutuhkan GM2 (strict exogeneity), bukan GM3.

5.2 Variance-Covariance Matrix

Dari hasil di atas: $\hat{\beta} - \beta = (X^TX)^{-1}X^T\varepsilon$. Maka:

\[\text{Var}(\hat{\beta} | X) = E\left[(\hat{\beta} - \beta)(\hat{\beta} - \beta)^T | X\right]\] \[= E\left[(X^TX)^{-1}X^T\varepsilon\varepsilon^TX(X^TX)^{-1} | X\right]\] \[= (X^TX)^{-1}X^T \underbrace{E[\varepsilon\varepsilon^T | X]}_{= \sigma^2 I \text{ by GM3}} X(X^TX)^{-1}\] \[= \sigma^2 (X^TX)^{-1}X^TX(X^TX)^{-1}\] \[= \sigma^2 (X^TX)^{-1}\]

Jadi:

\[\boxed{\text{Var}(\hat{\beta} | X) = \sigma^2 (X^TX)^{-1}}\]

Variance dari $\hat{\beta}_j$ adalah elemen diagonal ke-$j$ dari matrix ini. Standard error adalah akar dari variance.

5.3 Estimating $\sigma^2$

$\sigma^2$ tidak diobservasi, tapi bisa diestimasi dari residuals:

\[\hat{\sigma}^2 = \frac{\hat{\varepsilon}^T\hat{\varepsilon}}{n - k} = \frac{y^TM_Xy}{n-k}\]

Faktor $n-k$ (bukan $n$) membuat estimator ini unbiased. Buktinya:

\[E[\hat{\varepsilon}^T\hat{\varepsilon} | X] = E[y^TM_Xy | X] = E[(X\beta + \varepsilon)^TM_X(X\beta + \varepsilon) | X]\]

Karena $M_XX = 0$:

\[= E[\varepsilon^T M_X \varepsilon | X] = \sigma^2 \text{tr}(M_X) = \sigma^2(n-k)\]

Jadi $E[\hat{\sigma}^2] = \sigma^2$. Perhatikan penggunaan trace property: $E[\varepsilon^T A \varepsilon] = \sigma^2 \text{tr}(A)$ ketika $\text{Var}(\varepsilon) = \sigma^2 I$.

6 Frisch-Waugh-Lovell (FWL) Theorem

FWL adalah salah satu result yang paling berguna dan paling sering dipakai dalam applied econometrics — bahkan oleh mereka yang tidak tahu namanya.

6.1 Setup: Partitioned Regression

Misalkan kita partisi regressors menjadi dua grup:

\[y = X_1\beta_1 + X_2\beta_2 + \varepsilon\]

di mana $X_1 \in \mathbb{R}^{n \times k_1}$ dan $X_2 \in \mathbb{R}^{n \times k_2}$ (dengan $k = k_1 + k_2$).

Kita tertarik pada estimator OLS untuk $\beta_2$.

6.2 The FWL Theorem

Definisi: Frisch-Waugh-Lovell Theorem

Estimator OLS $\hat{\beta}_2$ dari regresi $y$ pada $[X_1, X_2]$ sama dengan estimator OLS dari regresi residualized $y$ pada residualized $X_2$:

\[\hat{\beta}_2 = (X_2^T M_1 X_2)^{-1} X_2^T M_1 y\]

di mana $M_1 = I - X_1(X_1^TX_1)^{-1}X_1^T$ adalah annihilator dari $X_1$.

Interpretasi: Koefisien pada $X_2$ adalah koefisien yang kamu dapat dari: 1. Regress $y$ pada $X_1$, simpan residual $\tilde{y}$ 2. Regress setiap kolom $X_2$ pada $X_1$, simpan residual $\tilde{X}_2$ 3. Regress $\tilde{y}$ pada $\tilde{X}_2$

Hasilnya persis sama dengan regresi joint.

6.3 Aplikasi Penting: FE Estimator

Misalkan kita punya panel data dengan individu $i$ dan waktu $t$. Fixed effects model:

\[y_{it} = \alpha_i + x_{it}^T\beta + \varepsilon_{it}\]

Ini adalah model $y = D\alpha + X\beta + \varepsilon$ di mana $D$ adalah matrix of individual dummies.

Dengan FWL: - $M_D$ adalah matrix yang demean setiap variabel dalam unit $i$: $\tilde{y}_{it} = y_{it} - \bar{y}_i$ - FE estimator = OLS pada data yang sudah demeaned

Inilah mengapa FE estimator juga disebut within estimator — ia hanya menggunakan variasi within setiap individu.

7 Numerical Worked Example

Worked Example: OLS Derivation Step-by-Step

7.1 Dataset

$n = 5$ observasi, $k = 2$ regressors (intercept + $x$):

$i$	$x_i$	$y_i$
1	1	2.1
2	2	4.0
3	3	5.9
4	4	7.8
5	5	9.9

7.2 Step 1: Setup Design Matrix

\[X = \begin{pmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \\ 1 & 4 \\ 1 & 5 \end{pmatrix}, \quad y = \begin{pmatrix} 2.1 \\ 4.0 \\ 5.9 \\ 7.8 \\ 9.9 \end{pmatrix}\]

7.3 Step 2: Compute $X^TX$ dan $X^Ty$

\[X^TX = \begin{pmatrix} n & \sum x_i \\ \sum x_i & \sum x_i^2 \end{pmatrix} = \begin{pmatrix} 5 & 15 \\ 15 & 55 \end{pmatrix}\]

\[X^Ty = \begin{pmatrix} \sum y_i \\ \sum x_i y_i \end{pmatrix} = \begin{pmatrix} 29.7 \\ 107.5 \end{pmatrix}\]

7.4 Step 3: Invert $X^TX$

Untuk matriks $2 \times 2$: $\begin{pmatrix} a & b \\ c & d \end{pmatrix}^{-1} = \frac{1}{ad-bc}\begin{pmatrix} d & -b \\ -c & a \end{pmatrix}$

Determinant: $5 \cdot 55 - 15 \cdot 15 = 275 - 225 = 50$

\[(X^TX)^{-1} = \frac{1}{50}\begin{pmatrix} 55 & -15 \\ -15 & 5 \end{pmatrix} = \begin{pmatrix} 1.1 & -0.3 \\ -0.3 & 0.1 \end{pmatrix}\]

7.5 Step 4: Compute $\hat{\beta}$

\[\hat{\beta} = (X^TX)^{-1}X^Ty = \begin{pmatrix} 1.1 & -0.3 \\ -0.3 & 0.1 \end{pmatrix}\begin{pmatrix} 29.7 \\ 107.5 \end{pmatrix}\]

\[= \begin{pmatrix} 1.1 \times 29.7 - 0.3 \times 107.5 \\ -0.3 \times 29.7 + 0.1 \times 107.5 \end{pmatrix} = \begin{pmatrix} 32.67 - 32.25 \\ -8.91 + 10.75 \end{pmatrix} = \begin{pmatrix} 0.42 \\ 1.84 \end{pmatrix}\]

Jadi $\hat{\beta}_0 = 0.42$ (intercept) dan $\hat{\beta}_1 = 1.84$ (slope).

7.6 Step 5: Fitted Values dan Residuals

\[\hat{y} = X\hat{\beta} = \begin{pmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \\ 1 & 4 \\ 1 & 5 \end{pmatrix}\begin{pmatrix} 0.42 \\ 1.84 \end{pmatrix} = \begin{pmatrix} 2.26 \\ 4.10 \\ 5.94 \\ 7.78 \\ 9.62 \end{pmatrix}\]

\[\hat{\varepsilon} = y - \hat{y} = \begin{pmatrix} -0.16 \\ -0.10 \\ -0.04 \\ 0.02 \\ 0.28 \end{pmatrix}\]

Cek: $\sum \hat{\varepsilon}_i = -0.16 - 0.10 - 0.04 + 0.02 + 0.28 = 0$ ✓

7.7 Step 6: $\hat{\sigma}^2$ dan Standard Errors

\[\hat{\sigma}^2 = \frac{\hat{\varepsilon}^T\hat{\varepsilon}}{n-k} = \frac{0.16^2 + 0.10^2 + 0.04^2 + 0.02^2 + 0.28^2}{5-2} = \frac{0.1096}{3} \approx 0.0365\]

\[\widehat{\text{Var}}(\hat{\beta}) = \hat{\sigma}^2(X^TX)^{-1} = 0.0365 \begin{pmatrix} 1.1 & -0.3 \\ -0.3 & 0.1 \end{pmatrix} = \begin{pmatrix} 0.0402 & -0.0110 \\ -0.0110 & 0.00365 \end{pmatrix}\]

\[\text{SE}(\hat{\beta}_0) = \sqrt{0.0402} \approx 0.2004, \quad \text{SE}(\hat{\beta}_1) = \sqrt{0.00365} \approx 0.0604\]

7.8 R Code

# Data
n <- 5
x <- c(1, 2, 3, 4, 5)
y <- c(2.1, 4.0, 5.9, 7.8, 9.9)
X <- cbind(1, x)  # design matrix with constant

# OLS manually
XtX <- t(X) %*% X
Xty <- t(X) %*% y
beta_hat <- solve(XtX) %*% Xty
cat("beta_hat:\n"); print(beta_hat)

# Fitted values and residuals
y_hat <- X %*% beta_hat
e_hat <- y - y_hat

# Sigma squared estimate
k <- ncol(X)
sigma2_hat <- sum(e_hat^2) / (n - k)
cat("sigma2_hat:", sigma2_hat, "\n")

# Variance-covariance of beta hat
var_beta <- sigma2_hat * solve(XtX)
se_beta <- sqrt(diag(var_beta))
cat("SE(beta):", se_beta, "\n")

# Projection matrix
P_X <- X %*% solve(XtX) %*% t(X)
M_X <- diag(n) - P_X

# Verify idempotency
cat("P_X^2 == P_X:", all(abs(P_X %*% P_X - P_X) < 1e-10), "\n")
cat("tr(P_X) = k =", round(sum(diag(P_X)), 6), "\n")
cat("tr(M_X) = n-k =", round(sum(diag(M_X)), 6), "\n")

# Compare with lm()
lm_result <- lm(y ~ x)
summary(lm_result)

# R-squared
SSR <- sum(e_hat^2)
SST <- sum((y - mean(y))^2)
R2 <- 1 - SSR/SST
cat("R-squared:", R2, "\n")

Output yang diharapkan:

beta_hat:
     [,1]
  0.42
x 1.84

sigma2_hat: 0.03653333
SE(beta): 0.2004 0.0604

tr(P_X) = k = 2
tr(M_X) = n-k = 3

R-squared: 0.9985

Model sangat fit karena data memang hampir perfectly linear ($R^2 \approx 0.999$).

8 $R^2$ dan Dekomposisinya

8.1 Dekomposisi Sum of Squares

Dengan model yang punya intercept ($\iota \in X$), kita punya:

Total Sum of Squares (SST): $\text{SST} = \sum_i(y_i - \bar{y})^2 = y^T M_\iota y$
- di mana $M_\iota = I - \frac{1}{n}\iota\iota^T$ adalah demeaning matrix
Sum of Squared Residuals (SSR): $\text{SSR} = \hat{\varepsilon}^T\hat{\varepsilon} = y^T M_X y$
Explained Sum of Squares (SSE): $\text{SSE} = (\hat{y} - \bar{y}\iota)^T(\hat{y} - \bar{y}\iota) = \hat{y}^T M_\iota \hat{y}$

Ketika model mengandung intercept: $\text{SST} = \text{SSE} + \text{SSR}$

(Ini bukan self-evident — proofnya menggunakan orthogonality $\hat{\varepsilon} \perp \hat{y}$, yang follow dari $P_X M_X = 0$.)

8.2 $R^2$

\[R^2 = 1 - \frac{\text{SSR}}{\text{SST}} = \frac{\text{SSE}}{\text{SST}}\]

Properties: - $0 \leq R^2 \leq 1$ (ketika model punya intercept) - $R^2$ tidak pernah turun ketika tambah regressor (karena $\text{SSR}$ tidak bisa naik) - Oleh karena itu tidak bisa dipakai untuk model comparison dengan jumlah regressor berbeda

8.3 Adjusted $R^2$

\[\bar{R}^2 = 1 - \frac{\text{SSR}/(n-k)}{\text{SST}/(n-1)} = 1 - (1-R^2)\frac{n-1}{n-k}\]

$\bar{R}^2$ bisa turun ketika tambah regressor (karena ada penalty untuk $k$ lewat $n-k$ di denominator). Lebih baik untuk model comparison.

9 Koneksi ke Estimator Spesifik

9.1 Simple Regression dari Matrix Form

Untuk $k=2$ (intercept + satu regressor $x$):

\[X^TX = \begin{pmatrix} n & \sum x_i \\ \sum x_i & \sum x_i^2 \end{pmatrix}, \quad X^Ty = \begin{pmatrix} \sum y_i \\ \sum x_i y_i \end{pmatrix}\]

Menggunakan formula inverse $2\times 2$:

\[\hat{\beta}_1 = \frac{n\sum x_i y_i - (\sum x_i)(\sum y_i)}{n\sum x_i^2 - (\sum x_i)^2}\]

Bagi numerator dan denominator dengan $n^2$:

\[\hat{\beta}_1 = \frac{\overline{xy} - \bar{x}\bar{y}}{\overline{x^2} - \bar{x}^2} = \frac{\text{Cov}(x,y)}{\text{Var}(x)} = \frac{\sum_i(x_i - \bar{x})(y_i - \bar{y})}{\sum_i(x_i - \bar{x})^2}\]

Ini adalah formula slope yang kamu hafal dari textbook intro econometrics — sekarang kamu lihat dia muncul secara alami dari matrix algebra.

9.2 GLS sebagai OLS Transformed

Jika $\text{Var}(\varepsilon | X) = \sigma^2 \Omega$ (bukan $\sigma^2 I$), GLS estimator adalah:

\[\hat{\beta}_{GLS} = (X^T\Omega^{-1}X)^{-1}X^T\Omega^{-1}y\]

Ini adalah OLS yang diaplikasikan ke model transformasi:

\[\Omega^{-1/2}y = \Omega^{-1/2}X\beta + \Omega^{-1/2}\varepsilon\]

Error yang ditransformasi $\Omega^{-1/2}\varepsilon$ memiliki variance $\Omega^{-1/2}(\sigma^2\Omega)\Omega^{-1/2} = \sigma^2 I$ — sehingga OLS di model transformasi ini efisien.

9.3 Fixed Effects = OLS setelah Demeaning (FWL)

Seperti yang sudah dibahas, FE estimator adalah aplikasi langsung dari FWL theorem dengan $X_1 = D$ (individual dummies):

\[\hat{\beta}_{FE} = (\tilde{X}^T\tilde{X})^{-1}\tilde{X}^T\tilde{y}\]

di mana $\tilde{X}_{it} = x_{it} - \bar{x}_i$ dan $\tilde{y}_{it} = y_{it} - \bar{y}_i$.

10 Practice Problems

Practice Problems

10.1 Problem 1: Orthogonality of Fitted Values and Residuals

Buktikan bahwa $\hat{y}^T\hat{\varepsilon} = 0$ — fitted values dan residuals selalu orthogonal.

Petunjuk: Tulis $\hat{y} = P_X y$ dan $\hat{\varepsilon} = M_X y$, kemudian gunakan $P_X M_X = 0$.

Solusi: \[\hat{y}^T\hat{\varepsilon} = (P_X y)^T(M_X y) = y^T P_X^T M_X y = y^T P_X M_X y = y^T \cdot 0 \cdot y = 0\]

(menggunakan $P_X^T = P_X$ dan $P_X M_X = P_X(I - P_X) = P_X - P_X^2 = P_X - P_X = 0$)

Implikasi praktis: $\sum \hat{y}_i \hat{\varepsilon}_i = 0$ dan $\sum x_{ji} \hat{\varepsilon}_i = 0$ untuk semua $j$ — ini adalah numerik check yang bagus untuk regresi kamu.

10.2 Problem 2: $\text{tr}(P_X) = k$

Buktikan secara detail menggunakan cyclic trace property.

Solusi: \[\text{tr}(P_X) = \text{tr}(X(X^TX)^{-1}X^T)\]

Gunakan cyclic property $\text{tr}(ABC) = \text{tr}(BCA)$ dengan $A = X$, $B = (X^TX)^{-1}$, $C = X^T$:

\[= \text{tr}((X^TX)^{-1}X^TX) = \text{tr}(I_k) = k\]

10.3 Problem 3: $\text{Var}(\hat{\varepsilon}) = \sigma^2 M_X$

Derive variance-covariance matrix dari residual vector.

Solusi: \[\hat{\varepsilon} = M_X y = M_X(X\beta + \varepsilon) = M_X\varepsilon\]

(karena $M_X X = 0$). Maka:

\[\text{Var}(\hat{\varepsilon} | X) = \text{Var}(M_X\varepsilon | X) = M_X \text{Var}(\varepsilon | X) M_X^T = M_X(\sigma^2 I)M_X = \sigma^2 M_X\]

(menggunakan $M_X^T = M_X$ dan $M_X^2 = M_X$)

Implikasi: Residuals tidak independent bahkan ketika errors independent ($M_X \neq I$), dan residuals punya variances yang tidak sama-sama $\sigma^2$ ($M_X \neq \sigma^2 I$).

10.4 Problem 4: Kapan $R^2 = r_{xy}^2$?

Tunjukkan bahwa $R^2$ sama dengan kuadrat sample correlation $r_{xy}$ jika dan hanya jika model adalah simple regression dengan intercept.

Solusi:

Dalam simple regression dengan intercept, $\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$:

\[R^2 = \left(\frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i-\bar{x})^2 \sum(y_i-\bar{y})^2}}\right)^2 = r_{xy}^2\]

Untuk membuktikannya, gunakan: - $\hat{\beta}_1 = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}$ - $\text{SSE} = \hat{\beta}_1^2 \sum(x_i-\bar{x})^2$ - $R^2 = \text{SSE}/\text{SST}$

Substitusi: \[R^2 = \frac{\hat{\beta}_1^2 \sum(x_i-\bar{x})^2}{\sum(y_i-\bar{y})^2} = \frac{[\sum(x_i-\bar{x})(y_i-\bar{y})]^2}{\sum(x_i-\bar{x})^2 \sum(y_i-\bar{y})^2} = r_{xy}^2\]

Untuk regresi multiple, $R^2 \neq r_{xy}^2$ — $R^2$ lebih besar karena menggunakan informasi dari semua regressors.

11 Ringkasan

Konsep	Formula	Interpretasi
OLS estimator	$\hat{\beta} = (X^TX)^{-1}X^Ty$	Minimizes sum of squared residuals
Normal equations	$X^TX\hat{\beta} = X^Ty$	FOC dari minimization
Projection matrix	$P_X = X(X^TX)^{-1}X^T$	Projects $y$ onto $\mathcal{C}(X)$
Annihilator	$M_X = I - P_X$	Extracts component of $y$ orthogonal to $\mathcal{C}(X)$
Fitted values	$\hat{y} = P_X y$	Projection of $y$
Residuals	$\hat{\varepsilon} = M_X y$	Component of $y$ not explained by $X$
Variance of $\hat{\beta}$	$\sigma^2(X^TX)^{-1}$	Precision of estimator
Variance estimator	$\hat{\sigma}^2 = \text{SSR}/(n-k)$	Unbiased estimator of $\sigma^2$

Dari sini, semua jalan terbuka: Gauss-Markov membuktikan OLS optimal, GLS menggeneralisasi ketika $\text{Var}(\varepsilon) \neq \sigma^2 I$, dan IV/2SLS menangani kasus $E[\varepsilon|X] \neq 0$.

--- title: "OLS in Matrix Notation" subtitle: "The Most Important Formula in Econometrics — Derived" --- ::: {.callout-note title="Why This Matters for Your Work"} $\hat{\beta} = (X'X)^{-1}X'y$ bukan sekadar formula — ini adalah solusi elegan untuk masalah **projection**. Kamu sudah pakai formula ini ratusan kali lewat `lm()` atau `reg` di Stata. Tapi memahami derivasinya dari prinsip pertama adalah **turning point** dalam menjadi econometrician yang serius. Setelah memahami topik ini, kamu akan: - Tahu *persis* kenapa OLS meminimize sum of squared residuals - Mengerti FE estimator dan Frisch-Waugh-Lovell pada level intuitif yang dalam - Bisa derive variance-covariance matrix dari tangan, bukan hafalan - Membaca paper teoritis tanpa tersangkut di notasi matrix Ini adalah topik yang paling penting di seluruh modul. Investasikan waktu di sini. ::: ## Setup: The Population Model Kita mulai dari model populasi linear: $$y = X\beta + \varepsilon$$ Di mana: | Simbol | Dimensi | Deskripsi | |--------|---------|-----------| | $y$ | $\mathbb{R}^n$ | Vector dependent variable, $n$ observasi | | $X$ | $\mathbb{R}^{n \times k}$ | Design matrix, $n$ observasi, $k$ regressors (termasuk intercept) | | $\beta$ | $\mathbb{R}^k$ | True parameter vector (tidak diobservasi) | | $\varepsilon$ | $\mathbb{R}^n$ | Error vector (tidak diobservasi) | Untuk setiap observasi $i$: $$y_i = x_i^T\beta + \varepsilon_i, \quad i = 1, \ldots, n$$ di mana $x_i \in \mathbb{R}^k$ adalah row $i$ dari $X$ (dalam bentuk column vector). ### Unpacking Matrix Notation Secara eksplisit, model kita terlihat seperti ini: $$\underbrace{\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}}_{y} = \underbrace{\begin{pmatrix} 1 & x_{12} & \cdots & x_{1k} \\ 1 & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n2} & \cdots & x_{nk} \end{pmatrix}}_{X} \underbrace{\begin{pmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \end{pmatrix}}_{\beta} + \underbrace{\begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{pmatrix}}_{\varepsilon}$$ Kolom pertama $X$ adalah vector of ones (untuk intercept $\beta_1$). Kolom $j$ berikutnya adalah observasi regressor ke-$j-1$. Kita ingin **mengestimasi** $\beta$ dari data $(y, X)$. OLS memberikan solusi $\hat{\beta}$. --- ## Derivasi Metode 1: Kalkulus (First-Order Conditions) ### Objective Function OLS meminimize **sum of squared residuals**: $$S(\beta) = \sum_{i=1}^n (y_i - x_i^T\beta)^2 = (y - X\beta)^T(y - X\beta)$$ ### Ekspansi Objective Function Mari kita expand $(y - X\beta)^T(y - X\beta)$: $$S(\beta) = y^Ty - y^TX\beta - \beta^TX^Ty + \beta^TX^TX\beta$$ Karena $y^TX\beta$ adalah scalar, $y^TX\beta = (y^TX\beta)^T = \beta^TX^Ty$. Jadi: $$\boxed{S(\beta) = y^Ty - 2\beta^TX^Ty + \beta^TX^TX\beta}$$ ### Ambil Gradient (First-Order Condition) Menggunakan aturan differensiasi matrix (lihat Modul Linear Algebra untuk derivasi): - $\frac{\partial}{\partial \beta}(\beta^T a) = a$ - $\frac{\partial}{\partial \beta}(\beta^T A \beta) = 2A\beta$ (jika $A$ simetrik) Perhatikan bahwa $X^TX$ simetrik karena $(X^TX)^T = X^T(X^T)^T = X^TX$. Maka: $$\frac{\partial S}{\partial \beta} = -2X^Ty + 2X^TX\beta = 0$$ ### Normal Equations Setting gradient sama dengan nol: $$X^TX\beta = X^Ty$$ Ini disebut **normal equations**. Jika $X^TX$ invertible (yaitu $X$ punya full column rank), maka: $$\boxed{\hat{\beta} = (X^TX)^{-1}X^Ty}$$ ### Second-Order Condition (Konfirmasi Minimum) $$\frac{\partial^2 S}{\partial \beta \partial \beta^T} = 2X^TX$$ Matriks $X^TX$ adalah **positive semidefinite** (karena $v^TX^TXv = \|Xv\|^2 \geq 0$ untuk semua $v$). Jika $X$ full column rank, maka $X^TX$ positive **definite**, artinya FOC memberikan **global minimum** — bukan saddle point atau maximum. --- ## Derivasi Metode 2: Geometri (Projection) Ini adalah cara berpikir yang paling powerful dan akan memberikan insight yang tidak bisa kamu dapat dari kalkulus saja. ### Intuisi: Projection ke Column Space Kolom-kolom dari $X$ membentuk sebuah **subspace** di $\mathbb{R}^n$, yang disebut **column space** $\mathcal{C}(X)$. Nilai fitted $X\hat{\beta}$ adalah sebuah titik di dalam subspace ini. OLS mencari titik $X\hat{\beta} \in \mathcal{C}(X)$ yang paling dekat dengan $y$ — dalam arti Euclidean distance. Jarak ini diminimize ketika **residual $\hat{\varepsilon} = y - X\hat{\beta}$ tegak lurus** (orthogonal) terhadap seluruh $\mathcal{C}(X)$. Secara matematika, orthogonality berarti: $$X^T\hat{\varepsilon} = 0$$ yaitu setiap kolom dari $X$ harus orthogonal terhadap residual. ### Derivasi dari Orthogonality Condition Substitusi $\hat{\varepsilon} = y - X\hat{\beta}$: $$X^T(y - X\hat{\beta}) = 0$$ $$X^Ty - X^TX\hat{\beta} = 0$$ $$X^TX\hat{\beta} = X^Ty$$ Sama persis dengan normal equations dari kalkulus! Kedua pendekatan memberikan solusi yang sama. ### Projection Matrix (Hat Matrix) Solusi $\hat{y} = X\hat{\beta}$ dapat ditulis sebagai: $$\hat{y} = X(X^TX)^{-1}X^Ty = P_X y$$ di mana: $$\boxed{P_X = X(X^TX)^{-1}X^T}$$ disebut **projection matrix** atau **hat matrix** (karena ia "menaruh topi" pada $y$: $\hat{y} = P_X y$). ### Annihilator Matrix Residual dapat ditulis sebagai: $$\hat{\varepsilon} = y - \hat{y} = y - P_X y = (I - P_X)y = M_X y$$ di mana: $$\boxed{M_X = I - P_X}$$ disebut **annihilator matrix** atau **residual maker** — ia "mengannihilate" komponen $y$ yang ada di $\mathcal{C}(X)$, dan menyisakan komponen yang orthogonal. --- ## Properties of the Hat Matrix $P_X$ Ini bukan sekedar notasi — properties ini dipakai berulang kali dalam derivasi lanjutan. ### 1. Symmetric $$P_X^T = \left[X(X^TX)^{-1}X^T\right]^T = X\left[(X^TX)^{-1}\right]^T X^T = X(X^TX)^{-1}X^T = P_X \checkmark$$ (dipakai $(A^{-1})^T = (A^T)^{-1}$ dan $(X^TX)^T = X^TX$) ### 2. Idempotent $$P_X^2 = \left[X(X^TX)^{-1}X^T\right]\left[X(X^TX)^{-1}X^T\right] = X(X^TX)^{-1}\underbrace{X^TX}_{= X^TX}(X^TX)^{-1}X^T = X(X^TX)^{-1}X^T = P_X \checkmark$$ Ini masuk akal secara geometri: jika kamu project suatu vector ke sebuah subspace, lalu project hasilnya lagi, kamu tidak bergerak (sudah ada di subspace). ### 3. $P_X X = X$ (Projection of $X$ onto itself) $$P_X X = X(X^TX)^{-1}X^TX = XI = X \checkmark$$ ### 4. $M_X X = 0$ (Residuals orthogonal to regressors) $$M_X X = (I - P_X)X = X - P_X X = X - X = 0 \checkmark$$ Ini adalah algebraic statement dari orthogonality condition $X^T\hat{\varepsilon} = 0$. ### 5. Trace of $P_X$ $$\text{tr}(P_X) = \text{tr}(X(X^TX)^{-1}X^T) = \text{tr}((X^TX)^{-1}X^TX) = \text{tr}(I_k) = k$$ (menggunakan cyclic property of trace: $\text{tr}(ABC) = \text{tr}(BCA) = \text{tr}(CAB)$) Jadi $\text{tr}(P_X) = k$ = jumlah kolom $X$ = **degrees of freedom for fitted values**. ### 6. Trace of $M_X$ $$\text{tr}(M_X) = \text{tr}(I_n - P_X) = n - \text{tr}(P_X) = n - k$$ Ini adalah **degrees of freedom for residuals** — yang muncul di formula $s^2 = \text{SSR}/(n-k)$. ### Summary Table | Property | $P_X$ | $M_X$ | |----------|-------|-------| | Symmetric | $P_X^T = P_X$ | $M_X^T = M_X$ | | Idempotent | $P_X^2 = P_X$ | $M_X^2 = M_X$ | | Orthogonal | $P_X M_X = 0$ | $M_X P_X = 0$ | | Trace | $k$ | $n - k$ | | Effect on $X$ | $P_X X = X$ | $M_X X = 0$ | --- ## Statistical Properties Under Gauss-Markov Assumptions Derivasi di atas hanya berkaitan dengan algebra — belum ada statistik. Sekarang kita masukkan asumsi: ::: {.callout-important title="Definisi: Gauss-Markov Assumptions (Versi OLS)"} **(GM1) Linearity**: $y = X\beta + \varepsilon$ **(GM2) Strict Exogeneity**: $E[\varepsilon | X] = 0$ Implikasinya: $E[\varepsilon_i | X] = 0$ untuk semua $i$, dan $E[y|X] = X\beta$ **(GM3) Homoskedasticity + No Serial Correlation**: $\text{Var}(\varepsilon | X) = \sigma^2 I_n$ Implikasinya: $E[\varepsilon_i^2 | X] = \sigma^2$ dan $E[\varepsilon_i \varepsilon_j | X] = 0$ untuk $i \neq j$ **(GM4) Full Column Rank**: $\text{rank}(X) = k$ Implikasinya: $X^TX$ invertible, tidak ada perfect multicollinearity ::: ### Unbiasedness Menggunakan $y = X\beta + \varepsilon$: $$\hat{\beta} = (X^TX)^{-1}X^Ty = (X^TX)^{-1}X^T(X\beta + \varepsilon)$$ $$= \underbrace{(X^TX)^{-1}X^TX}_{= I}\beta + (X^TX)^{-1}X^T\varepsilon$$ $$= \beta + (X^TX)^{-1}X^T\varepsilon$$ Ambil expectation, kondisional pada $X$: $$E[\hat{\beta} | X] = \beta + (X^TX)^{-1}X^T \underbrace{E[\varepsilon | X]}_{= 0 \text{ by GM2}} = \beta$$ Jadi: $E[\hat{\beta}] = \beta$ — **OLS is unbiased**. Perhatikan bahwa unbiasedness **hanya membutuhkan GM2** (strict exogeneity), bukan GM3. ### Variance-Covariance Matrix Dari hasil di atas: $\hat{\beta} - \beta = (X^TX)^{-1}X^T\varepsilon$. Maka: $$\text{Var}(\hat{\beta} | X) = E\left[(\hat{\beta} - \beta)(\hat{\beta} - \beta)^T | X\right]$$ $$= E\left[(X^TX)^{-1}X^T\varepsilon\varepsilon^TX(X^TX)^{-1} | X\right]$$ $$= (X^TX)^{-1}X^T \underbrace{E[\varepsilon\varepsilon^T | X]}_{= \sigma^2 I \text{ by GM3}} X(X^TX)^{-1}$$ $$= \sigma^2 (X^TX)^{-1}X^TX(X^TX)^{-1}$$ $$= \sigma^2 (X^TX)^{-1}$$ Jadi: $$\boxed{\text{Var}(\hat{\beta} | X) = \sigma^2 (X^TX)^{-1}}$$ Variance dari $\hat{\beta}_j$ adalah elemen diagonal ke-$j$ dari matrix ini. Standard error adalah akar dari variance. ### Estimating $\sigma^2$ $\sigma^2$ tidak diobservasi, tapi bisa diestimasi dari residuals: $$\hat{\sigma}^2 = \frac{\hat{\varepsilon}^T\hat{\varepsilon}}{n - k} = \frac{y^TM_Xy}{n-k}$$ Faktor $n-k$ (bukan $n$) membuat estimator ini **unbiased**. Buktinya: $$E[\hat{\varepsilon}^T\hat{\varepsilon} | X] = E[y^TM_Xy | X] = E[(X\beta + \varepsilon)^TM_X(X\beta + \varepsilon) | X]$$ Karena $M_XX = 0$: $$= E[\varepsilon^T M_X \varepsilon | X] = \sigma^2 \text{tr}(M_X) = \sigma^2(n-k)$$ Jadi $E[\hat{\sigma}^2] = \sigma^2$. Perhatikan penggunaan trace property: $E[\varepsilon^T A \varepsilon] = \sigma^2 \text{tr}(A)$ ketika $\text{Var}(\varepsilon) = \sigma^2 I$. --- ## Frisch-Waugh-Lovell (FWL) Theorem FWL adalah salah satu result yang paling berguna dan paling sering dipakai dalam applied econometrics — bahkan oleh mereka yang tidak tahu namanya. ### Setup: Partitioned Regression Misalkan kita partisi regressors menjadi dua grup: $$y = X_1\beta_1 + X_2\beta_2 + \varepsilon$$ di mana $X_1 \in \mathbb{R}^{n \times k_1}$ dan $X_2 \in \mathbb{R}^{n \times k_2}$ (dengan $k = k_1 + k_2$). Kita tertarik pada estimator OLS untuk $\beta_2$. ### The FWL Theorem ::: {.callout-important title="Definisi: Frisch-Waugh-Lovell Theorem"} Estimator OLS $\hat{\beta}_2$ dari regresi $y$ pada $[X_1, X_2]$ sama dengan estimator OLS dari regresi **residualized $y$** pada **residualized $X_2$**: $$\hat{\beta}_2 = (X_2^T M_1 X_2)^{-1} X_2^T M_1 y$$ di mana $M_1 = I - X_1(X_1^TX_1)^{-1}X_1^T$ adalah annihilator dari $X_1$. ::: **Interpretasi**: Koefisien pada $X_2$ adalah koefisien yang kamu dapat dari: 1. Regress $y$ pada $X_1$, simpan residual $\tilde{y}$ 2. Regress setiap kolom $X_2$ pada $X_1$, simpan residual $\tilde{X}_2$ 3. Regress $\tilde{y}$ pada $\tilde{X}_2$ Hasilnya **persis sama** dengan regresi joint. ### Aplikasi Penting: FE Estimator Misalkan kita punya panel data dengan individu $i$ dan waktu $t$. Fixed effects model: $$y_{it} = \alpha_i + x_{it}^T\beta + \varepsilon_{it}$$ Ini adalah model $y = D\alpha + X\beta + \varepsilon$ di mana $D$ adalah matrix of individual dummies. Dengan FWL: - $M_D$ adalah matrix yang **demean** setiap variabel dalam unit $i$: $\tilde{y}_{it} = y_{it} - \bar{y}_i$ - FE estimator = OLS pada data yang sudah demeaned Inilah mengapa FE estimator juga disebut **within estimator** — ia hanya menggunakan variasi **within** setiap individu. --- ## Numerical Worked Example ::: {.callout-tip title="Worked Example: OLS Derivation Step-by-Step" collapse="true"} ### Dataset $n = 5$ observasi, $k = 2$ regressors (intercept + $x$): | $i$ | $x_i$ | $y_i$ | |-----|--------|--------| | 1 | 1 | 2.1 | | 2 | 2 | 4.0 | | 3 | 3 | 5.9 | | 4 | 4 | 7.8 | | 5 | 5 | 9.9 | ### Step 1: Setup Design Matrix $$X = \begin{pmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \\ 1 & 4 \\ 1 & 5 \end{pmatrix}, \quad y = \begin{pmatrix} 2.1 \\ 4.0 \\ 5.9 \\ 7.8 \\ 9.9 \end{pmatrix}$$ ### Step 2: Compute $X^TX$ dan $X^Ty$ $$X^TX = \begin{pmatrix} n & \sum x_i \\ \sum x_i & \sum x_i^2 \end{pmatrix} = \begin{pmatrix} 5 & 15 \\ 15 & 55 \end{pmatrix}$$ $$X^Ty = \begin{pmatrix} \sum y_i \\ \sum x_i y_i \end{pmatrix} = \begin{pmatrix} 29.7 \\ 107.5 \end{pmatrix}$$ ### Step 3: Invert $X^TX$ Untuk matriks $2 \times 2$: $\begin{pmatrix} a & b \\ c & d \end{pmatrix}^{-1} = \frac{1}{ad-bc}\begin{pmatrix} d & -b \\ -c & a \end{pmatrix}$ Determinant: $5 \cdot 55 - 15 \cdot 15 = 275 - 225 = 50$ $$(X^TX)^{-1} = \frac{1}{50}\begin{pmatrix} 55 & -15 \\ -15 & 5 \end{pmatrix} = \begin{pmatrix} 1.1 & -0.3 \\ -0.3 & 0.1 \end{pmatrix}$$ ### Step 4: Compute $\hat{\beta}$ $$\hat{\beta} = (X^TX)^{-1}X^Ty = \begin{pmatrix} 1.1 & -0.3 \\ -0.3 & 0.1 \end{pmatrix}\begin{pmatrix} 29.7 \\ 107.5 \end{pmatrix}$$ $$= \begin{pmatrix} 1.1 \times 29.7 - 0.3 \times 107.5 \\ -0.3 \times 29.7 + 0.1 \times 107.5 \end{pmatrix} = \begin{pmatrix} 32.67 - 32.25 \\ -8.91 + 10.75 \end{pmatrix} = \begin{pmatrix} 0.42 \\ 1.84 \end{pmatrix}$$ Jadi $\hat{\beta}_0 = 0.42$ (intercept) dan $\hat{\beta}_1 = 1.84$ (slope). ### Step 5: Fitted Values dan Residuals $$\hat{y} = X\hat{\beta} = \begin{pmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \\ 1 & 4 \\ 1 & 5 \end{pmatrix}\begin{pmatrix} 0.42 \\ 1.84 \end{pmatrix} = \begin{pmatrix} 2.26 \\ 4.10 \\ 5.94 \\ 7.78 \\ 9.62 \end{pmatrix}$$ $$\hat{\varepsilon} = y - \hat{y} = \begin{pmatrix} -0.16 \\ -0.10 \\ -0.04 \\ 0.02 \\ 0.28 \end{pmatrix}$$ Cek: $\sum \hat{\varepsilon}_i = -0.16 - 0.10 - 0.04 + 0.02 + 0.28 = 0$ ✓ ### Step 6: $\hat{\sigma}^2$ dan Standard Errors $$\hat{\sigma}^2 = \frac{\hat{\varepsilon}^T\hat{\varepsilon}}{n-k} = \frac{0.16^2 + 0.10^2 + 0.04^2 + 0.02^2 + 0.28^2}{5-2} = \frac{0.1096}{3} \approx 0.0365$$ $$\widehat{\text{Var}}(\hat{\beta}) = \hat{\sigma}^2(X^TX)^{-1} = 0.0365 \begin{pmatrix} 1.1 & -0.3 \\ -0.3 & 0.1 \end{pmatrix} = \begin{pmatrix} 0.0402 & -0.0110 \\ -0.0110 & 0.00365 \end{pmatrix}$$ $$\text{SE}(\hat{\beta}_0) = \sqrt{0.0402} \approx 0.2004, \quad \text{SE}(\hat{\beta}_1) = \sqrt{0.00365} \approx 0.0604$$ ### R Code ```r # Data n <- 5 x <- c(1, 2, 3, 4, 5) y <- c(2.1, 4.0, 5.9, 7.8, 9.9) X <- cbind(1, x) # design matrix with constant # OLS manually XtX <- t(X) %*% X Xty <- t(X) %*% y beta_hat <- solve(XtX) %*% Xty cat("beta_hat:\n"); print(beta_hat) # Fitted values and residuals y_hat <- X %*% beta_hat e_hat <- y - y_hat # Sigma squared estimate k <- ncol(X) sigma2_hat <- sum(e_hat^2) / (n - k) cat("sigma2_hat:", sigma2_hat, "\n") # Variance-covariance of beta hat var_beta <- sigma2_hat * solve(XtX) se_beta <- sqrt(diag(var_beta)) cat("SE(beta):", se_beta, "\n") # Projection matrix P_X <- X %*% solve(XtX) %*% t(X) M_X <- diag(n) - P_X # Verify idempotency cat("P_X^2 == P_X:", all(abs(P_X %*% P_X - P_X) < 1e-10), "\n") cat("tr(P_X) = k =", round(sum(diag(P_X)), 6), "\n") cat("tr(M_X) = n-k =", round(sum(diag(M_X)), 6), "\n") # Compare with lm() lm_result <- lm(y ~ x) summary(lm_result) # R-squared SSR <- sum(e_hat^2) SST <- sum((y - mean(y))^2) R2 <- 1 - SSR/SST cat("R-squared:", R2, "\n") ``` **Output yang diharapkan:** ``` beta_hat: [,1] 0.42 x 1.84 sigma2_hat: 0.03653333 SE(beta): 0.2004 0.0604 tr(P_X) = k = 2 tr(M_X) = n-k = 3 R-squared: 0.9985 ``` Model sangat fit karena data memang hampir perfectly linear ($R^2 \approx 0.999$). ::: --- ## $R^2$ dan Dekomposisinya ### Dekomposisi Sum of Squares Dengan model yang punya intercept ($\iota \in X$), kita punya: - **Total Sum of Squares (SST)**: $\text{SST} = \sum_i(y_i - \bar{y})^2 = y^T M_\iota y$ - di mana $M_\iota = I - \frac{1}{n}\iota\iota^T$ adalah demeaning matrix - **Sum of Squared Residuals (SSR)**: $\text{SSR} = \hat{\varepsilon}^T\hat{\varepsilon} = y^T M_X y$ - **Explained Sum of Squares (SSE)**: $\text{SSE} = (\hat{y} - \bar{y}\iota)^T(\hat{y} - \bar{y}\iota) = \hat{y}^T M_\iota \hat{y}$ Ketika model mengandung intercept: $\text{SST} = \text{SSE} + \text{SSR}$ (Ini bukan self-evident — proofnya menggunakan orthogonality $\hat{\varepsilon} \perp \hat{y}$, yang follow dari $P_X M_X = 0$.) ### $R^2$ $$R^2 = 1 - \frac{\text{SSR}}{\text{SST}} = \frac{\text{SSE}}{\text{SST}}$$ Properties: - $0 \leq R^2 \leq 1$ (ketika model punya intercept) - $R^2$ tidak pernah turun ketika tambah regressor (karena $\text{SSR}$ tidak bisa naik) - Oleh karena itu tidak bisa dipakai untuk model comparison dengan jumlah regressor berbeda ### Adjusted $R^2$ $$\bar{R}^2 = 1 - \frac{\text{SSR}/(n-k)}{\text{SST}/(n-1)} = 1 - (1-R^2)\frac{n-1}{n-k}$$ $\bar{R}^2$ **bisa turun** ketika tambah regressor (karena ada penalty untuk $k$ lewat $n-k$ di denominator). Lebih baik untuk model comparison. --- ## Koneksi ke Estimator Spesifik ### Simple Regression dari Matrix Form Untuk $k=2$ (intercept + satu regressor $x$): $$X^TX = \begin{pmatrix} n & \sum x_i \\ \sum x_i & \sum x_i^2 \end{pmatrix}, \quad X^Ty = \begin{pmatrix} \sum y_i \\ \sum x_i y_i \end{pmatrix}$$ Menggunakan formula inverse $2\times 2$: $$\hat{\beta}_1 = \frac{n\sum x_i y_i - (\sum x_i)(\sum y_i)}{n\sum x_i^2 - (\sum x_i)^2}$$ Bagi numerator dan denominator dengan $n^2$: $$\hat{\beta}_1 = \frac{\overline{xy} - \bar{x}\bar{y}}{\overline{x^2} - \bar{x}^2} = \frac{\text{Cov}(x,y)}{\text{Var}(x)} = \frac{\sum_i(x_i - \bar{x})(y_i - \bar{y})}{\sum_i(x_i - \bar{x})^2}$$ Ini adalah formula slope yang kamu hafal dari textbook intro econometrics — sekarang kamu lihat dia muncul secara alami dari matrix algebra. ### GLS sebagai OLS Transformed Jika $\text{Var}(\varepsilon | X) = \sigma^2 \Omega$ (bukan $\sigma^2 I$), GLS estimator adalah: $$\hat{\beta}_{GLS} = (X^T\Omega^{-1}X)^{-1}X^T\Omega^{-1}y$$ Ini adalah OLS yang diaplikasikan ke model **transformasi**: $$\Omega^{-1/2}y = \Omega^{-1/2}X\beta + \Omega^{-1/2}\varepsilon$$ Error yang ditransformasi $\Omega^{-1/2}\varepsilon$ memiliki variance $\Omega^{-1/2}(\sigma^2\Omega)\Omega^{-1/2} = \sigma^2 I$ — sehingga OLS di model transformasi ini efisien. ### Fixed Effects = OLS setelah Demeaning (FWL) Seperti yang sudah dibahas, FE estimator adalah aplikasi langsung dari FWL theorem dengan $X_1 = D$ (individual dummies): $$\hat{\beta}_{FE} = (\tilde{X}^T\tilde{X})^{-1}\tilde{X}^T\tilde{y}$$ di mana $\tilde{X}_{it} = x_{it} - \bar{x}_i$ dan $\tilde{y}_{it} = y_{it} - \bar{y}_i$. --- ## Practice Problems ::: {.callout-warning title="Practice Problems" collapse="true"} ### Problem 1: Orthogonality of Fitted Values and Residuals **Buktikan** bahwa $\hat{y}^T\hat{\varepsilon} = 0$ — fitted values dan residuals selalu orthogonal. **Petunjuk**: Tulis $\hat{y} = P_X y$ dan $\hat{\varepsilon} = M_X y$, kemudian gunakan $P_X M_X = 0$. **Solusi**: $$\hat{y}^T\hat{\varepsilon} = (P_X y)^T(M_X y) = y^T P_X^T M_X y = y^T P_X M_X y = y^T \cdot 0 \cdot y = 0$$ (menggunakan $P_X^T = P_X$ dan $P_X M_X = P_X(I - P_X) = P_X - P_X^2 = P_X - P_X = 0$) Implikasi praktis: $\sum \hat{y}_i \hat{\varepsilon}_i = 0$ dan $\sum x_{ji} \hat{\varepsilon}_i = 0$ untuk semua $j$ — ini adalah numerik check yang bagus untuk regresi kamu. --- ### Problem 2: $\text{tr}(P_X) = k$ **Buktikan** secara detail menggunakan cyclic trace property. **Solusi**: $$\text{tr}(P_X) = \text{tr}(X(X^TX)^{-1}X^T)$$ Gunakan cyclic property $\text{tr}(ABC) = \text{tr}(BCA)$ dengan $A = X$, $B = (X^TX)^{-1}$, $C = X^T$: $$= \text{tr}((X^TX)^{-1}X^TX) = \text{tr}(I_k) = k$$ --- ### Problem 3: $\text{Var}(\hat{\varepsilon}) = \sigma^2 M_X$ **Derive** variance-covariance matrix dari residual vector. **Solusi**: $$\hat{\varepsilon} = M_X y = M_X(X\beta + \varepsilon) = M_X\varepsilon$$ (karena $M_X X = 0$). Maka: $$\text{Var}(\hat{\varepsilon} | X) = \text{Var}(M_X\varepsilon | X) = M_X \text{Var}(\varepsilon | X) M_X^T = M_X(\sigma^2 I)M_X = \sigma^2 M_X$$ (menggunakan $M_X^T = M_X$ dan $M_X^2 = M_X$) Implikasi: Residuals **tidak** independent bahkan ketika errors independent ($M_X \neq I$), dan residuals punya variances yang **tidak** sama-sama $\sigma^2$ ($M_X \neq \sigma^2 I$). --- ### Problem 4: Kapan $R^2 = r_{xy}^2$? **Tunjukkan** bahwa $R^2$ sama dengan kuadrat sample correlation $r_{xy}$ jika dan hanya jika model adalah simple regression dengan intercept. **Solusi**: Dalam simple regression dengan intercept, $\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$: $$R^2 = \left(\frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i-\bar{x})^2 \sum(y_i-\bar{y})^2}}\right)^2 = r_{xy}^2$$ Untuk membuktikannya, gunakan: - $\hat{\beta}_1 = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}$ - $\text{SSE} = \hat{\beta}_1^2 \sum(x_i-\bar{x})^2$ - $R^2 = \text{SSE}/\text{SST}$ Substitusi: $$R^2 = \frac{\hat{\beta}_1^2 \sum(x_i-\bar{x})^2}{\sum(y_i-\bar{y})^2} = \frac{[\sum(x_i-\bar{x})(y_i-\bar{y})]^2}{\sum(x_i-\bar{x})^2 \sum(y_i-\bar{y})^2} = r_{xy}^2$$ Untuk regresi multiple, $R^2 \neq r_{xy}^2$ — $R^2$ lebih besar karena menggunakan informasi dari semua regressors. ::: --- ## Ringkasan | Konsep | Formula | Interpretasi | |--------|---------|-------------| | OLS estimator | $\hat{\beta} = (X^TX)^{-1}X^Ty$ | Minimizes sum of squared residuals | | Normal equations | $X^TX\hat{\beta} = X^Ty$ | FOC dari minimization | | Projection matrix | $P_X = X(X^TX)^{-1}X^T$ | Projects $y$ onto $\mathcal{C}(X)$ | | Annihilator | $M_X = I - P_X$ | Extracts component of $y$ orthogonal to $\mathcal{C}(X)$ | | Fitted values | $\hat{y} = P_X y$ | Projection of $y$ | | Residuals | $\hat{\varepsilon} = M_X y$ | Component of $y$ not explained by $X$ | | Variance of $\hat{\beta}$ | $\sigma^2(X^TX)^{-1}$ | Precision of estimator | | Variance estimator | $\hat{\sigma}^2 = \text{SSR}/(n-k)$ | Unbiased estimator of $\sigma^2$ | Dari sini, semua jalan terbuka: Gauss-Markov membuktikan OLS optimal, GLS menggeneralisasi ketika $\text{Var}(\varepsilon) \neq \sigma^2 I$, dan IV/2SLS menangani kasus $E[\varepsilon|X] \neq 0$.

Simbol	Dimensi	Deskripsi
\(y\)	\(\mathbb{R}^n\)	Vector dependent variable, \(n\) observasi
\(X\)	\(\mathbb{R}^{n \times k}\)	Design matrix, \(n\) observasi, \(k\) regressors (termasuk intercept)
\(\beta\)	\(\mathbb{R}^k\)	True parameter vector (tidak diobservasi)
\(\varepsilon\)	\(\mathbb{R}^n\)	Error vector (tidak diobservasi)

Property	\(P_X\)	\(M_X\)
Symmetric	\(P_X^T = P_X\)	\(M_X^T = M_X\)
Idempotent	\(P_X^2 = P_X\)	\(M_X^2 = M_X\)
Orthogonal	\(P_X M_X = 0\)	\(M_X P_X = 0\)
Trace	\(k\)	\(n - k\)
Effect on \(X\)	\(P_X X = X\)	\(M_X X = 0\)

Konsep	Formula	Interpretasi
OLS estimator	\(\hat{\beta} = (X^TX)^{-1}X^Ty\)	Minimizes sum of squared residuals
Normal equations	\(X^TX\hat{\beta} = X^Ty\)	FOC dari minimization
Projection matrix	\(P_X = X(X^TX)^{-1}X^T\)	Projects \(y\) onto \(\mathcal{C}(X)\)
Annihilator	\(M_X = I - P_X\)	Extracts component of \(y\) orthogonal to \(\mathcal{C}(X)\)
Fitted values	\(\hat{y} = P_X y\)	Projection of \(y\)
Residuals	\(\hat{\varepsilon} = M_X y\)	Component of \(y\) not explained by \(X\)
Variance of \(\hat{\beta}\)	\(\sigma^2(X^TX)^{-1}\)	Precision of estimator
Variance estimator	\(\hat{\sigma}^2 = \text{SSR}/(n-k)\)	Unbiased estimator of \(\sigma^2\)

1 Setup: The Population Model

1.1 Unpacking Matrix Notation

2 Derivasi Metode 1: Kalkulus (First-Order Conditions)

2.1 Objective Function

2.2 Ekspansi Objective Function

2.3 Ambil Gradient (First-Order Condition)

2.4 Normal Equations

2.5 Second-Order Condition (Konfirmasi Minimum)

3 Derivasi Metode 2: Geometri (Projection)

3.1 Intuisi: Projection ke Column Space

3.2 Derivasi dari Orthogonality Condition

3.3 Projection Matrix (Hat Matrix)

3.4 Annihilator Matrix

4 Properties of the Hat Matrix \(P_X\)

4.1 1. Symmetric

4.2 2. Idempotent

4.3 3. \(P_X X = X\) (Projection of \(X\) onto itself)

4.4 4. \(M_X X = 0\) (Residuals orthogonal to regressors)

4.5 5. Trace of \(P_X\)

4.6 6. Trace of \(M_X\)

4.7 Summary Table

5 Statistical Properties Under Gauss-Markov Assumptions

5.1 Unbiasedness

5.2 Variance-Covariance Matrix

5.3 Estimating \(\sigma^2\)

6 Frisch-Waugh-Lovell (FWL) Theorem

6.1 Setup: Partitioned Regression

6.2 The FWL Theorem

6.3 Aplikasi Penting: FE Estimator

7 Numerical Worked Example

7.1 Dataset

7.2 Step 1: Setup Design Matrix

7.3 Step 2: Compute \(X^TX\) dan \(X^Ty\)

7.4 Step 3: Invert \(X^TX\)

7.5 Step 4: Compute \(\hat{\beta}\)

7.6 Step 5: Fitted Values dan Residuals

7.7 Step 6: \(\hat{\sigma}^2\) dan Standard Errors

7.8 R Code

8 \(R^2\) dan Dekomposisinya

8.1 Dekomposisi Sum of Squares

8.2 \(R^2\)

8.3 Adjusted \(R^2\)

9 Koneksi ke Estimator Spesifik

9.1 Simple Regression dari Matrix Form

9.2 GLS sebagai OLS Transformed

9.3 Fixed Effects = OLS setelah Demeaning (FWL)

10 Practice Problems

10.1 Problem 1: Orthogonality of Fitted Values and Residuals

10.2 Problem 2: \(\text{tr}(P_X) = k\)

10.3 Problem 3: \(\text{Var}(\hat{\varepsilon}) = \sigma^2 M_X\)

10.4 Problem 4: Kapan \(R^2 = r_{xy}^2\)?

11 Ringkasan