06 · Econometrics Math

The Mathematical Foundations Behind Every Estimator You Use

1 Mengapa Modul Ini Ada?

“Doing econometrics without the math is like driving blindfolded. You might get somewhere, but you have no idea why you arrived — or why you crashed.”

Sebagai seorang data analyst atau researcher yang sudah bekerja dengan regresi, panel data, atau IV, kamu mungkin sudah sering menjalankan lm(), feols(), atau ivreg() tanpa benar-benar tahu apa yang terjadi di baliknya. Itu tidak apa-apa untuk pekerjaan awal — tapi ada ceiling yang akan kamu temui.

Ceiling itu datang ketika:

  • Reviewer bertanya kenapa kamu pakai standard error tertentu, dan kamu tidak bisa jelaskan secara matematis
  • Kamu perlu modifikasi estimator standar untuk fit dengan desain penelitian yang unik
  • Kamu baca paper teoritis dan stuck di setiap halaman karena notasi matrix
  • Kamu mau implement custom estimator di ML framework tapi tidak tahu loss function yang benar

Modul ini adalah bridge antara “pakai software saja” dengan “mengerti betul apa yang software lakukan.”

NoteWhy This Matters for Your Work

Math di balik econometric estimators bukan sekadar akademis. Ketika kamu tahu bahwa OLS adalah projection dari \(y\) ke column space of \(X\), tiba-tiba banyak hal menjadi jelas:

  • Kenapa multicollinearity menjadi masalah (column space degenerates)
  • Kenapa menambah variabel selalu meningkatkan \(R^2\) (projection ke ruang yang lebih besar)
  • Kenapa FE estimator = OLS setelah demeaning (Frisch-Waugh-Lovell theorem)
  • Kenapa heteroskedasticity tidak bikin OLS biased, hanya inefficient

Setiap insight ini berakar pada linear algebra yang sama.

2 Peta Konsep: Bagaimana Semuanya Terhubung

graph TD
    LA["Linear Algebra<br/>(Projection, Matrix Ops)"]
    PROB["Probability Theory<br/>(Expectations, Distributions)"]
    STAT["Statistics<br/>(Estimation, Inference)"]

    OLS["OLS in Matrix Form<br/>β̂ = (X'X)⁻¹X'y"]
    GM["Gauss-Markov Theorem<br/>BLUE Property"]
    IV["IV & GMM<br/>Moment Conditions"]
    MLE["MLE for Discrete Choice<br/>Probit, Logit, Tobit"]
    PANEL["Panel Data<br/>FE, RE, Hausman"]
    TS["Time Series<br/>VAR, Stationarity"]
    SPATIAL["Spatial Econometrics<br/>SAR, SEM, SDM"]

    LA --> OLS
    PROB --> OLS
    STAT --> OLS

    OLS --> GM
    OLS --> IV
    OLS --> PANEL
    OLS --> MLE

    GM --> IV
    GM --> PANEL

    PROB --> MLE

    PANEL --> TS
    LA --> SPATIAL
    OLS --> SPATIAL

    IV --> |"Hausman Test"| PANEL
    MLE --> |"Spatial MLE"| SPATIAL

    style OLS fill:#4e79a7,color:#fff,stroke:#2d5a8e
    style GM fill:#59a14f,color:#fff,stroke:#3d7a36
    style LA fill:#f28e2b,color:#fff,stroke:#c06e1a
    style PROB fill:#f28e2b,color:#fff,stroke:#c06e1a
    style STAT fill:#f28e2b,color:#fff,stroke:#c06e1a

Linear algebra menjadi fondasi utama, khususnya untuk memahami OLS sebagai projection. Dari sana, Gauss-Markov menjelaskan mengapa OLS optimal, dan semua topik lain (IV, panel, MLE, time series, spatial) adalah variasi atau ekstensi dari framework yang sama.

3 Daftar Topik

# Topik Konsep Utama Prereq Waktu Estimasi
1 OLS in Matrix Notation \(\hat{\beta} = (X'X)^{-1}X'y\), projection, hat matrix, FWL Linear algebra dasar 2.5–3 jam
2 Gauss-Markov Theorem BLUE, GM assumptions, what breaks OLS matrix form 1.5–2 jam
3 IV & GMM Endogeneity, 2SLS, optimal weighting OLS + GM 2–2.5 jam
4 MLE for Discrete Choice Probit, logit, tobit, Newton-Raphson Prob + calculus 1.5–2 jam
5 Panel Data Math Within estimator, FWL, Hausman OLS + linear algebra 1.5–2 jam
6 Time Series Math Stationarity, VAR, unit roots Probability 1–1.5 jam
7 Spatial Econometrics SAR/SEM/SDM, spatial multiplier Matrix algebra 1–1.5 jam

Total estimasi: 10–15 jam tergantung background dan seberapa dalam kamu ingin masuk ke setiap bukti.

4 Panduan Belajar

ImportantDefinisi: Recommended Learning Path

Mulai dari OLS matrix form. Ini adalah topik yang paling fundamental dan paling banyak dipakai di topik lain. Tidak ada yang lebih mengecewakan daripada mencoba belajar panel data math tanpa benar-benar paham projection.

Urutan yang disarankan:

  1. OLS Matrix Form (Topik 1) — Kuasai ini betul-betul. Pahami derivasi calculus DAN geometric. Kerja semua practice problems.

  2. Gauss-Markov (Topik 2) — Ini adalah “why OLS.” Setelah tahu OLS, langsung lanjut ke sini untuk paham asumsi apa yang sedang kamu buat setiap kali run regresi.

  3. Pilih berdasarkan kebutuhan penelitian kamu:

    • Riset panel data → Topik 5
    • Riset dengan endogeneity issues → Topik 3
    • Discrete dependent variables → Topik 4
    • Riset time series / makroekonomi → Topik 6
    • Riset dengan data geografis → Topik 7

Jangan skip Topik 1 dan 2. Investasi waktu di sana akan membayar berlipat ganda di semua topik berikutnya.

4.1 Cara Pakai Modul Ini

Baca teorinya dulu, baru kode. Setiap topik punya derivasi matematika dan kemudian contoh numerik dengan kode R. Godaan besar adalah langsung loncat ke kode — tapi jika kamu sudah punya econometrics background, kode itu sudah familiar. Yang baru adalah koneksi ke matematika.

Kerja practice problems. Ini bukan ujian — ini cara otak kamu membangun koneksi yang tidak akan terbentuk hanya dari membaca.

Gunakan matematika untuk re-derive hal yang sudah kamu tahu dari intuisi. Jika kamu tahu FE estimator “menghilangkan unobserved heterogeneity,” coba derive secara formal menggunakan Frisch-Waugh-Lovell. Momen “aha!” itu sangat berharga.

CautionConnection: Modul Ini dengan Modul Lain

Modul ini adalah aplikasi dari dua modul sebelumnya:

  • 03 — Linear Algebra: Semua notasi matrix, column space, projection, rank — semua dipakai intensif di sini. Jika kamu struggle dengan konsep projection di Topik 1, kembali ke modul Linear Algebra dulu.

  • 04 — Probability & Statistics: Expectation, variance, conditional expectation, distribution theory — fondasi untuk statistical properties di setiap topik.

Modul ini juga akan mempersiapkan kamu untuk:

  • 07 — ML Math: Banyak ML estimators (Ridge, Lasso, kernel methods) bisa dilihat sebagai variasi OLS dengan regularization atau kernel trick
  • 08 — Causal Inference Math: DAGs, potential outcomes, dan identification strategy semuanya assume pemahaman tentang estimator properties

5 Notasi yang Digunakan di Seluruh Modul

Simbol Arti
\(n\) Jumlah observasi
\(k\) Jumlah parameter (termasuk intercept)
\(y \in \mathbb{R}^n\) Vector dependent variable
\(X \in \mathbb{R}^{n \times k}\) Design matrix (matrix of regressors)
\(\beta \in \mathbb{R}^k\) True parameter vector
\(\hat{\beta}\) Estimated parameter vector
\(\varepsilon \in \mathbb{R}^n\) Error vector (unobserved)
\(\hat{\varepsilon}\) Residual vector (observed)
\(P_X = X(X'X)^{-1}X'\) Projection (hat) matrix
\(M_X = I - P_X\) Annihilator (residual maker) matrix
\(\iota\) Vector of ones (for intercept)
\(\succeq 0\) Positive semidefinite
\(\text{tr}(\cdot)\) Trace of a matrix

6 Referensi Utama

Untuk modul ini, referensi terbaik dalam urutan aksesibilitas:

  1. Greene, Econometric Analysis — Comprehensive, good on matrix derivations. Edisi 7 atau 8.
  2. Hayashi, Econometrics — Lebih rigorous secara statistik, excellent untuk GMM.
  3. Davidson & MacKinnon, Econometric Theory and Methods — Sangat bagus untuk geometric interpretation.
  4. Wooldridge, Introductory Econometrics — Jika perlu refresh intuisi sebelum math.
  5. Cameron & Trivedi, Microeconometrics — Untuk discrete choice dan count data.