06 · Econometrics Math

The Mathematical Foundations Behind Every Estimator You Use

1 Mengapa Modul Ini Ada?

“Doing econometrics without the math is like driving blindfolded. You might get somewhere, but you have no idea why you arrived — or why you crashed.”

Sebagai seorang data analyst atau researcher yang sudah bekerja dengan regresi, panel data, atau IV, kamu mungkin sudah sering menjalankan lm(), feols(), atau ivreg() tanpa benar-benar tahu apa yang terjadi di baliknya. Itu tidak apa-apa untuk pekerjaan awal — tapi ada ceiling yang akan kamu temui.

Ceiling itu datang ketika:

Reviewer bertanya kenapa kamu pakai standard error tertentu, dan kamu tidak bisa jelaskan secara matematis
Kamu perlu modifikasi estimator standar untuk fit dengan desain penelitian yang unik
Kamu baca paper teoritis dan stuck di setiap halaman karena notasi matrix
Kamu mau implement custom estimator di ML framework tapi tidak tahu loss function yang benar

Modul ini adalah bridge antara “pakai software saja” dengan “mengerti betul apa yang software lakukan.”

Why This Matters for Your Work

Math di balik econometric estimators bukan sekadar akademis. Ketika kamu tahu bahwa OLS adalah projection dari $y$ ke column space of $X$, tiba-tiba banyak hal menjadi jelas:

Kenapa multicollinearity menjadi masalah (column space degenerates)
Kenapa menambah variabel selalu meningkatkan $R^2$ (projection ke ruang yang lebih besar)
Kenapa FE estimator = OLS setelah demeaning (Frisch-Waugh-Lovell theorem)
Kenapa heteroskedasticity tidak bikin OLS biased, hanya inefficient

Setiap insight ini berakar pada linear algebra yang sama.

2 Peta Konsep: Bagaimana Semuanya Terhubung

graph TD
    LA["Linear Algebra<br/>(Projection, Matrix Ops)"]
    PROB["Probability Theory<br/>(Expectations, Distributions)"]
    STAT["Statistics<br/>(Estimation, Inference)"]

    OLS["OLS in Matrix Form<br/>β̂ = (X'X)⁻¹X'y"]
    GM["Gauss-Markov Theorem<br/>BLUE Property"]
    IV["IV & GMM<br/>Moment Conditions"]
    MLE["MLE for Discrete Choice<br/>Probit, Logit, Tobit"]
    PANEL["Panel Data<br/>FE, RE, Hausman"]
    TS["Time Series<br/>VAR, Stationarity"]
    SPATIAL["Spatial Econometrics<br/>SAR, SEM, SDM"]

    LA --> OLS
    PROB --> OLS
    STAT --> OLS

    OLS --> GM
    OLS --> IV
    OLS --> PANEL
    OLS --> MLE

    GM --> IV
    GM --> PANEL

    PROB --> MLE

    PANEL --> TS
    LA --> SPATIAL
    OLS --> SPATIAL

    IV --> |"Hausman Test"| PANEL
    MLE --> |"Spatial MLE"| SPATIAL

    style OLS fill:#4e79a7,color:#fff,stroke:#2d5a8e
    style GM fill:#59a14f,color:#fff,stroke:#3d7a36
    style LA fill:#f28e2b,color:#fff,stroke:#c06e1a
    style PROB fill:#f28e2b,color:#fff,stroke:#c06e1a
    style STAT fill:#f28e2b,color:#fff,stroke:#c06e1a

Linear algebra menjadi fondasi utama, khususnya untuk memahami OLS sebagai projection. Dari sana, Gauss-Markov menjelaskan mengapa OLS optimal, dan semua topik lain (IV, panel, MLE, time series, spatial) adalah variasi atau ekstensi dari framework yang sama.

3 Daftar Topik

#	Topik	Konsep Utama	Prereq	Waktu Estimasi
1	OLS in Matrix Notation	$\hat{\beta} = (X'X)^{-1}X'y$, projection, hat matrix, FWL	Linear algebra dasar	2.5–3 jam
2	Gauss-Markov Theorem	BLUE, GM assumptions, what breaks	OLS matrix form	1.5–2 jam
3	IV & GMM	Endogeneity, 2SLS, optimal weighting	OLS + GM	2–2.5 jam
4	MLE for Discrete Choice	Probit, logit, tobit, Newton-Raphson	Prob + calculus	1.5–2 jam
5	Panel Data Math	Within estimator, FWL, Hausman	OLS + linear algebra	1.5–2 jam
6	Time Series Math	Stationarity, VAR, unit roots	Probability	1–1.5 jam
7	Spatial Econometrics	SAR/SEM/SDM, spatial multiplier	Matrix algebra	1–1.5 jam

Total estimasi: 10–15 jam tergantung background dan seberapa dalam kamu ingin masuk ke setiap bukti.

4 Panduan Belajar

Definisi: Recommended Learning Path

Mulai dari OLS matrix form. Ini adalah topik yang paling fundamental dan paling banyak dipakai di topik lain. Tidak ada yang lebih mengecewakan daripada mencoba belajar panel data math tanpa benar-benar paham projection.

Urutan yang disarankan:

OLS Matrix Form (Topik 1) — Kuasai ini betul-betul. Pahami derivasi calculus DAN geometric. Kerja semua practice problems.
Gauss-Markov (Topik 2) — Ini adalah “why OLS.” Setelah tahu OLS, langsung lanjut ke sini untuk paham asumsi apa yang sedang kamu buat setiap kali run regresi.
Pilih berdasarkan kebutuhan penelitian kamu:
- Riset panel data → Topik 5
- Riset dengan endogeneity issues → Topik 3
- Discrete dependent variables → Topik 4
- Riset time series / makroekonomi → Topik 6
- Riset dengan data geografis → Topik 7

Jangan skip Topik 1 dan 2. Investasi waktu di sana akan membayar berlipat ganda di semua topik berikutnya.

4.1 Cara Pakai Modul Ini

Baca teorinya dulu, baru kode. Setiap topik punya derivasi matematika dan kemudian contoh numerik dengan kode R. Godaan besar adalah langsung loncat ke kode — tapi jika kamu sudah punya econometrics background, kode itu sudah familiar. Yang baru adalah koneksi ke matematika.

Kerja practice problems. Ini bukan ujian — ini cara otak kamu membangun koneksi yang tidak akan terbentuk hanya dari membaca.

Gunakan matematika untuk re-derive hal yang sudah kamu tahu dari intuisi. Jika kamu tahu FE estimator “menghilangkan unobserved heterogeneity,” coba derive secara formal menggunakan Frisch-Waugh-Lovell. Momen “aha!” itu sangat berharga.

Connection: Modul Ini dengan Modul Lain

Modul ini adalah aplikasi dari dua modul sebelumnya:

03 — Linear Algebra: Semua notasi matrix, column space, projection, rank — semua dipakai intensif di sini. Jika kamu struggle dengan konsep projection di Topik 1, kembali ke modul Linear Algebra dulu.
04 — Probability & Statistics: Expectation, variance, conditional expectation, distribution theory — fondasi untuk statistical properties di setiap topik.

Modul ini juga akan mempersiapkan kamu untuk:

07 — ML Math: Banyak ML estimators (Ridge, Lasso, kernel methods) bisa dilihat sebagai variasi OLS dengan regularization atau kernel trick
08 — Causal Inference Math: DAGs, potential outcomes, dan identification strategy semuanya assume pemahaman tentang estimator properties

5 Notasi yang Digunakan di Seluruh Modul

Simbol	Arti
$n$	Jumlah observasi
$k$	Jumlah parameter (termasuk intercept)
$y \in \mathbb{R}^n$	Vector dependent variable
$X \in \mathbb{R}^{n \times k}$	Design matrix (matrix of regressors)
$\beta \in \mathbb{R}^k$	True parameter vector
$\hat{\beta}$	Estimated parameter vector
$\varepsilon \in \mathbb{R}^n$	Error vector (unobserved)
$\hat{\varepsilon}$	Residual vector (observed)
$P_X = X(X'X)^{-1}X'$	Projection (hat) matrix
$M_X = I - P_X$	Annihilator (residual maker) matrix
$\iota$	Vector of ones (for intercept)
$\succeq 0$	Positive semidefinite
$\text{tr}(\cdot)$	Trace of a matrix

6 Referensi Utama

Untuk modul ini, referensi terbaik dalam urutan aksesibilitas:

Greene, Econometric Analysis — Comprehensive, good on matrix derivations. Edisi 7 atau 8.
Hayashi, Econometrics — Lebih rigorous secara statistik, excellent untuk GMM.
Davidson & MacKinnon, Econometric Theory and Methods — Sangat bagus untuk geometric interpretation.
Wooldridge, Introductory Econometrics — Jika perlu refresh intuisi sebelum math.
Cameron & Trivedi, Microeconometrics — Untuk discrete choice dan count data.

--- title: "06 · Econometrics Math" subtitle: "The Mathematical Foundations Behind Every Estimator You Use" --- ## Mengapa Modul Ini Ada? > *"Doing econometrics without the math is like driving blindfolded. You might get somewhere, but you have no idea why you arrived — or why you crashed."* Sebagai seorang data analyst atau researcher yang sudah bekerja dengan regresi, panel data, atau IV, kamu mungkin sudah sering menjalankan `lm()`, `feols()`, atau `ivreg()` tanpa benar-benar tahu apa yang terjadi di baliknya. Itu tidak apa-apa untuk pekerjaan awal — tapi ada ceiling yang akan kamu temui. Ceiling itu datang ketika: - Reviewer bertanya kenapa kamu pakai standard error tertentu, dan kamu tidak bisa jelaskan secara matematis - Kamu perlu modifikasi estimator standar untuk fit dengan desain penelitian yang unik - Kamu baca paper teoritis dan stuck di setiap halaman karena notasi matrix - Kamu mau implement custom estimator di ML framework tapi tidak tahu loss function yang benar Modul ini adalah bridge antara "pakai software saja" dengan "mengerti betul apa yang software lakukan." ::: {.callout-note title="Why This Matters for Your Work"} Math di balik econometric estimators bukan sekadar akademis. Ketika kamu tahu bahwa OLS adalah **projection** dari $y$ ke column space of $X$, tiba-tiba banyak hal menjadi jelas: - Kenapa multicollinearity menjadi masalah (column space degenerates) - Kenapa menambah variabel selalu meningkatkan $R^2$ (projection ke ruang yang lebih besar) - Kenapa FE estimator = OLS setelah demeaning (Frisch-Waugh-Lovell theorem) - Kenapa heteroskedasticity tidak bikin OLS biased, hanya inefficient Setiap insight ini berakar pada linear algebra yang sama. ::: ## Peta Konsep: Bagaimana Semuanya Terhubung ```{mermaid} graph TD LA["Linear Algebra (Projection, Matrix Ops)"] PROB["Probability Theory (Expectations, Distributions)"] STAT["Statistics (Estimation, Inference)"] OLS["OLS in Matrix Form β̂ = (X'X)⁻¹X'y"] GM["Gauss-Markov Theorem BLUE Property"] IV["IV & GMM Moment Conditions"] MLE["MLE for Discrete Choice Probit, Logit, Tobit"] PANEL["Panel Data FE, RE, Hausman"] TS["Time Series VAR, Stationarity"] SPATIAL["Spatial Econometrics SAR, SEM, SDM"] LA --> OLS PROB --> OLS STAT --> OLS OLS --> GM OLS --> IV OLS --> PANEL OLS --> MLE GM --> IV GM --> PANEL PROB --> MLE PANEL --> TS LA --> SPATIAL OLS --> SPATIAL IV --> |"Hausman Test"| PANEL MLE --> |"Spatial MLE"| SPATIAL style OLS fill:#4e79a7,color:#fff,stroke:#2d5a8e style GM fill:#59a14f,color:#fff,stroke:#3d7a36 style LA fill:#f28e2b,color:#fff,stroke:#c06e1a style PROB fill:#f28e2b,color:#fff,stroke:#c06e1a style STAT fill:#f28e2b,color:#fff,stroke:#c06e1a ``` Linear algebra menjadi fondasi utama, khususnya untuk memahami OLS sebagai projection. Dari sana, Gauss-Markov menjelaskan *mengapa* OLS optimal, dan semua topik lain (IV, panel, MLE, time series, spatial) adalah variasi atau ekstensi dari framework yang sama. ## Daftar Topik | # | Topik | Konsep Utama | Prereq | Waktu Estimasi | |---|-------|-------------|--------|----------------| | 1 | [OLS in Matrix Notation](01-ols-matrix.qmd) | $\hat{\beta} = (X'X)^{-1}X'y$, projection, hat matrix, FWL | Linear algebra dasar | 2.5–3 jam | | 2 | [Gauss-Markov Theorem](02-gauss-markov.qmd) | BLUE, GM assumptions, what breaks | OLS matrix form | 1.5–2 jam | | 3 | [IV & GMM](03-iv-gmm.qmd) | Endogeneity, 2SLS, optimal weighting | OLS + GM | 2–2.5 jam | | 4 | [MLE for Discrete Choice](04-mle-econometrics.qmd) | Probit, logit, tobit, Newton-Raphson | Prob + calculus | 1.5–2 jam | | 5 | [Panel Data Math](05-panel-data-math.qmd) | Within estimator, FWL, Hausman | OLS + linear algebra | 1.5–2 jam | | 6 | [Time Series Math](06-time-series-math.qmd) | Stationarity, VAR, unit roots | Probability | 1–1.5 jam | | 7 | [Spatial Econometrics](07-spatial-econometrics.qmd) | SAR/SEM/SDM, spatial multiplier | Matrix algebra | 1–1.5 jam | **Total estimasi: 10–15 jam** tergantung background dan seberapa dalam kamu ingin masuk ke setiap bukti. ## Panduan Belajar ::: {.callout-important title="Definisi: Recommended Learning Path"} **Mulai dari OLS matrix form.** Ini adalah topik yang paling fundamental dan paling banyak dipakai di topik lain. Tidak ada yang lebih mengecewakan daripada mencoba belajar panel data math tanpa benar-benar paham projection. **Urutan yang disarankan:** 1. **OLS Matrix Form** (Topik 1) — Kuasai ini betul-betul. Pahami derivasi calculus DAN geometric. Kerja semua practice problems. 2. **Gauss-Markov** (Topik 2) — Ini adalah "why OLS." Setelah tahu OLS, langsung lanjut ke sini untuk paham asumsi apa yang sedang kamu buat setiap kali run regresi. 3. **Pilih berdasarkan kebutuhan penelitian kamu:** - Riset panel data → Topik 5 - Riset dengan endogeneity issues → Topik 3 - Discrete dependent variables → Topik 4 - Riset time series / makroekonomi → Topik 6 - Riset dengan data geografis → Topik 7 **Jangan skip Topik 1 dan 2.** Investasi waktu di sana akan membayar berlipat ganda di semua topik berikutnya. ::: ### Cara Pakai Modul Ini **Baca teorinya dulu, baru kode.** Setiap topik punya derivasi matematika dan kemudian contoh numerik dengan kode R. Godaan besar adalah langsung loncat ke kode — tapi jika kamu sudah punya econometrics background, kode itu sudah familiar. Yang baru adalah koneksi ke matematika. **Kerja practice problems.** Ini bukan ujian — ini cara otak kamu membangun koneksi yang tidak akan terbentuk hanya dari membaca. **Gunakan matematika untuk re-derive** hal yang sudah kamu tahu dari intuisi. Jika kamu tahu FE estimator "menghilangkan unobserved heterogeneity," coba derive secara formal menggunakan Frisch-Waugh-Lovell. Momen "aha!" itu sangat berharga. ::: {.callout-caution title="Connection: Modul Ini dengan Modul Lain"} Modul ini adalah **aplikasi** dari dua modul sebelumnya: - **03 — Linear Algebra**: Semua notasi matrix, column space, projection, rank — semua dipakai intensif di sini. Jika kamu struggle dengan konsep projection di Topik 1, kembali ke modul Linear Algebra dulu. - **04 — Probability & Statistics**: Expectation, variance, conditional expectation, distribution theory — fondasi untuk statistical properties di setiap topik. Modul ini juga akan **mempersiapkan kamu** untuk: - **07 — ML Math**: Banyak ML estimators (Ridge, Lasso, kernel methods) bisa dilihat sebagai variasi OLS dengan regularization atau kernel trick - **08 — Causal Inference Math**: DAGs, potential outcomes, dan identification strategy semuanya assume pemahaman tentang estimator properties ::: ## Notasi yang Digunakan di Seluruh Modul | Simbol | Arti | |--------|------| | $n$ | Jumlah observasi | | $k$ | Jumlah parameter (termasuk intercept) | | $y \in \mathbb{R}^n$ | Vector dependent variable | | $X \in \mathbb{R}^{n \times k}$ | Design matrix (matrix of regressors) | | $\beta \in \mathbb{R}^k$ | True parameter vector | | $\hat{\beta}$ | Estimated parameter vector | | $\varepsilon \in \mathbb{R}^n$ | Error vector (unobserved) | | $\hat{\varepsilon}$ | Residual vector (observed) | | $P_X = X(X'X)^{-1}X'$ | Projection (hat) matrix | | $M_X = I - P_X$ | Annihilator (residual maker) matrix | | $\iota$ | Vector of ones (for intercept) | | $\succeq 0$ | Positive semidefinite | | $\text{tr}(\cdot)$ | Trace of a matrix | ## Referensi Utama Untuk modul ini, referensi terbaik dalam urutan aksesibilitas: 1. **Greene, *Econometric Analysis*** — Comprehensive, good on matrix derivations. Edisi 7 atau 8. 2. **Hayashi, *Econometrics*** — Lebih rigorous secara statistik, excellent untuk GMM. 3. **Davidson & MacKinnon, *Econometric Theory and Methods*** — Sangat bagus untuk geometric interpretation. 4. **Wooldridge, *Introductory Econometrics*** — Jika perlu refresh intuisi sebelum math. 5. **Cameron & Trivedi, *Microeconometrics*** — Untuk discrete choice dan count data.