graph TD
A[01. Vectors & Matrices<br/>Fundamental objects] --> B[02. Systems of Equations<br/>Solving Ax = b]
A --> C[03. Determinants & Inverse<br/>When is A invertible?]
B --> C
C --> D[04. Eigenvalues & Eigenvectors<br/>Special directions]
A --> E[05. Vector Spaces<br/>Column space, null space]
E --> D
D --> F[06. Matrix Decompositions<br/>SVD, QR, Cholesky]
D --> G[07. Quadratic Forms<br/>Positive definiteness]
C --> G
style A fill:#4472C4,color:#fff
style B fill:#ED7D31,color:#fff
style C fill:#ED7D31,color:#fff
style D fill:#70AD47,color:#fff
style E fill:#70AD47,color:#fff
style F fill:#FFC000,color:#000
style G fill:#FFC000,color:#000
Linear Algebra
Bahasa Matematika dari Data Science
1 Kenapa Linear Algebra Itu Penting Banget?
Kalau statistik adalah grammar-nya data science, maka linear algebra adalah vocabulary-nya. Hampir semua hal yang kamu lakukan sebagai data analyst atau econometrician — dari OLS sampai PCA, dari logistic regression sampai neural networks — semuanya bisa dideskripsikan dalam bahasa linear algebra.
Coba pikir:
- OLS regression: \(\hat{\boldsymbol{\beta}} = (X^TX)^{-1}X^T\mathbf{y}\) — pure matrix algebra
- PCA: eigendecomposition dari sample covariance matrix \(\hat{\Sigma}\)
- Neural networks: serangkaian matrix multiplications dengan nonlinear activations
- Ridge regression: \((X^TX + \lambda I)^{-1}X^T\mathbf{y}\) — regularization sebagai perturbasi matriks
- Kalman filter: update belief menggunakan projection ke subspace
- Factor models: \(\mathbf{y} = \Lambda\mathbf{f} + \boldsymbol{\epsilon}\) — decomposisi matriks data
Kamu pernah pake semua ini. Tapi mungkin sebagai “black box.” Module ini akan membuka boxnya.
Module ini bukan intro linear algebra dari nol. Kita skip geometri dasar dan langsung ke hal-hal yang actually relevan untuk econometrics dan ML. Asumsinya: kamu tahu apa itu vektor dan matriks secara umum, tapi ingin memahami mengapa hal-hal bekerja seperti yang bekerja.
2 OLS sebagai Proyeksi Geometris
Ini salah satu insight paling cantik dalam statistik. Bayangkan \(\mathbf{y} \in \mathbb{R}^n\) adalah vektor observasi, dan kolom-kolom \(X\) masing-masing adalah vektor di \(\mathbb{R}^n\). Fitted values \(\hat{\mathbf{y}} = X\hat{\boldsymbol{\beta}}\) adalah vektor yang berada di column space dari \(X\) — yaitu semua kombinasi linear kolom-kolom \(X\).
OLS mencari vektor di column space \(C(X)\) yang paling dekat dengan \(\mathbf{y}\). Solusinya adalah proyeksi ortogonal \(\mathbf{y}\) ke \(C(X)\):
\[\hat{\mathbf{y}} = X(X^TX)^{-1}X^T\mathbf{y} = H\mathbf{y}\]
di mana \(H = X(X^TX)^{-1}X^T\) adalah hat matrix (projection matrix). Residuals \(\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}}\) tegak lurus terhadap \(C(X)\) — itulah kenapa \(X^T\mathbf{e} = \mathbf{0}\) adalah kondisi first-order OLS.
Implikasi: Kalau \(X\) tidak full column rank (ada multicollinearity), maka column space \(C(X)\) “kurang dimensi”, dan proyeksi tidak unik.
3 PCA sebagai Eigendecomposition
Principal Component Analysis (PCA) adalah teknik untuk menemukan arah-arah dengan variansi terbesar dalam data. Secara matematis:
- Hitung sample covariance matrix: \(\hat{\Sigma} = \frac{1}{n-1}X_c^TX_c\) (di mana \(X_c\) adalah data yang sudah di-center)
- Lakukan eigendecomposition: \(\hat{\Sigma} = V\Lambda V^T\)
- Principal components: kolom-kolom \(V\) (eigenvectors)
- Variance explained: diagonal dari \(\Lambda\) (eigenvalues)
Eigenvector pertama \(\mathbf{v}_1\) menunjuk ke arah maksimum variansi. Eigenvector kedua \(\mathbf{v}_2\) menunjuk ke arah maksimum variansi yang orthogonal terhadap \(\mathbf{v}_1\). Dan seterusnya.
Implikasi untuk dimensionality reduction: Kalau kamu punya 50 features tapi 3 principal components pertama menjelaskan 95% variansi, kamu bisa mereduksi data ke 3 dimensi tanpa kehilangan banyak informasi.
4 Neural Networks sebagai Matrix Multiplications
Satu layer neural network adalah transformasi:
\[\mathbf{h} = \sigma(W\mathbf{x} + \mathbf{b})\]
di mana \(W\) adalah weight matrix, \(\mathbf{b}\) adalah bias vector, dan \(\sigma\) adalah nonlinear activation function. Deep learning dengan \(L\) layers adalah komposisi \(L\) transformasi seperti ini:
\[\mathbf{y} = \sigma_L(W_L \cdots \sigma_2(W_2\sigma_1(W_1\mathbf{x} + \mathbf{b}_1) + \mathbf{b}_2) \cdots + \mathbf{b}_L)\]
Linear algebra menentukan expressiveness model (apa yang bisa dipelajari) dan optimization landscape (seberapa mudah/susah training). Backpropagation sendiri adalah chain rule + matrix-vector products.
5 Peta Modul
6 Topik-topik dalam Modul Ini
| # | Topik | Deskripsi | Koneksi ke Pekerjaanmu |
|---|---|---|---|
| 01 | Vectors & Matrices | Definisi, operasi dasar, dot product, norm | Data tables, OLS formula |
| 02 | Systems of Equations | Gaussian elimination, rank, existence of solutions | Multicollinearity, identifiability |
| 03 | Determinants & Inverse | Det, invertibility, condition number | Singularity dalam OLS |
| 04 | Eigenvalues & Eigenvectors | Characteristic equation, diagonalization | PCA, AR stability, Hessian |
| 05 | Vector Spaces | Subspaces, basis, dimension, four subspaces | Column space of X, df |
| 06 | Matrix Decompositions | SVD, QR, Cholesky, LU | PCA, stable OLS, Bayesian |
| 07 | Quadratic Forms | Positive definiteness, Sylvester’s criterion | MLE optimality, Mahalanobis |
7 Prerequisites
Kamu sudah familiar dengan:
Kalau kamu pernah pakai lm(), prcomp(), atau eigen() di R, kamu sudah menggunakan semua konsep ini — sekarang kita akan memahaminya.
8 Estimasi Waktu
| Topik | Waktu (membaca + latihan) |
|---|---|
| Vectors & Matrices | 2–3 jam |
| Systems of Equations | 1.5–2 jam |
| Determinants & Inverse | 1.5–2 jam |
| Eigenvalues & Eigenvectors | 2–3 jam |
| Vector Spaces | 2–2.5 jam |
| Matrix Decompositions | 2.5–3 jam |
| Quadratic Forms | 1.5–2 jam |
| Total | ~15–18 jam |
9 Cara Terbaik Belajar Modul Ini
- Jangan skip intuisi geometris — bahkan kalau kamu lebih nyaman dengan algebra. Visualisasi membantu membangun intuisi yang bertahan lama.
- Run semua R code — bukan cuma baca. Eksperimen dengan angka yang berbeda.
- Hubungkan ke econometrics yang kamu tahu — setiap kali muncul callout “Connection”, hentikan sejenak dan pikirkan bagaimana ini relevan dengan pekerjaan kamu.
- Kerjakan practice problems — minimal conceptual problems sebelum lanjut ke topik berikutnya.
Mari mulai! 🚀