Linear Algebra

Bahasa Matematika dari Data Science

1 Kenapa Linear Algebra Itu Penting Banget?

Kalau statistik adalah grammar-nya data science, maka linear algebra adalah vocabulary-nya. Hampir semua hal yang kamu lakukan sebagai data analyst atau econometrician — dari OLS sampai PCA, dari logistic regression sampai neural networks — semuanya bisa dideskripsikan dalam bahasa linear algebra.

Coba pikir:

OLS regression: $\hat{\boldsymbol{\beta}} = (X^TX)^{-1}X^T\mathbf{y}$ — pure matrix algebra
PCA: eigendecomposition dari sample covariance matrix $\hat{\Sigma}$
Neural networks: serangkaian matrix multiplications dengan nonlinear activations
Ridge regression: $(X^TX + \lambda I)^{-1}X^T\mathbf{y}$ — regularization sebagai perturbasi matriks
Kalman filter: update belief menggunakan projection ke subspace
Factor models: $\mathbf{y} = \Lambda\mathbf{f} + \boldsymbol{\epsilon}$ — decomposisi matriks data

Kamu pernah pake semua ini. Tapi mungkin sebagai “black box.” Module ini akan membuka boxnya.

Apa yang Akan Kamu Pelajari

Module ini bukan intro linear algebra dari nol. Kita skip geometri dasar dan langsung ke hal-hal yang actually relevan untuk econometrics dan ML. Asumsinya: kamu tahu apa itu vektor dan matriks secara umum, tapi ingin memahami mengapa hal-hal bekerja seperti yang bekerja.

2 OLS sebagai Proyeksi Geometris

Ini salah satu insight paling cantik dalam statistik. Bayangkan $\mathbf{y} \in \mathbb{R}^n$ adalah vektor observasi, dan kolom-kolom $X$ masing-masing adalah vektor di $\mathbb{R}^n$. Fitted values $\hat{\mathbf{y}} = X\hat{\boldsymbol{\beta}}$ adalah vektor yang berada di column space dari $X$ — yaitu semua kombinasi linear kolom-kolom $X$.

OLS mencari vektor di column space $C(X)$ yang paling dekat dengan $\mathbf{y}$. Solusinya adalah proyeksi ortogonal $\mathbf{y}$ ke $C(X)$:

\[\hat{\mathbf{y}} = X(X^TX)^{-1}X^T\mathbf{y} = H\mathbf{y}\]

di mana $H = X(X^TX)^{-1}X^T$ adalah hat matrix (projection matrix). Residuals $\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}}$ tegak lurus terhadap $C(X)$ — itulah kenapa $X^T\mathbf{e} = \mathbf{0}$ adalah kondisi first-order OLS.

Implikasi: Kalau $X$ tidak full column rank (ada multicollinearity), maka column space $C(X)$ “kurang dimensi”, dan proyeksi tidak unik.

3 PCA sebagai Eigendecomposition

Principal Component Analysis (PCA) adalah teknik untuk menemukan arah-arah dengan variansi terbesar dalam data. Secara matematis:

Hitung sample covariance matrix: $\hat{\Sigma} = \frac{1}{n-1}X_c^TX_c$ (di mana $X_c$ adalah data yang sudah di-center)
Lakukan eigendecomposition: $\hat{\Sigma} = V\Lambda V^T$
Principal components: kolom-kolom $V$ (eigenvectors)
Variance explained: diagonal dari $\Lambda$ (eigenvalues)

Eigenvector pertama $\mathbf{v}_1$ menunjuk ke arah maksimum variansi. Eigenvector kedua $\mathbf{v}_2$ menunjuk ke arah maksimum variansi yang orthogonal terhadap $\mathbf{v}_1$. Dan seterusnya.

Implikasi untuk dimensionality reduction: Kalau kamu punya 50 features tapi 3 principal components pertama menjelaskan 95% variansi, kamu bisa mereduksi data ke 3 dimensi tanpa kehilangan banyak informasi.

4 Neural Networks sebagai Matrix Multiplications

Satu layer neural network adalah transformasi:

\[\mathbf{h} = \sigma(W\mathbf{x} + \mathbf{b})\]

di mana $W$ adalah weight matrix, $\mathbf{b}$ adalah bias vector, dan $\sigma$ adalah nonlinear activation function. Deep learning dengan $L$ layers adalah komposisi $L$ transformasi seperti ini:

\[\mathbf{y} = \sigma_L(W_L \cdots \sigma_2(W_2\sigma_1(W_1\mathbf{x} + \mathbf{b}_1) + \mathbf{b}_2) \cdots + \mathbf{b}_L)\]

Linear algebra menentukan expressiveness model (apa yang bisa dipelajari) dan optimization landscape (seberapa mudah/susah training). Backpropagation sendiri adalah chain rule + matrix-vector products.

5 Peta Modul

graph TD
    A[01. Vectors & Matrices<br/>Fundamental objects] --> B[02. Systems of Equations<br/>Solving Ax = b]
    A --> C[03. Determinants & Inverse<br/>When is A invertible?]
    B --> C
    C --> D[04. Eigenvalues & Eigenvectors<br/>Special directions]
    A --> E[05. Vector Spaces<br/>Column space, null space]
    E --> D
    D --> F[06. Matrix Decompositions<br/>SVD, QR, Cholesky]
    D --> G[07. Quadratic Forms<br/>Positive definiteness]
    C --> G

    style A fill:#4472C4,color:#fff
    style B fill:#ED7D31,color:#fff
    style C fill:#ED7D31,color:#fff
    style D fill:#70AD47,color:#fff
    style E fill:#70AD47,color:#fff
    style F fill:#FFC000,color:#000
    style G fill:#FFC000,color:#000

6 Topik-topik dalam Modul Ini

#	Topik	Deskripsi	Koneksi ke Pekerjaanmu
01	Vectors & Matrices	Definisi, operasi dasar, dot product, norm	Data tables, OLS formula
02	Systems of Equations	Gaussian elimination, rank, existence of solutions	Multicollinearity, identifiability
03	Determinants & Inverse	Det, invertibility, condition number	Singularity dalam OLS
04	Eigenvalues & Eigenvectors	Characteristic equation, diagonalization	PCA, AR stability, Hessian
05	Vector Spaces	Subspaces, basis, dimension, four subspaces	Column space of X, df
06	Matrix Decompositions	SVD, QR, Cholesky, LU	PCA, stable OLS, Bayesian
07	Quadratic Forms	Positive definiteness, Sylvester’s criterion	MLE optimality, Mahalanobis

7 Prerequisites

Kamu sudah familiar dengan:

Konsep dasar vektor dan matriks (definisi, ukuran)
Operasi dasar: penjumlahan, perkalian skalar
Notasi $\sum$ dan konsep fungsi
Kalkulus dasar (untuk koneksi ke optimisasi)
Dasar-dasar R programming

Kalau kamu pernah pakai lm(), prcomp(), atau eigen() di R, kamu sudah menggunakan semua konsep ini — sekarang kita akan memahaminya.

8 Estimasi Waktu

Topik	Waktu (membaca + latihan)
Vectors & Matrices	2–3 jam
Systems of Equations	1.5–2 jam
Determinants & Inverse	1.5–2 jam
Eigenvalues & Eigenvectors	2–3 jam
Vector Spaces	2–2.5 jam
Matrix Decompositions	2.5–3 jam
Quadratic Forms	1.5–2 jam
Total	~15–18 jam

9 Cara Terbaik Belajar Modul Ini

Jangan skip intuisi geometris — bahkan kalau kamu lebih nyaman dengan algebra. Visualisasi membantu membangun intuisi yang bertahan lama.
Run semua R code — bukan cuma baca. Eksperimen dengan angka yang berbeda.
Hubungkan ke econometrics yang kamu tahu — setiap kali muncul callout “Connection”, hentikan sejenak dan pikirkan bagaimana ini relevan dengan pekerjaan kamu.
Kerjakan practice problems — minimal conceptual problems sebelum lanjut ke topik berikutnya.

Mari mulai! 🚀

--- title: "Linear Algebra" subtitle: "Bahasa Matematika dari Data Science" format: html: toc: true toc-depth: 3 code-fold: false --- ## Kenapa Linear Algebra Itu Penting Banget? Kalau statistik adalah *grammar*-nya data science, maka linear algebra adalah *vocabulary*-nya. Hampir semua hal yang kamu lakukan sebagai data analyst atau econometrician — dari OLS sampai PCA, dari logistic regression sampai neural networks — semuanya bisa dideskripsikan dalam bahasa linear algebra. Coba pikir: - **OLS regression**: $\hat{\boldsymbol{\beta}} = (X^TX)^{-1}X^T\mathbf{y}$ — pure matrix algebra - **PCA**: eigendecomposition dari sample covariance matrix $\hat{\Sigma}$ - **Neural networks**: serangkaian matrix multiplications dengan nonlinear activations - **Ridge regression**: $(X^TX + \lambda I)^{-1}X^T\mathbf{y}$ — regularization sebagai perturbasi matriks - **Kalman filter**: update belief menggunakan projection ke subspace - **Factor models**: $\mathbf{y} = \Lambda\mathbf{f} + \boldsymbol{\epsilon}$ — decomposisi matriks data Kamu pernah pake semua ini. Tapi mungkin sebagai "black box." Module ini akan membuka boxnya. ::: {.callout-note title="Apa yang Akan Kamu Pelajari"} Module ini bukan intro linear algebra dari nol. Kita skip geometri dasar dan langsung ke hal-hal yang *actually* relevan untuk econometrics dan ML. Asumsinya: kamu tahu apa itu vektor dan matriks secara umum, tapi ingin memahami *mengapa* hal-hal bekerja seperti yang bekerja. ::: --- ## OLS sebagai Proyeksi Geometris Ini salah satu insight paling cantik dalam statistik. Bayangkan $\mathbf{y} \in \mathbb{R}^n$ adalah vektor observasi, dan kolom-kolom $X$ masing-masing adalah vektor di $\mathbb{R}^n$. Fitted values $\hat{\mathbf{y}} = X\hat{\boldsymbol{\beta}}$ adalah vektor yang berada di **column space** dari $X$ — yaitu semua kombinasi linear kolom-kolom $X$. OLS mencari vektor di column space $C(X)$ yang paling dekat dengan $\mathbf{y}$. Solusinya adalah **proyeksi ortogonal** $\mathbf{y}$ ke $C(X)$: $$\hat{\mathbf{y}} = X(X^TX)^{-1}X^T\mathbf{y} = H\mathbf{y}$$ di mana $H = X(X^TX)^{-1}X^T$ adalah **hat matrix** (projection matrix). Residuals $\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}}$ tegak lurus terhadap $C(X)$ — itulah kenapa $X^T\mathbf{e} = \mathbf{0}$ adalah kondisi first-order OLS. **Implikasi**: Kalau $X$ tidak full column rank (ada multicollinearity), maka column space $C(X)$ "kurang dimensi", dan proyeksi tidak unik. --- ## PCA sebagai Eigendecomposition Principal Component Analysis (PCA) adalah teknik untuk menemukan **arah-arah dengan variansi terbesar** dalam data. Secara matematis: 1. Hitung sample covariance matrix: $\hat{\Sigma} = \frac{1}{n-1}X_c^TX_c$ (di mana $X_c$ adalah data yang sudah di-center) 2. Lakukan eigendecomposition: $\hat{\Sigma} = V\Lambda V^T$ 3. Principal components: kolom-kolom $V$ (eigenvectors) 4. Variance explained: diagonal dari $\Lambda$ (eigenvalues) Eigenvector pertama $\mathbf{v}_1$ menunjuk ke arah maksimum variansi. Eigenvector kedua $\mathbf{v}_2$ menunjuk ke arah maksimum variansi yang *orthogonal* terhadap $\mathbf{v}_1$. Dan seterusnya. **Implikasi untuk dimensionality reduction**: Kalau kamu punya 50 features tapi 3 principal components pertama menjelaskan 95% variansi, kamu bisa mereduksi data ke 3 dimensi tanpa kehilangan banyak informasi. --- ## Neural Networks sebagai Matrix Multiplications Satu layer neural network adalah transformasi: $$\mathbf{h} = \sigma(W\mathbf{x} + \mathbf{b})$$ di mana $W$ adalah weight matrix, $\mathbf{b}$ adalah bias vector, dan $\sigma$ adalah nonlinear activation function. Deep learning dengan $L$ layers adalah komposisi $L$ transformasi seperti ini: $$\mathbf{y} = \sigma_L(W_L \cdots \sigma_2(W_2\sigma_1(W_1\mathbf{x} + \mathbf{b}_1) + \mathbf{b}_2) \cdots + \mathbf{b}_L)$$ Linear algebra menentukan **expressiveness** model (apa yang bisa dipelajari) dan **optimization landscape** (seberapa mudah/susah training). Backpropagation sendiri adalah chain rule + matrix-vector products. --- ## Peta Modul ```{mermaid} graph TD A[01. Vectors & Matrices Fundamental objects] --> B[02. Systems of Equations Solving Ax = b] A --> C[03. Determinants & Inverse When is A invertible?] B --> C C --> D[04. Eigenvalues & Eigenvectors Special directions] A --> E[05. Vector Spaces Column space, null space] E --> D D --> F[06. Matrix Decompositions SVD, QR, Cholesky] D --> G[07. Quadratic Forms Positive definiteness] C --> G style A fill:#4472C4,color:#fff style B fill:#ED7D31,color:#fff style C fill:#ED7D31,color:#fff style D fill:#70AD47,color:#fff style E fill:#70AD47,color:#fff style F fill:#FFC000,color:#000 style G fill:#FFC000,color:#000 ``` --- ## Topik-topik dalam Modul Ini | # | Topik | Deskripsi | Koneksi ke Pekerjaanmu | |---|-------|-----------|------------------------| | 01 | **Vectors & Matrices** | Definisi, operasi dasar, dot product, norm | Data tables, OLS formula | | 02 | **Systems of Equations** | Gaussian elimination, rank, existence of solutions | Multicollinearity, identifiability | | 03 | **Determinants & Inverse** | Det, invertibility, condition number | Singularity dalam OLS | | 04 | **Eigenvalues & Eigenvectors** | Characteristic equation, diagonalization | PCA, AR stability, Hessian | | 05 | **Vector Spaces** | Subspaces, basis, dimension, four subspaces | Column space of X, df | | 06 | **Matrix Decompositions** | SVD, QR, Cholesky, LU | PCA, stable OLS, Bayesian | | 07 | **Quadratic Forms** | Positive definiteness, Sylvester's criterion | MLE optimality, Mahalanobis | --- ## Prerequisites Kamu sudah familiar dengan: - [x] Konsep dasar vektor dan matriks (definisi, ukuran) - [x] Operasi dasar: penjumlahan, perkalian skalar - [x] Notasi $\sum$ dan konsep fungsi - [x] Kalkulus dasar (untuk koneksi ke optimisasi) - [x] Dasar-dasar R programming Kalau kamu pernah pakai `lm()`, `prcomp()`, atau `eigen()` di R, kamu sudah *menggunakan* semua konsep ini — sekarang kita akan *memahaminya*. --- ## Estimasi Waktu | Topik | Waktu (membaca + latihan) | |-------|--------------------------| | Vectors & Matrices | 2–3 jam | | Systems of Equations | 1.5–2 jam | | Determinants & Inverse | 1.5–2 jam | | Eigenvalues & Eigenvectors | 2–3 jam | | Vector Spaces | 2–2.5 jam | | Matrix Decompositions | 2.5–3 jam | | Quadratic Forms | 1.5–2 jam | | **Total** | **~15–18 jam** | --- ## Cara Terbaik Belajar Modul Ini 1. **Jangan skip intuisi geometris** — bahkan kalau kamu lebih nyaman dengan algebra. Visualisasi membantu membangun intuisi yang bertahan lama. 2. **Run semua R code** — bukan cuma baca. Eksperimen dengan angka yang berbeda. 3. **Hubungkan ke econometrics yang kamu tahu** — setiap kali muncul callout "Connection", hentikan sejenak dan pikirkan bagaimana ini relevan dengan pekerjaan kamu. 4. **Kerjakan practice problems** — minimal conceptual problems sebelum lanjut ke topik berikutnya. Mari mulai! 🚀