Multivariate Calculus
Partial Derivatives, Gradient, Jacobian, dan Hessian
Hampir semua model statistik dan ML bekerja di ruang berdimensi tinggi — parameter model \(\theta \in \mathbb{R}^p\) bisa punya ribuan atau jutaan komponen. Multivariate calculus memberi kita tools untuk “berpikir kalkulus” di ruang ini.
Contoh konkret: - OLS: \(\beta \in \mathbb{R}^p\) — gradient dari loss adalah vektor \(p\)-dimensional - MLE: \(\theta \in \mathbb{R}^p\) — Hessian dari log-likelihood memberikan Fisher information matrix - Neural network: parameter model bisa \(\theta \in \mathbb{R}^{10^6}\) — gradient descent di ruang ini - Delta method: aproksimasi distribusi \(g(\hat{\theta})\) menggunakan Jacobian dari \(g\)
1 Partial Derivatives: Review
Untuk \(f: \mathbb{R}^n \to \mathbb{R}\), partial derivative ke-\(i\) adalah: \[\frac{\partial f}{\partial x_i}(\mathbf{x}) = \lim_{h \to 0} \frac{f(x_1, \ldots, x_i + h, \ldots, x_n) - f(\mathbf{x})}{h}\]
Kita mendiferensiasikan terhadap \(x_i\) sambil menganggap semua variabel lain konstan.
1.1 Second-Order Partial Derivatives
\[\frac{\partial^2 f}{\partial x_i^2} = \frac{\partial}{\partial x_i}\left(\frac{\partial f}{\partial x_i}\right)\]
\[\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial}{\partial x_i}\left(\frac{\partial f}{\partial x_j}\right) \quad \text{(mixed partial)}\]
Jika mixed partial derivatives continuous, maka: \[\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i}\]
Order of differentiation tidak berpengaruh (di bawah kondisi regularity). Ini sangat memudahkan komputasi.
2 Gradient Vector
Untuk \(f: \mathbb{R}^n \to \mathbb{R}\), gradient di \(\mathbf{x}\) adalah: \[\nabla f(\mathbf{x}) = \begin{pmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{pmatrix} \in \mathbb{R}^n\]
Properti geometri: - \(\nabla f(\mathbf{x})\) menunjuk ke arah steepest ascent (kenaikan tercuram) - \(-\nabla f(\mathbf{x})\) menunjuk ke arah steepest descent - \(\nabla f(\mathbf{x})\) tegak lurus dengan level curves (contour lines) dari \(f\)
3 Directional Derivative
Laju perubahan \(f\) di arah vektor satuan \(\mathbf{u}\): \[D_{\mathbf{u}} f(\mathbf{x}) = \nabla f(\mathbf{x}) \cdot \mathbf{u} = \|\nabla f(\mathbf{x})\| \cos\theta\]
di mana \(\theta\) adalah sudut antara \(\nabla f\) dan \(\mathbf{u}\).
Directional derivative maksimal (\(= \|\nabla f\|\)) ketika \(\mathbf{u}\) sejajar dengan \(\nabla f\) — konfirmasi bahwa gradient menunjuk ke steepest ascent.
4 Jacobian Matrix
Untuk \(\mathbf{f}: \mathbb{R}^n \to \mathbb{R}^m\) (fungsi vector-valued), Jacobian adalah matrix \(m \times n\):
\[J_{\mathbf{f}}(\mathbf{x}) = \begin{pmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n} \end{pmatrix}\]
Baris ke-\(i\) adalah gradient dari komponen ke-\(i\) dari \(\mathbf{f}\).
Kasus khusus: Jika \(m = 1\) (scalar-valued), Jacobian adalah gradient (row vector).
Problem: Hitung Jacobian dari \(\mathbf{f}(x, y) = \begin{pmatrix} x^2 + y \\ xy \\ e^x \end{pmatrix}\)
Solution: \(\mathbf{f}: \mathbb{R}^2 \to \mathbb{R}^3\), jadi Jacobian adalah matrix \(3 \times 2\).
\[J_{\mathbf{f}} = \begin{pmatrix} \frac{\partial f_1}{\partial x} & \frac{\partial f_1}{\partial y} \\ \frac{\partial f_2}{\partial x} & \frac{\partial f_2}{\partial y} \\ \frac{\partial f_3}{\partial x} & \frac{\partial f_3}{\partial y} \end{pmatrix} = \begin{pmatrix} 2x & 1 \\ y & x \\ e^x & 0 \end{pmatrix}\]
Mengapa penting? Jacobian adalah “best linear approximation” dari \(\mathbf{f}\) di sekitar titik \(\mathbf{x}\) — analog dengan derivative untuk fungsi univariate.
5 Hessian Matrix
Untuk \(f: \mathbb{R}^n \to \mathbb{R}\), Hessian adalah matrix \(n \times n\) dari second-order partial derivatives:
\[H_f(\mathbf{x}) = \nabla^2 f(\mathbf{x}) = \begin{pmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{pmatrix}\]
Karena Clairaut’s theorem, Hessian adalah symmetric matrix: \(H = H'\).
5.1 Hessian dan Convexity
- \(H_f(\mathbf{x})\) positive definite (\(\mathbf{v}'H\mathbf{v} > 0\) untuk semua \(\mathbf{v} \neq 0\)): \(f\) strictly convex di \(\mathbf{x}\)
- \(H_f(\mathbf{x})\) positive semidefinite: \(f\) convex di \(\mathbf{x}\)
- \(H_f(\mathbf{x})\) negative definite: \(f\) strictly concave di \(\mathbf{x}\)
- \(H_f(\mathbf{x})\) indefinite: saddle point
Problem: Hitung Hessian dari \(L(\beta) = \|y - X\beta\|^2 = (y - X\beta)'(y - X\beta)\)
Solution:
Dari sebelumnya, kita tahu: \(\nabla_\beta L(\beta) = -2X'y + 2X'X\beta\)
Hessian adalah Jacobian dari gradient: \[H_L(\beta) = \frac{\partial}{\partial \beta'}\left(-2X'y + 2X'X\beta\right) = 2X'X\]
Interpretasi: - Hessian \(= 2X'X\) adalah constant (tidak bergantung pada \(\beta\)) - Jika \(X\) punya full column rank, maka \(X'X\) adalah positive definite → \(L\) strictly convex → unique global minimum!
Ini adalah alasan teoritis mengapa OLS punya unique solution (ketika \(X'X\) invertible).
Dalam MLE, Fisher information matrix adalah: \[\mathcal{I}(\theta) = -\mathbb{E}\left[H_{\ell}(\theta)\right] = -\mathbb{E}\left[\nabla^2_\theta \ell(\theta)\right]\]
di mana \(\ell(\theta)\) adalah log-likelihood.
Fisher information matrix menentukan: - Asymptotic variance dari MLE: \(\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} \mathcal{N}(0, \mathcal{I}(\theta_0)^{-1})\) - Cramer-Rao lower bound untuk unbiased estimators
Jadi Hessian dari log-likelihood langsung terhubung ke efisiensi estimator!
6 Chain Rule untuk Multivariate Functions
Jika \(z = f(x_1, \ldots, x_n)\) dan masing-masing \(x_i = g_i(t)\): \[\frac{dz}{dt} = \sum_{i=1}^n \frac{\partial f}{\partial x_i} \frac{dx_i}{dt} = (\nabla f)' \frac{d\mathbf{x}}{dt}\]
Untuk komposisi \(h(\mathbf{x}) = f(g(\mathbf{x}))\) di mana \(g: \mathbb{R}^n \to \mathbb{R}^m\) dan \(f: \mathbb{R}^m \to \mathbb{R}^k\): \[J_h(\mathbf{x}) = J_f(g(\mathbf{x})) \cdot J_g(\mathbf{x})\]
Ini adalah chain rule dalam bentuk matrix multiplication — inilah yang membuat backpropagation efisien.
7 Key Takeaways
7.1 Poin Utama
- Partial derivatives: turunan terhadap satu variabel, variabel lain konstan
- Gradient \(\nabla f\): vektor semua partial derivatives — menunjuk ke steepest ascent
- Directional derivative: laju perubahan di arah tertentu — maksimal searah gradient
- Jacobian: matrix of partial derivatives untuk fungsi vector-valued (\(\mathbf{f}: \mathbb{R}^n \to \mathbb{R}^m\))
- Hessian: matrix of second-order partials — selalu symmetric; menentukan convexity
- Hessian positive definite ↔︎ strictly convex ↔︎ unique minimum
- Fisher information = expected negative Hessian of log-likelihood
- Multivariate chain rule: \(J_{f \circ g} = J_f \cdot J_g\) — basis backpropagation
Sebelumnya: ← Integrals | Selanjutnya: Optimization →