Multivariate Calculus

Partial Derivatives, Gradient, Jacobian, dan Hessian

calculus
multivariate
gradient
hessian
Kalkulus fungsi banyak variabel: partial derivatives, gradient vector, Jacobian matrix, Hessian matrix, dan directional derivatives.
NoteWhy This Matters for Your Work

Hampir semua model statistik dan ML bekerja di ruang berdimensi tinggi — parameter model \(\theta \in \mathbb{R}^p\) bisa punya ribuan atau jutaan komponen. Multivariate calculus memberi kita tools untuk “berpikir kalkulus” di ruang ini.

Contoh konkret: - OLS: \(\beta \in \mathbb{R}^p\) — gradient dari loss adalah vektor \(p\)-dimensional - MLE: \(\theta \in \mathbb{R}^p\) — Hessian dari log-likelihood memberikan Fisher information matrix - Neural network: parameter model bisa \(\theta \in \mathbb{R}^{10^6}\) — gradient descent di ruang ini - Delta method: aproksimasi distribusi \(g(\hat{\theta})\) menggunakan Jacobian dari \(g\)

1 Partial Derivatives: Review

Untuk \(f: \mathbb{R}^n \to \mathbb{R}\), partial derivative ke-\(i\) adalah: \[\frac{\partial f}{\partial x_i}(\mathbf{x}) = \lim_{h \to 0} \frac{f(x_1, \ldots, x_i + h, \ldots, x_n) - f(\mathbf{x})}{h}\]

Kita mendiferensiasikan terhadap \(x_i\) sambil menganggap semua variabel lain konstan.

1.1 Second-Order Partial Derivatives

\[\frac{\partial^2 f}{\partial x_i^2} = \frac{\partial}{\partial x_i}\left(\frac{\partial f}{\partial x_i}\right)\]

\[\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial}{\partial x_i}\left(\frac{\partial f}{\partial x_j}\right) \quad \text{(mixed partial)}\]

ImportantClairaut’s Theorem (Symmetry of Mixed Partials)

Jika mixed partial derivatives continuous, maka: \[\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i}\]

Order of differentiation tidak berpengaruh (di bawah kondisi regularity). Ini sangat memudahkan komputasi.

2 Gradient Vector

ImportantDefinisi: Gradient Vector

Untuk \(f: \mathbb{R}^n \to \mathbb{R}\), gradient di \(\mathbf{x}\) adalah: \[\nabla f(\mathbf{x}) = \begin{pmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{pmatrix} \in \mathbb{R}^n\]

Properti geometri: - \(\nabla f(\mathbf{x})\) menunjuk ke arah steepest ascent (kenaikan tercuram) - \(-\nabla f(\mathbf{x})\) menunjuk ke arah steepest descent - \(\nabla f(\mathbf{x})\) tegak lurus dengan level curves (contour lines) dari \(f\)

3 Directional Derivative

Laju perubahan \(f\) di arah vektor satuan \(\mathbf{u}\): \[D_{\mathbf{u}} f(\mathbf{x}) = \nabla f(\mathbf{x}) \cdot \mathbf{u} = \|\nabla f(\mathbf{x})\| \cos\theta\]

di mana \(\theta\) adalah sudut antara \(\nabla f\) dan \(\mathbf{u}\).

Directional derivative maksimal (\(= \|\nabla f\|\)) ketika \(\mathbf{u}\) sejajar dengan \(\nabla f\) — konfirmasi bahwa gradient menunjuk ke steepest ascent.

4 Jacobian Matrix

ImportantDefinisi: Jacobian Matrix

Untuk \(\mathbf{f}: \mathbb{R}^n \to \mathbb{R}^m\) (fungsi vector-valued), Jacobian adalah matrix \(m \times n\):

\[J_{\mathbf{f}}(\mathbf{x}) = \begin{pmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n} \end{pmatrix}\]

Baris ke-\(i\) adalah gradient dari komponen ke-\(i\) dari \(\mathbf{f}\).

Kasus khusus: Jika \(m = 1\) (scalar-valued), Jacobian adalah gradient (row vector).

Problem: Hitung Jacobian dari \(\mathbf{f}(x, y) = \begin{pmatrix} x^2 + y \\ xy \\ e^x \end{pmatrix}\)

Solution: \(\mathbf{f}: \mathbb{R}^2 \to \mathbb{R}^3\), jadi Jacobian adalah matrix \(3 \times 2\).

\[J_{\mathbf{f}} = \begin{pmatrix} \frac{\partial f_1}{\partial x} & \frac{\partial f_1}{\partial y} \\ \frac{\partial f_2}{\partial x} & \frac{\partial f_2}{\partial y} \\ \frac{\partial f_3}{\partial x} & \frac{\partial f_3}{\partial y} \end{pmatrix} = \begin{pmatrix} 2x & 1 \\ y & x \\ e^x & 0 \end{pmatrix}\]

Mengapa penting? Jacobian adalah “best linear approximation” dari \(\mathbf{f}\) di sekitar titik \(\mathbf{x}\) — analog dengan derivative untuk fungsi univariate.

5 Hessian Matrix

ImportantDefinisi: Hessian Matrix

Untuk \(f: \mathbb{R}^n \to \mathbb{R}\), Hessian adalah matrix \(n \times n\) dari second-order partial derivatives:

\[H_f(\mathbf{x}) = \nabla^2 f(\mathbf{x}) = \begin{pmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{pmatrix}\]

Karena Clairaut’s theorem, Hessian adalah symmetric matrix: \(H = H'\).

5.1 Hessian dan Convexity

  • \(H_f(\mathbf{x})\) positive definite (\(\mathbf{v}'H\mathbf{v} > 0\) untuk semua \(\mathbf{v} \neq 0\)): \(f\) strictly convex di \(\mathbf{x}\)
  • \(H_f(\mathbf{x})\) positive semidefinite: \(f\) convex di \(\mathbf{x}\)
  • \(H_f(\mathbf{x})\) negative definite: \(f\) strictly concave di \(\mathbf{x}\)
  • \(H_f(\mathbf{x})\) indefinite: saddle point

Problem: Hitung Hessian dari \(L(\beta) = \|y - X\beta\|^2 = (y - X\beta)'(y - X\beta)\)

Solution:

Dari sebelumnya, kita tahu: \(\nabla_\beta L(\beta) = -2X'y + 2X'X\beta\)

Hessian adalah Jacobian dari gradient: \[H_L(\beta) = \frac{\partial}{\partial \beta'}\left(-2X'y + 2X'X\beta\right) = 2X'X\]

Interpretasi: - Hessian \(= 2X'X\) adalah constant (tidak bergantung pada \(\beta\)) - Jika \(X\) punya full column rank, maka \(X'X\) adalah positive definite → \(L\) strictly convex → unique global minimum!

Ini adalah alasan teoritis mengapa OLS punya unique solution (ketika \(X'X\) invertible).

CautionConnection: Fisher Information Matrix

Dalam MLE, Fisher information matrix adalah: \[\mathcal{I}(\theta) = -\mathbb{E}\left[H_{\ell}(\theta)\right] = -\mathbb{E}\left[\nabla^2_\theta \ell(\theta)\right]\]

di mana \(\ell(\theta)\) adalah log-likelihood.

Fisher information matrix menentukan: - Asymptotic variance dari MLE: \(\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} \mathcal{N}(0, \mathcal{I}(\theta_0)^{-1})\) - Cramer-Rao lower bound untuk unbiased estimators

Jadi Hessian dari log-likelihood langsung terhubung ke efisiensi estimator!

6 Chain Rule untuk Multivariate Functions

Jika \(z = f(x_1, \ldots, x_n)\) dan masing-masing \(x_i = g_i(t)\): \[\frac{dz}{dt} = \sum_{i=1}^n \frac{\partial f}{\partial x_i} \frac{dx_i}{dt} = (\nabla f)' \frac{d\mathbf{x}}{dt}\]

Untuk komposisi \(h(\mathbf{x}) = f(g(\mathbf{x}))\) di mana \(g: \mathbb{R}^n \to \mathbb{R}^m\) dan \(f: \mathbb{R}^m \to \mathbb{R}^k\): \[J_h(\mathbf{x}) = J_f(g(\mathbf{x})) \cdot J_g(\mathbf{x})\]

Ini adalah chain rule dalam bentuk matrix multiplication — inilah yang membuat backpropagation efisien.

7 Key Takeaways

7.1 Poin Utama

  • Partial derivatives: turunan terhadap satu variabel, variabel lain konstan
  • Gradient \(\nabla f\): vektor semua partial derivatives — menunjuk ke steepest ascent
  • Directional derivative: laju perubahan di arah tertentu — maksimal searah gradient
  • Jacobian: matrix of partial derivatives untuk fungsi vector-valued (\(\mathbf{f}: \mathbb{R}^n \to \mathbb{R}^m\))
  • Hessian: matrix of second-order partials — selalu symmetric; menentukan convexity
  • Hessian positive definite ↔︎ strictly convex ↔︎ unique minimum
  • Fisher information = expected negative Hessian of log-likelihood
  • Multivariate chain rule: \(J_{f \circ g} = J_f \cdot J_g\) — basis backpropagation

Sebelumnya: ← Integrals | Selanjutnya: Optimization →