Multivariate Calculus

Partial Derivatives, Gradient, Jacobian, dan Hessian

calculus

multivariate

gradient

hessian

Kalkulus fungsi banyak variabel: partial derivatives, gradient vector, Jacobian matrix, Hessian matrix, dan directional derivatives.

Why This Matters for Your Work

Hampir semua model statistik dan ML bekerja di ruang berdimensi tinggi — parameter model $\theta \in \mathbb{R}^p$ bisa punya ribuan atau jutaan komponen. Multivariate calculus memberi kita tools untuk “berpikir kalkulus” di ruang ini.

Contoh konkret: - OLS: $\beta \in \mathbb{R}^p$ — gradient dari loss adalah vektor $p$-dimensional - MLE: $\theta \in \mathbb{R}^p$ — Hessian dari log-likelihood memberikan Fisher information matrix - Neural network: parameter model bisa $\theta \in \mathbb{R}^{10^6}$ — gradient descent di ruang ini - Delta method: aproksimasi distribusi $g(\hat{\theta})$ menggunakan Jacobian dari $g$

1 Partial Derivatives: Review

Untuk $f: \mathbb{R}^n \to \mathbb{R}$, partial derivative ke-$i$ adalah: \[\frac{\partial f}{\partial x_i}(\mathbf{x}) = \lim_{h \to 0} \frac{f(x_1, \ldots, x_i + h, \ldots, x_n) - f(\mathbf{x})}{h}\]

Kita mendiferensiasikan terhadap $x_i$ sambil menganggap semua variabel lain konstan.

1.1 Second-Order Partial Derivatives

\[\frac{\partial^2 f}{\partial x_i^2} = \frac{\partial}{\partial x_i}\left(\frac{\partial f}{\partial x_i}\right)\]

\[\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial}{\partial x_i}\left(\frac{\partial f}{\partial x_j}\right) \quad \text{(mixed partial)}\]

Clairaut’s Theorem (Symmetry of Mixed Partials)

Jika mixed partial derivatives continuous, maka: \[\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i}\]

Order of differentiation tidak berpengaruh (di bawah kondisi regularity). Ini sangat memudahkan komputasi.

2 Gradient Vector

Definisi: Gradient Vector

Untuk $f: \mathbb{R}^n \to \mathbb{R}$, gradient di $\mathbf{x}$ adalah: \[\nabla f(\mathbf{x}) = \begin{pmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{pmatrix} \in \mathbb{R}^n\]

Properti geometri: - $\nabla f(\mathbf{x})$ menunjuk ke arah steepest ascent (kenaikan tercuram) - $-\nabla f(\mathbf{x})$ menunjuk ke arah steepest descent - $\nabla f(\mathbf{x})$ tegak lurus dengan level curves (contour lines) dari $f$

3 Directional Derivative

Laju perubahan $f$ di arah vektor satuan $\mathbf{u}$: \[D_{\mathbf{u}} f(\mathbf{x}) = \nabla f(\mathbf{x}) \cdot \mathbf{u} = \|\nabla f(\mathbf{x})\| \cos\theta\]

di mana $\theta$ adalah sudut antara $\nabla f$ dan $\mathbf{u}$.

Directional derivative maksimal ($= \|\nabla f\|$) ketika $\mathbf{u}$ sejajar dengan $\nabla f$ — konfirmasi bahwa gradient menunjuk ke steepest ascent.

4 Jacobian Matrix

Definisi: Jacobian Matrix

Untuk $\mathbf{f}: \mathbb{R}^n \to \mathbb{R}^m$ (fungsi vector-valued), Jacobian adalah matrix $m \times n$:

\[J_{\mathbf{f}}(\mathbf{x}) = \begin{pmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n} \end{pmatrix}\]

Baris ke-$i$ adalah gradient dari komponen ke-$i$ dari $\mathbf{f}$.

Kasus khusus: Jika $m = 1$ (scalar-valued), Jacobian adalah gradient (row vector).

Worked Example: Jacobian

Problem: Hitung Jacobian dari $\mathbf{f}(x, y) = \begin{pmatrix} x^2 + y \\ xy \\ e^x \end{pmatrix}$

Solution: $\mathbf{f}: \mathbb{R}^2 \to \mathbb{R}^3$, jadi Jacobian adalah matrix $3 \times 2$.

\[J_{\mathbf{f}} = \begin{pmatrix} \frac{\partial f_1}{\partial x} & \frac{\partial f_1}{\partial y} \\ \frac{\partial f_2}{\partial x} & \frac{\partial f_2}{\partial y} \\ \frac{\partial f_3}{\partial x} & \frac{\partial f_3}{\partial y} \end{pmatrix} = \begin{pmatrix} 2x & 1 \\ y & x \\ e^x & 0 \end{pmatrix}\]

Mengapa penting? Jacobian adalah “best linear approximation” dari $\mathbf{f}$ di sekitar titik $\mathbf{x}$ — analog dengan derivative untuk fungsi univariate.

5 Hessian Matrix

Definisi: Hessian Matrix

Untuk $f: \mathbb{R}^n \to \mathbb{R}$, Hessian adalah matrix $n \times n$ dari second-order partial derivatives:

\[H_f(\mathbf{x}) = \nabla^2 f(\mathbf{x}) = \begin{pmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{pmatrix}\]

Karena Clairaut’s theorem, Hessian adalah symmetric matrix: $H = H'$.

5.1 Hessian dan Convexity

$H_f(\mathbf{x})$ positive definite ($\mathbf{v}'H\mathbf{v} > 0$ untuk semua $\mathbf{v} \neq 0$): $f$ strictly convex di $\mathbf{x}$
$H_f(\mathbf{x})$ positive semidefinite: $f$ convex di $\mathbf{x}$
$H_f(\mathbf{x})$ negative definite: $f$ strictly concave di $\mathbf{x}$
$H_f(\mathbf{x})$ indefinite: saddle point

Worked Example: Hessian of OLS Loss

Problem: Hitung Hessian dari $L(\beta) = \|y - X\beta\|^2 = (y - X\beta)'(y - X\beta)$

Solution:

Dari sebelumnya, kita tahu: $\nabla_\beta L(\beta) = -2X'y + 2X'X\beta$

Hessian adalah Jacobian dari gradient: \[H_L(\beta) = \frac{\partial}{\partial \beta'}\left(-2X'y + 2X'X\beta\right) = 2X'X\]

Interpretasi: - Hessian $= 2X'X$ adalah constant (tidak bergantung pada $\beta$) - Jika $X$ punya full column rank, maka $X'X$ adalah positive definite → $L$ strictly convex → unique global minimum!

Ini adalah alasan teoritis mengapa OLS punya unique solution (ketika $X'X$ invertible).

Connection: Fisher Information Matrix

Dalam MLE, Fisher information matrix adalah: \[\mathcal{I}(\theta) = -\mathbb{E}\left[H_{\ell}(\theta)\right] = -\mathbb{E}\left[\nabla^2_\theta \ell(\theta)\right]\]

di mana $\ell(\theta)$ adalah log-likelihood.

Fisher information matrix menentukan: - Asymptotic variance dari MLE: $\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} \mathcal{N}(0, \mathcal{I}(\theta_0)^{-1})$ - Cramer-Rao lower bound untuk unbiased estimators

Jadi Hessian dari log-likelihood langsung terhubung ke efisiensi estimator!

6 Chain Rule untuk Multivariate Functions

Jika $z = f(x_1, \ldots, x_n)$ dan masing-masing $x_i = g_i(t)$: \[\frac{dz}{dt} = \sum_{i=1}^n \frac{\partial f}{\partial x_i} \frac{dx_i}{dt} = (\nabla f)' \frac{d\mathbf{x}}{dt}\]

Untuk komposisi $h(\mathbf{x}) = f(g(\mathbf{x}))$ di mana $g: \mathbb{R}^n \to \mathbb{R}^m$ dan $f: \mathbb{R}^m \to \mathbb{R}^k$: \[J_h(\mathbf{x}) = J_f(g(\mathbf{x})) \cdot J_g(\mathbf{x})\]

Ini adalah chain rule dalam bentuk matrix multiplication — inilah yang membuat backpropagation efisien.

7 Key Takeaways

7.1 Poin Utama

Partial derivatives: turunan terhadap satu variabel, variabel lain konstan
Gradient $\nabla f$: vektor semua partial derivatives — menunjuk ke steepest ascent
Directional derivative: laju perubahan di arah tertentu — maksimal searah gradient
Jacobian: matrix of partial derivatives untuk fungsi vector-valued ($\mathbf{f}: \mathbb{R}^n \to \mathbb{R}^m$)
Hessian: matrix of second-order partials — selalu symmetric; menentukan convexity
Hessian positive definite ↔︎ strictly convex ↔︎ unique minimum
Fisher information = expected negative Hessian of log-likelihood
Multivariate chain rule: $J_{f \circ g} = J_f \cdot J_g$ — basis backpropagation

Sebelumnya: ← Integrals | Selanjutnya: Optimization →

--- title: "Multivariate Calculus" subtitle: "Partial Derivatives, Gradient, Jacobian, dan Hessian" description: "Kalkulus fungsi banyak variabel: partial derivatives, gradient vector, Jacobian matrix, Hessian matrix, dan directional derivatives." categories: [calculus, multivariate, gradient, hessian] --- ::: {.callout-note title="Why This Matters for Your Work"} Hampir semua model statistik dan ML bekerja di ruang berdimensi tinggi — parameter model $\theta \in \mathbb{R}^p$ bisa punya ribuan atau jutaan komponen. Multivariate calculus memberi kita tools untuk "berpikir kalkulus" di ruang ini. Contoh konkret: - **OLS**: $\beta \in \mathbb{R}^p$ — gradient dari loss adalah vektor $p$-dimensional - **MLE**: $\theta \in \mathbb{R}^p$ — Hessian dari log-likelihood memberikan Fisher information matrix - **Neural network**: parameter model bisa $\theta \in \mathbb{R}^{10^6}$ — gradient descent di ruang ini - **Delta method**: aproksimasi distribusi $g(\hat{\theta})$ menggunakan Jacobian dari $g$ ::: ## Partial Derivatives: Review Untuk $f: \mathbb{R}^n \to \mathbb{R}$, partial derivative ke-$i$ adalah: $$\frac{\partial f}{\partial x_i}(\mathbf{x}) = \lim_{h \to 0} \frac{f(x_1, \ldots, x_i + h, \ldots, x_n) - f(\mathbf{x})}{h}$$ Kita mendiferensiasikan terhadap $x_i$ sambil menganggap semua variabel lain konstan. ### Second-Order Partial Derivatives $$\frac{\partial^2 f}{\partial x_i^2} = \frac{\partial}{\partial x_i}\left(\frac{\partial f}{\partial x_i}\right)$$ $$\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial}{\partial x_i}\left(\frac{\partial f}{\partial x_j}\right) \quad \text{(mixed partial)}$$ ::: {.callout-important title="Clairaut's Theorem (Symmetry of Mixed Partials)"} Jika mixed partial derivatives continuous, maka: $$\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i}$$ Order of differentiation tidak berpengaruh (di bawah kondisi regularity). Ini sangat memudahkan komputasi. ::: ## Gradient Vector ::: {.callout-important title="Definisi: Gradient Vector"} Untuk $f: \mathbb{R}^n \to \mathbb{R}$, gradient di $\mathbf{x}$ adalah: $$\nabla f(\mathbf{x}) = \begin{pmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{pmatrix} \in \mathbb{R}^n$$ **Properti geometri:** - $\nabla f(\mathbf{x})$ menunjuk ke arah *steepest ascent* (kenaikan tercuram) - $-\nabla f(\mathbf{x})$ menunjuk ke arah *steepest descent* - $\nabla f(\mathbf{x})$ tegak lurus dengan level curves (contour lines) dari $f$ ::: ## Directional Derivative Laju perubahan $f$ di arah vektor satuan $\mathbf{u}$: $$D_{\mathbf{u}} f(\mathbf{x}) = \nabla f(\mathbf{x}) \cdot \mathbf{u} = \|\nabla f(\mathbf{x})\| \cos\theta$$ di mana $\theta$ adalah sudut antara $\nabla f$ dan $\mathbf{u}$. Directional derivative maksimal ($= \|\nabla f\|$) ketika $\mathbf{u}$ sejajar dengan $\nabla f$ — konfirmasi bahwa gradient menunjuk ke steepest ascent. ## Jacobian Matrix ::: {.callout-important title="Definisi: Jacobian Matrix"} Untuk $\mathbf{f}: \mathbb{R}^n \to \mathbb{R}^m$ (fungsi vector-valued), Jacobian adalah matrix $m \times n$: $$J_{\mathbf{f}}(\mathbf{x}) = \begin{pmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n} \end{pmatrix}$$ Baris ke-$i$ adalah gradient dari komponen ke-$i$ dari $\mathbf{f}$. **Kasus khusus:** Jika $m = 1$ (scalar-valued), Jacobian adalah gradient (row vector). ::: ::: {.callout-tip title="Worked Example: Jacobian" collapse="true"} **Problem:** Hitung Jacobian dari $\mathbf{f}(x, y) = \begin{pmatrix} x^2 + y \\ xy \\ e^x \end{pmatrix}$ **Solution:** $\mathbf{f}: \mathbb{R}^2 \to \mathbb{R}^3$, jadi Jacobian adalah matrix $3 \times 2$. $$J_{\mathbf{f}} = \begin{pmatrix} \frac{\partial f_1}{\partial x} & \frac{\partial f_1}{\partial y} \\ \frac{\partial f_2}{\partial x} & \frac{\partial f_2}{\partial y} \\ \frac{\partial f_3}{\partial x} & \frac{\partial f_3}{\partial y} \end{pmatrix} = \begin{pmatrix} 2x & 1 \\ y & x \\ e^x & 0 \end{pmatrix}$$ **Mengapa penting?** Jacobian adalah "best linear approximation" dari $\mathbf{f}$ di sekitar titik $\mathbf{x}$ — analog dengan derivative untuk fungsi univariate. ::: ## Hessian Matrix ::: {.callout-important title="Definisi: Hessian Matrix"} Untuk $f: \mathbb{R}^n \to \mathbb{R}$, Hessian adalah matrix $n \times n$ dari second-order partial derivatives: $$H_f(\mathbf{x}) = \nabla^2 f(\mathbf{x}) = \begin{pmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{pmatrix}$$ Karena Clairaut's theorem, Hessian adalah **symmetric matrix**: $H = H'$. ::: ### Hessian dan Convexity - **$H_f(\mathbf{x})$ positive definite** ($\mathbf{v}'H\mathbf{v} > 0$ untuk semua $\mathbf{v} \neq 0$): $f$ strictly convex di $\mathbf{x}$ - **$H_f(\mathbf{x})$ positive semidefinite**: $f$ convex di $\mathbf{x}$ - **$H_f(\mathbf{x})$ negative definite**: $f$ strictly concave di $\mathbf{x}$ - **$H_f(\mathbf{x})$ indefinite**: saddle point ::: {.callout-tip title="Worked Example: Hessian of OLS Loss" collapse="true"} **Problem:** Hitung Hessian dari $L(\beta) = \|y - X\beta\|^2 = (y - X\beta)'(y - X\beta)$ **Solution:** Dari sebelumnya, kita tahu: $\nabla_\beta L(\beta) = -2X'y + 2X'X\beta$ Hessian adalah Jacobian dari gradient: $$H_L(\beta) = \frac{\partial}{\partial \beta'}\left(-2X'y + 2X'X\beta\right) = 2X'X$$ **Interpretasi:** - Hessian $= 2X'X$ adalah constant (tidak bergantung pada $\beta$) - Jika $X$ punya full column rank, maka $X'X$ adalah positive definite → $L$ strictly convex → unique global minimum! Ini adalah alasan teoritis mengapa OLS punya unique solution (ketika $X'X$ invertible). ::: ::: {.callout-caution title="Connection: Fisher Information Matrix"} Dalam MLE, **Fisher information matrix** adalah: $$\mathcal{I}(\theta) = -\mathbb{E}\left[H_{\ell}(\theta)\right] = -\mathbb{E}\left[\nabla^2_\theta \ell(\theta)\right]$$ di mana $\ell(\theta)$ adalah log-likelihood. Fisher information matrix menentukan: - Asymptotic variance dari MLE: $\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} \mathcal{N}(0, \mathcal{I}(\theta_0)^{-1})$ - Cramer-Rao lower bound untuk unbiased estimators Jadi Hessian dari log-likelihood langsung terhubung ke efisiensi estimator! ::: ## Chain Rule untuk Multivariate Functions Jika $z = f(x_1, \ldots, x_n)$ dan masing-masing $x_i = g_i(t)$: $$\frac{dz}{dt} = \sum_{i=1}^n \frac{\partial f}{\partial x_i} \frac{dx_i}{dt} = (\nabla f)' \frac{d\mathbf{x}}{dt}$$ Untuk komposisi $h(\mathbf{x}) = f(g(\mathbf{x}))$ di mana $g: \mathbb{R}^n \to \mathbb{R}^m$ dan $f: \mathbb{R}^m \to \mathbb{R}^k$: $$J_h(\mathbf{x}) = J_f(g(\mathbf{x})) \cdot J_g(\mathbf{x})$$ Ini adalah chain rule dalam bentuk matrix multiplication — inilah yang membuat backpropagation efisien. ## Key Takeaways ::: {.key-takeaways} ### Poin Utama - Partial derivatives: turunan terhadap satu variabel, variabel lain konstan - Gradient $\nabla f$: vektor semua partial derivatives — menunjuk ke steepest ascent - Directional derivative: laju perubahan di arah tertentu — maksimal searah gradient - Jacobian: matrix of partial derivatives untuk fungsi vector-valued ($\mathbf{f}: \mathbb{R}^n \to \mathbb{R}^m$) - Hessian: matrix of second-order partials — selalu symmetric; menentukan convexity - Hessian positive definite ↔ strictly convex ↔ unique minimum - Fisher information = expected negative Hessian of log-likelihood - Multivariate chain rule: $J_{f \circ g} = J_f \cdot J_g$ — basis backpropagation ::: **Sebelumnya:** [← Integrals](03-integrals.qmd) | **Selanjutnya:** [Optimization →](05-optimization.qmd)