Derivatives

Laju Perubahan, Gradient, dan Turunan

calculus
derivatives
differentiation
Definisi turunan, aturan differensiasi, chain rule, product rule, partial derivatives, dan gradient vector.
NoteWhy This Matters for Your Work

Turunan (derivative) adalah konsep paling sentral dalam ML dan econometrics modern. Secara harfiah, setiap algoritma learning berbasis gradient — dari OLS hingga deep learning — bergantung pada kemampuan menghitung turunan.

Contoh spesifik: - Gradient descent: bergerak berlawanan arah dengan gradient \(\nabla_\theta \mathcal{L}(\theta)\) di setiap iterasi - OLS normal equations: \(\frac{\partial}{\partial \beta} \|y - X\beta\|^2 = 0\) memberikan \(\hat{\beta} = (X'X)^{-1}X'y\) - MLE: \(\frac{\partial}{\partial \theta} \ell(\theta) = 0\) — score equation - Backpropagation: chain rule diterapkan berulang kali melalui komposisi fungsi berlapis

1 Definisi: Derivative

ImportantDefinisi: Derivative (Turunan)

Turunan fungsi \(f\) di titik \(x\) adalah: \[f'(x) = \lim_{h \to 0} \frac{f(x + h) - f(x)}{h}\]

jika limit ini ada. Jika ada, \(f\) disebut differentiable di \(x\).

Interpretasi geometris: \(f'(x)\) adalah slope dari garis singgung (tangent line) ke grafik \(f\) di titik \((x, f(x))\).

Interpretasi fisik: \(f'(x)\) adalah instantaneous rate of change dari \(f\) saat \(x\).

Notasi yang sering dipakai: \[f'(x) = \frac{df}{dx} = \frac{d}{dx}f(x) = \dot{f}(x) \text{ (notasi Newton)}\]

2 Aturan Differensiasi Dasar

2.1 Power Rule

\[\frac{d}{dx} x^n = nx^{n-1}\]

2.2 Exponential dan Logarithm

\[\frac{d}{dx} e^x = e^x, \qquad \frac{d}{dx} e^{g(x)} = e^{g(x)} \cdot g'(x)\] \[\frac{d}{dx} \ln x = \frac{1}{x}, \qquad \frac{d}{dx} \ln g(x) = \frac{g'(x)}{g(x)}\]

2.3 Trigonometric

\[\frac{d}{dx} \sin x = \cos x, \qquad \frac{d}{dx} \cos x = -\sin x\]

3 Aturan Kombinasi

3.1 Product Rule

\[\frac{d}{dx}[f(x) g(x)] = f'(x) g(x) + f(x) g'(x)\]

3.2 Quotient Rule

\[\frac{d}{dx}\left[\frac{f(x)}{g(x)}\right] = \frac{f'(x) g(x) - f(x) g'(x)}{[g(x)]^2}\]

3.3 Chain Rule

ImportantChain Rule — Aturan Paling Penting

Jika \(h(x) = f(g(x))\), maka: \[h'(x) = f'(g(x)) \cdot g'(x)\]

Atau dalam notasi Leibniz, jika \(y = f(u)\) dan \(u = g(x)\): \[\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}\]

Chain rule bisa dirantai untuk komposisi yang lebih panjang: \[\frac{d}{dx} f(g(h(x))) = f'(g(h(x))) \cdot g'(h(x)) \cdot h'(x)\]

Problem: Hitung \(\frac{d}{dx} \ln(\sigma(x))\) di mana \(\sigma(x) = \frac{1}{1 + e^{-x}}\) adalah sigmoid function.

Solution menggunakan chain rule:

Step 1: Identifikasi komposisi — \(f(u) = \ln(u)\) dan \(u = \sigma(x)\).

Step 2: \(f'(u) = \frac{1}{u}\), jadi \(\frac{d}{dx} \ln(\sigma(x)) = \frac{1}{\sigma(x)} \cdot \sigma'(x)\)

Step 3: Hitung \(\sigma'(x)\). Gunakan quotient rule: \[\sigma(x) = (1 + e^{-x})^{-1}\] \[\sigma'(x) = -(1 + e^{-x})^{-2} \cdot (-e^{-x}) = \frac{e^{-x}}{(1 + e^{-x})^2}\]

Step 4: Gabungkan: \[\frac{d}{dx} \ln(\sigma(x)) = \frac{1}{\sigma(x)} \cdot \sigma'(x) = \frac{e^{-x}}{1 + e^{-x}} = 1 - \sigma(x)\]

Hasil akhir: \(\frac{d}{dx} \ln(\sigma(x)) = 1 - \sigma(x)\)

Ini muncul dalam log-likelihood untuk logistic regression! Kesederhanaannya membuat gradient logistic regression sangat bersih.

4 Higher-Order Derivatives

\[f''(x) = \frac{d^2f}{dx^2} = \frac{d}{dx}\left[\frac{df}{dx}\right]\]

  • \(f'(x) > 0\): \(f\) increasing
  • \(f'(x) = 0\): critical point (possible max/min)
  • \(f''(x) > 0\): \(f\) convex (bends upward)
  • \(f''(x) < 0\): \(f\) concave (bends downward)

5 Partial Derivatives

Untuk fungsi multivariabel \(f(x_1, x_2, \ldots, x_n)\):

ImportantDefinisi: Partial Derivative

Partial derivative dari \(f\) terhadap \(x_i\) adalah: \[\frac{\partial f}{\partial x_i} = \lim_{h \to 0} \frac{f(x_1, \ldots, x_i + h, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}\]

Artinya: turunan \(f\) terhadap \(x_i\), dengan menganggap semua variabel lain konstan.

Contoh: \(f(x, y) = x^2 y + 3xy^2\)

\[\frac{\partial f}{\partial x} = 2xy + 3y^2 \quad \text{(anggap } y \text{ konstan)}\] \[\frac{\partial f}{\partial y} = x^2 + 6xy \quad \text{(anggap } x \text{ konstan)}\]

6 Gradient Vector

ImportantDefinisi: Gradient

Untuk \(f: \mathbb{R}^n \to \mathbb{R}\), gradient adalah vektor dari semua partial derivatives:

\[\nabla f(\mathbf{x}) = \begin{pmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{pmatrix}\]

Properti kunci: \(\nabla f(\mathbf{x})\) menunjuk ke arah steepest ascent dari \(f\) di titik \(\mathbf{x}\).

Problem: Hitung gradient dari OLS loss function \(L(\beta) = \|y - X\beta\|^2 = (y - X\beta)'(y - X\beta)\).

Solution:

Expand: \[L(\beta) = y'y - 2\beta'X'y + \beta'X'X\beta\]

Ambil gradient terhadap \(\beta\) menggunakan matrix calculus rules: \[\nabla_\beta L(\beta) = -2X'y + 2X'X\beta\]

Set ke nol (FOC): \[-2X'y + 2X'X\hat{\beta} = 0\] \[X'X\hat{\beta} = X'y\] \[\hat{\beta} = (X'X)^{-1}X'y\]

Ini adalah OLS estimator — diturunkan hanya dengan mengambil gradient dan set ke nol!

CautionConnection: Gradient Descent

Gradient descent update rule: \[\theta_{t+1} = \theta_t - \alpha \nabla_\theta \mathcal{L}(\theta_t)\]

di mana \(\alpha > 0\) adalah learning rate. Kita bergerak berlawanan arah gradient (karena gradient menunjuk ke arah ascent, kita ingin descent untuk minimisasi).

Variasi: - SGD (Stochastic GD): gunakan gradient dari satu sample/mini-batch - Adam, RMSprop: adaptive learning rates berdasarkan history gradients - Semua metode ini tetap bergantung pada kemampuan menghitung \(\nabla_\theta \mathcal{L}\)

7 Implicit Differentiation

Kadang \(y\) didefinisikan secara implicit oleh persamaan \(F(x, y) = 0\). Maka: \[\frac{dy}{dx} = -\frac{\partial F / \partial x}{\partial F / \partial y}\]

8 Key Takeaways

8.1 Poin Utama

  • Derivative: limit dari difference quotient — slope of tangent line
  • Chain rule: turunan komposisi — \(\frac{d}{dx}f(g(x)) = f'(g(x)) \cdot g'(x)\) — kunci backpropagation
  • Product rule: \(\frac{d}{dx}[fg] = f'g + fg'\)
  • Partial derivative: turunan terhadap satu variabel, variabel lain dianggap konstan
  • Gradient \(\nabla f\): vektor semua partial derivatives — menunjuk ke steepest ascent
  • Gradient descent: bergerak berlawanan arah gradient untuk minimisasi
  • OLS: diturunkan dengan mengambil \(\nabla_\beta \|y - X\beta\|^2 = 0\)

Sebelumnya: ← Limits & Continuity | Selanjutnya: Integrals →