Derivatives
Laju Perubahan, Gradient, dan Turunan
Turunan (derivative) adalah konsep paling sentral dalam ML dan econometrics modern. Secara harfiah, setiap algoritma learning berbasis gradient — dari OLS hingga deep learning — bergantung pada kemampuan menghitung turunan.
Contoh spesifik: - Gradient descent: bergerak berlawanan arah dengan gradient \(\nabla_\theta \mathcal{L}(\theta)\) di setiap iterasi - OLS normal equations: \(\frac{\partial}{\partial \beta} \|y - X\beta\|^2 = 0\) memberikan \(\hat{\beta} = (X'X)^{-1}X'y\) - MLE: \(\frac{\partial}{\partial \theta} \ell(\theta) = 0\) — score equation - Backpropagation: chain rule diterapkan berulang kali melalui komposisi fungsi berlapis
1 Definisi: Derivative
Turunan fungsi \(f\) di titik \(x\) adalah: \[f'(x) = \lim_{h \to 0} \frac{f(x + h) - f(x)}{h}\]
jika limit ini ada. Jika ada, \(f\) disebut differentiable di \(x\).
Interpretasi geometris: \(f'(x)\) adalah slope dari garis singgung (tangent line) ke grafik \(f\) di titik \((x, f(x))\).
Interpretasi fisik: \(f'(x)\) adalah instantaneous rate of change dari \(f\) saat \(x\).
Notasi yang sering dipakai: \[f'(x) = \frac{df}{dx} = \frac{d}{dx}f(x) = \dot{f}(x) \text{ (notasi Newton)}\]
2 Aturan Differensiasi Dasar
2.1 Power Rule
\[\frac{d}{dx} x^n = nx^{n-1}\]
2.2 Exponential dan Logarithm
\[\frac{d}{dx} e^x = e^x, \qquad \frac{d}{dx} e^{g(x)} = e^{g(x)} \cdot g'(x)\] \[\frac{d}{dx} \ln x = \frac{1}{x}, \qquad \frac{d}{dx} \ln g(x) = \frac{g'(x)}{g(x)}\]
2.3 Trigonometric
\[\frac{d}{dx} \sin x = \cos x, \qquad \frac{d}{dx} \cos x = -\sin x\]
3 Aturan Kombinasi
3.1 Product Rule
\[\frac{d}{dx}[f(x) g(x)] = f'(x) g(x) + f(x) g'(x)\]
3.2 Quotient Rule
\[\frac{d}{dx}\left[\frac{f(x)}{g(x)}\right] = \frac{f'(x) g(x) - f(x) g'(x)}{[g(x)]^2}\]
3.3 Chain Rule
Jika \(h(x) = f(g(x))\), maka: \[h'(x) = f'(g(x)) \cdot g'(x)\]
Atau dalam notasi Leibniz, jika \(y = f(u)\) dan \(u = g(x)\): \[\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}\]
Chain rule bisa dirantai untuk komposisi yang lebih panjang: \[\frac{d}{dx} f(g(h(x))) = f'(g(h(x))) \cdot g'(h(x)) \cdot h'(x)\]
Problem: Hitung \(\frac{d}{dx} \ln(\sigma(x))\) di mana \(\sigma(x) = \frac{1}{1 + e^{-x}}\) adalah sigmoid function.
Solution menggunakan chain rule:
Step 1: Identifikasi komposisi — \(f(u) = \ln(u)\) dan \(u = \sigma(x)\).
Step 2: \(f'(u) = \frac{1}{u}\), jadi \(\frac{d}{dx} \ln(\sigma(x)) = \frac{1}{\sigma(x)} \cdot \sigma'(x)\)
Step 3: Hitung \(\sigma'(x)\). Gunakan quotient rule: \[\sigma(x) = (1 + e^{-x})^{-1}\] \[\sigma'(x) = -(1 + e^{-x})^{-2} \cdot (-e^{-x}) = \frac{e^{-x}}{(1 + e^{-x})^2}\]
Step 4: Gabungkan: \[\frac{d}{dx} \ln(\sigma(x)) = \frac{1}{\sigma(x)} \cdot \sigma'(x) = \frac{e^{-x}}{1 + e^{-x}} = 1 - \sigma(x)\]
Hasil akhir: \(\frac{d}{dx} \ln(\sigma(x)) = 1 - \sigma(x)\)
Ini muncul dalam log-likelihood untuk logistic regression! Kesederhanaannya membuat gradient logistic regression sangat bersih.
4 Higher-Order Derivatives
\[f''(x) = \frac{d^2f}{dx^2} = \frac{d}{dx}\left[\frac{df}{dx}\right]\]
- \(f'(x) > 0\): \(f\) increasing
- \(f'(x) = 0\): critical point (possible max/min)
- \(f''(x) > 0\): \(f\) convex (bends upward)
- \(f''(x) < 0\): \(f\) concave (bends downward)
5 Partial Derivatives
Untuk fungsi multivariabel \(f(x_1, x_2, \ldots, x_n)\):
Partial derivative dari \(f\) terhadap \(x_i\) adalah: \[\frac{\partial f}{\partial x_i} = \lim_{h \to 0} \frac{f(x_1, \ldots, x_i + h, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}\]
Artinya: turunan \(f\) terhadap \(x_i\), dengan menganggap semua variabel lain konstan.
Contoh: \(f(x, y) = x^2 y + 3xy^2\)
\[\frac{\partial f}{\partial x} = 2xy + 3y^2 \quad \text{(anggap } y \text{ konstan)}\] \[\frac{\partial f}{\partial y} = x^2 + 6xy \quad \text{(anggap } x \text{ konstan)}\]
6 Gradient Vector
Untuk \(f: \mathbb{R}^n \to \mathbb{R}\), gradient adalah vektor dari semua partial derivatives:
\[\nabla f(\mathbf{x}) = \begin{pmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{pmatrix}\]
Properti kunci: \(\nabla f(\mathbf{x})\) menunjuk ke arah steepest ascent dari \(f\) di titik \(\mathbf{x}\).
Problem: Hitung gradient dari OLS loss function \(L(\beta) = \|y - X\beta\|^2 = (y - X\beta)'(y - X\beta)\).
Solution:
Expand: \[L(\beta) = y'y - 2\beta'X'y + \beta'X'X\beta\]
Ambil gradient terhadap \(\beta\) menggunakan matrix calculus rules: \[\nabla_\beta L(\beta) = -2X'y + 2X'X\beta\]
Set ke nol (FOC): \[-2X'y + 2X'X\hat{\beta} = 0\] \[X'X\hat{\beta} = X'y\] \[\hat{\beta} = (X'X)^{-1}X'y\]
Ini adalah OLS estimator — diturunkan hanya dengan mengambil gradient dan set ke nol!
Gradient descent update rule: \[\theta_{t+1} = \theta_t - \alpha \nabla_\theta \mathcal{L}(\theta_t)\]
di mana \(\alpha > 0\) adalah learning rate. Kita bergerak berlawanan arah gradient (karena gradient menunjuk ke arah ascent, kita ingin descent untuk minimisasi).
Variasi: - SGD (Stochastic GD): gunakan gradient dari satu sample/mini-batch - Adam, RMSprop: adaptive learning rates berdasarkan history gradients - Semua metode ini tetap bergantung pada kemampuan menghitung \(\nabla_\theta \mathcal{L}\)
7 Implicit Differentiation
Kadang \(y\) didefinisikan secara implicit oleh persamaan \(F(x, y) = 0\). Maka: \[\frac{dy}{dx} = -\frac{\partial F / \partial x}{\partial F / \partial y}\]
8 Key Takeaways
8.1 Poin Utama
- Derivative: limit dari difference quotient — slope of tangent line
- Chain rule: turunan komposisi — \(\frac{d}{dx}f(g(x)) = f'(g(x)) \cdot g'(x)\) — kunci backpropagation
- Product rule: \(\frac{d}{dx}[fg] = f'g + fg'\)
- Partial derivative: turunan terhadap satu variabel, variabel lain dianggap konstan
- Gradient \(\nabla f\): vektor semua partial derivatives — menunjuk ke steepest ascent
- Gradient descent: bergerak berlawanan arah gradient untuk minimisasi
- OLS: diturunkan dengan mengambil \(\nabla_\beta \|y - X\beta\|^2 = 0\)
Sebelumnya: ← Limits & Continuity | Selanjutnya: Integrals →