Derivatives

Laju Perubahan, Gradient, dan Turunan

calculus

derivatives

differentiation

Definisi turunan, aturan differensiasi, chain rule, product rule, partial derivatives, dan gradient vector.

Why This Matters for Your Work

Turunan (derivative) adalah konsep paling sentral dalam ML dan econometrics modern. Secara harfiah, setiap algoritma learning berbasis gradient — dari OLS hingga deep learning — bergantung pada kemampuan menghitung turunan.

Contoh spesifik: - Gradient descent: bergerak berlawanan arah dengan gradient $\nabla_\theta \mathcal{L}(\theta)$ di setiap iterasi - OLS normal equations: $\frac{\partial}{\partial \beta} \|y - X\beta\|^2 = 0$ memberikan $\hat{\beta} = (X'X)^{-1}X'y$ - MLE: $\frac{\partial}{\partial \theta} \ell(\theta) = 0$ — score equation - Backpropagation: chain rule diterapkan berulang kali melalui komposisi fungsi berlapis

1 Definisi: Derivative

Definisi: Derivative (Turunan)

Turunan fungsi $f$ di titik $x$ adalah: \[f'(x) = \lim_{h \to 0} \frac{f(x + h) - f(x)}{h}\]

jika limit ini ada. Jika ada, $f$ disebut differentiable di $x$.

Interpretasi geometris: $f'(x)$ adalah slope dari garis singgung (tangent line) ke grafik $f$ di titik $(x, f(x))$.

Interpretasi fisik: $f'(x)$ adalah instantaneous rate of change dari $f$ saat $x$.

Notasi yang sering dipakai: \[f'(x) = \frac{df}{dx} = \frac{d}{dx}f(x) = \dot{f}(x) \text{ (notasi Newton)}\]

2 Aturan Differensiasi Dasar

2.1 Power Rule

\[\frac{d}{dx} x^n = nx^{n-1}\]

2.2 Exponential dan Logarithm

\[\frac{d}{dx} e^x = e^x, \qquad \frac{d}{dx} e^{g(x)} = e^{g(x)} \cdot g'(x)\] \[\frac{d}{dx} \ln x = \frac{1}{x}, \qquad \frac{d}{dx} \ln g(x) = \frac{g'(x)}{g(x)}\]

2.3 Trigonometric

\[\frac{d}{dx} \sin x = \cos x, \qquad \frac{d}{dx} \cos x = -\sin x\]

3 Aturan Kombinasi

3.1 Product Rule

\[\frac{d}{dx}[f(x) g(x)] = f'(x) g(x) + f(x) g'(x)\]

3.2 Quotient Rule

\[\frac{d}{dx}\left[\frac{f(x)}{g(x)}\right] = \frac{f'(x) g(x) - f(x) g'(x)}{[g(x)]^2}\]

3.3 Chain Rule

Chain Rule — Aturan Paling Penting

Jika $h(x) = f(g(x))$, maka: \[h'(x) = f'(g(x)) \cdot g'(x)\]

Atau dalam notasi Leibniz, jika $y = f(u)$ dan $u = g(x)$: \[\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}\]

Chain rule bisa dirantai untuk komposisi yang lebih panjang: \[\frac{d}{dx} f(g(h(x))) = f'(g(h(x))) \cdot g'(h(x)) \cdot h'(x)\]

Worked Example: Chain Rule

Problem: Hitung $\frac{d}{dx} \ln(\sigma(x))$ di mana $\sigma(x) = \frac{1}{1 + e^{-x}}$ adalah sigmoid function.

Solution menggunakan chain rule:

Step 1: Identifikasi komposisi — $f(u) = \ln(u)$ dan $u = \sigma(x)$.

Step 2: $f'(u) = \frac{1}{u}$, jadi $\frac{d}{dx} \ln(\sigma(x)) = \frac{1}{\sigma(x)} \cdot \sigma'(x)$

Step 3: Hitung $\sigma'(x)$. Gunakan quotient rule: \[\sigma(x) = (1 + e^{-x})^{-1}\] \[\sigma'(x) = -(1 + e^{-x})^{-2} \cdot (-e^{-x}) = \frac{e^{-x}}{(1 + e^{-x})^2}\]

Step 4: Gabungkan: \[\frac{d}{dx} \ln(\sigma(x)) = \frac{1}{\sigma(x)} \cdot \sigma'(x) = \frac{e^{-x}}{1 + e^{-x}} = 1 - \sigma(x)\]

Hasil akhir: $\frac{d}{dx} \ln(\sigma(x)) = 1 - \sigma(x)$

Ini muncul dalam log-likelihood untuk logistic regression! Kesederhanaannya membuat gradient logistic regression sangat bersih.

4 Higher-Order Derivatives

\[f''(x) = \frac{d^2f}{dx^2} = \frac{d}{dx}\left[\frac{df}{dx}\right]\]

$f'(x) > 0$: $f$ increasing
$f'(x) = 0$: critical point (possible max/min)
$f''(x) > 0$: $f$ convex (bends upward)
$f''(x) < 0$: $f$ concave (bends downward)

5 Partial Derivatives

Untuk fungsi multivariabel $f(x_1, x_2, \ldots, x_n)$:

Definisi: Partial Derivative

Partial derivative dari $f$ terhadap $x_i$ adalah: \[\frac{\partial f}{\partial x_i} = \lim_{h \to 0} \frac{f(x_1, \ldots, x_i + h, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}\]

Artinya: turunan $f$ terhadap $x_i$, dengan menganggap semua variabel lain konstan.

Contoh: $f(x, y) = x^2 y + 3xy^2$

\[\frac{\partial f}{\partial x} = 2xy + 3y^2 \quad \text{(anggap } y \text{ konstan)}\] \[\frac{\partial f}{\partial y} = x^2 + 6xy \quad \text{(anggap } x \text{ konstan)}\]

6 Gradient Vector

Definisi: Gradient

Untuk $f: \mathbb{R}^n \to \mathbb{R}$, gradient adalah vektor dari semua partial derivatives:

\[\nabla f(\mathbf{x}) = \begin{pmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{pmatrix}\]

Properti kunci: $\nabla f(\mathbf{x})$ menunjuk ke arah steepest ascent dari $f$ di titik $\mathbf{x}$.

Worked Example: Gradient of OLS Loss

Problem: Hitung gradient dari OLS loss function $L(\beta) = \|y - X\beta\|^2 = (y - X\beta)'(y - X\beta)$.

Solution:

Expand: \[L(\beta) = y'y - 2\beta'X'y + \beta'X'X\beta\]

Ambil gradient terhadap $\beta$ menggunakan matrix calculus rules: \[\nabla_\beta L(\beta) = -2X'y + 2X'X\beta\]

Set ke nol (FOC): \[-2X'y + 2X'X\hat{\beta} = 0\] \[X'X\hat{\beta} = X'y\] \[\hat{\beta} = (X'X)^{-1}X'y\]

Ini adalah OLS estimator — diturunkan hanya dengan mengambil gradient dan set ke nol!

Connection: Gradient Descent

Gradient descent update rule: \[\theta_{t+1} = \theta_t - \alpha \nabla_\theta \mathcal{L}(\theta_t)\]

di mana $\alpha > 0$ adalah learning rate. Kita bergerak berlawanan arah gradient (karena gradient menunjuk ke arah ascent, kita ingin descent untuk minimisasi).

Variasi: - SGD (Stochastic GD): gunakan gradient dari satu sample/mini-batch - Adam, RMSprop: adaptive learning rates berdasarkan history gradients - Semua metode ini tetap bergantung pada kemampuan menghitung $\nabla_\theta \mathcal{L}$

7 Implicit Differentiation

Kadang $y$ didefinisikan secara implicit oleh persamaan $F(x, y) = 0$. Maka: \[\frac{dy}{dx} = -\frac{\partial F / \partial x}{\partial F / \partial y}\]

8 Key Takeaways

8.1 Poin Utama

Derivative: limit dari difference quotient — slope of tangent line
Chain rule: turunan komposisi — $\frac{d}{dx}f(g(x)) = f'(g(x)) \cdot g'(x)$ — kunci backpropagation
Product rule: $\frac{d}{dx}[fg] = f'g + fg'$
Partial derivative: turunan terhadap satu variabel, variabel lain dianggap konstan
Gradient $\nabla f$: vektor semua partial derivatives — menunjuk ke steepest ascent
Gradient descent: bergerak berlawanan arah gradient untuk minimisasi
OLS: diturunkan dengan mengambil $\nabla_\beta \|y - X\beta\|^2 = 0$

Sebelumnya: ← Limits & Continuity | Selanjutnya: Integrals →

--- title: "Derivatives" subtitle: "Laju Perubahan, Gradient, dan Turunan" description: "Definisi turunan, aturan differensiasi, chain rule, product rule, partial derivatives, dan gradient vector." categories: [calculus, derivatives, differentiation] --- ::: {.callout-note title="Why This Matters for Your Work"} Turunan (derivative) adalah konsep paling sentral dalam ML dan econometrics modern. Secara harfiah, setiap algoritma learning berbasis gradient — dari OLS hingga deep learning — bergantung pada kemampuan menghitung turunan. Contoh spesifik: - **Gradient descent**: bergerak berlawanan arah dengan gradient $\nabla_\theta \mathcal{L}(\theta)$ di setiap iterasi - **OLS normal equations**: $\frac{\partial}{\partial \beta} \|y - X\beta\|^2 = 0$ memberikan $\hat{\beta} = (X'X)^{-1}X'y$ - **MLE**: $\frac{\partial}{\partial \theta} \ell(\theta) = 0$ — score equation - **Backpropagation**: chain rule diterapkan berulang kali melalui komposisi fungsi berlapis ::: ## Definisi: Derivative ::: {.callout-important title="Definisi: Derivative (Turunan)"} Turunan fungsi $f$ di titik $x$ adalah: $$f'(x) = \lim_{h \to 0} \frac{f(x + h) - f(x)}{h}$$ jika limit ini ada. Jika ada, $f$ disebut **differentiable** di $x$. **Interpretasi geometris**: $f'(x)$ adalah slope dari garis singgung (tangent line) ke grafik $f$ di titik $(x, f(x))$. **Interpretasi fisik**: $f'(x)$ adalah instantaneous rate of change dari $f$ saat $x$. ::: **Notasi yang sering dipakai:** $$f'(x) = \frac{df}{dx} = \frac{d}{dx}f(x) = \dot{f}(x) \text{ (notasi Newton)}$$ ## Aturan Differensiasi Dasar ### Power Rule $$\frac{d}{dx} x^n = nx^{n-1}$$ ### Exponential dan Logarithm $$\frac{d}{dx} e^x = e^x, \qquad \frac{d}{dx} e^{g(x)} = e^{g(x)} \cdot g'(x)$$ $$\frac{d}{dx} \ln x = \frac{1}{x}, \qquad \frac{d}{dx} \ln g(x) = \frac{g'(x)}{g(x)}$$ ### Trigonometric $$\frac{d}{dx} \sin x = \cos x, \qquad \frac{d}{dx} \cos x = -\sin x$$ ## Aturan Kombinasi ### Product Rule $$\frac{d}{dx}[f(x) g(x)] = f'(x) g(x) + f(x) g'(x)$$ ### Quotient Rule $$\frac{d}{dx}\left[\frac{f(x)}{g(x)}\right] = \frac{f'(x) g(x) - f(x) g'(x)}{[g(x)]^2}$$ ### Chain Rule ::: {.callout-important title="Chain Rule — Aturan Paling Penting"} Jika $h(x) = f(g(x))$, maka: $$h'(x) = f'(g(x)) \cdot g'(x)$$ Atau dalam notasi Leibniz, jika $y = f(u)$ dan $u = g(x)$: $$\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$$ Chain rule bisa dirantai untuk komposisi yang lebih panjang: $$\frac{d}{dx} f(g(h(x))) = f'(g(h(x))) \cdot g'(h(x)) \cdot h'(x)$$ ::: ::: {.callout-tip title="Worked Example: Chain Rule" collapse="true"} **Problem:** Hitung $\frac{d}{dx} \ln(\sigma(x))$ di mana $\sigma(x) = \frac{1}{1 + e^{-x}}$ adalah sigmoid function. **Solution menggunakan chain rule:** Step 1: Identifikasi komposisi — $f(u) = \ln(u)$ dan $u = \sigma(x)$. Step 2: $f'(u) = \frac{1}{u}$, jadi $\frac{d}{dx} \ln(\sigma(x)) = \frac{1}{\sigma(x)} \cdot \sigma'(x)$ Step 3: Hitung $\sigma'(x)$. Gunakan quotient rule: $$\sigma(x) = (1 + e^{-x})^{-1}$$ $$\sigma'(x) = -(1 + e^{-x})^{-2} \cdot (-e^{-x}) = \frac{e^{-x}}{(1 + e^{-x})^2}$$ Step 4: Gabungkan: $$\frac{d}{dx} \ln(\sigma(x)) = \frac{1}{\sigma(x)} \cdot \sigma'(x) = \frac{e^{-x}}{1 + e^{-x}} = 1 - \sigma(x)$$ **Hasil akhir:** $\frac{d}{dx} \ln(\sigma(x)) = 1 - \sigma(x)$ Ini muncul dalam log-likelihood untuk logistic regression! Kesederhanaannya membuat gradient logistic regression sangat bersih. ::: ## Higher-Order Derivatives $$f''(x) = \frac{d^2f}{dx^2} = \frac{d}{dx}\left[\frac{df}{dx}\right]$$ - $f'(x) > 0$: $f$ increasing - $f'(x) = 0$: critical point (possible max/min) - $f''(x) > 0$: $f$ convex (bends upward) - $f''(x) < 0$: $f$ concave (bends downward) ## Partial Derivatives Untuk fungsi multivariabel $f(x_1, x_2, \ldots, x_n)$: ::: {.callout-important title="Definisi: Partial Derivative"} Partial derivative dari $f$ terhadap $x_i$ adalah: $$\frac{\partial f}{\partial x_i} = \lim_{h \to 0} \frac{f(x_1, \ldots, x_i + h, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}$$ Artinya: turunan $f$ terhadap $x_i$, dengan menganggap semua variabel lain **konstan**. ::: **Contoh:** $f(x, y) = x^2 y + 3xy^2$ $$\frac{\partial f}{\partial x} = 2xy + 3y^2 \quad \text{(anggap } y \text{ konstan)}$$ $$\frac{\partial f}{\partial y} = x^2 + 6xy \quad \text{(anggap } x \text{ konstan)}$$ ## Gradient Vector ::: {.callout-important title="Definisi: Gradient"} Untuk $f: \mathbb{R}^n \to \mathbb{R}$, gradient adalah vektor dari semua partial derivatives: $$\nabla f(\mathbf{x}) = \begin{pmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{pmatrix}$$ **Properti kunci**: $\nabla f(\mathbf{x})$ menunjuk ke arah *steepest ascent* dari $f$ di titik $\mathbf{x}$. ::: ::: {.callout-tip title="Worked Example: Gradient of OLS Loss" collapse="true"} **Problem:** Hitung gradient dari OLS loss function $L(\beta) = \|y - X\beta\|^2 = (y - X\beta)'(y - X\beta)$. **Solution:** Expand: $$L(\beta) = y'y - 2\beta'X'y + \beta'X'X\beta$$ Ambil gradient terhadap $\beta$ menggunakan matrix calculus rules: $$\nabla_\beta L(\beta) = -2X'y + 2X'X\beta$$ Set ke nol (FOC): $$-2X'y + 2X'X\hat{\beta} = 0$$ $$X'X\hat{\beta} = X'y$$ $$\hat{\beta} = (X'X)^{-1}X'y$$ Ini adalah **OLS estimator** — diturunkan hanya dengan mengambil gradient dan set ke nol! ::: ::: {.callout-caution title="Connection: Gradient Descent"} Gradient descent update rule: $$\theta_{t+1} = \theta_t - \alpha \nabla_\theta \mathcal{L}(\theta_t)$$ di mana $\alpha > 0$ adalah learning rate. Kita bergerak *berlawanan* arah gradient (karena gradient menunjuk ke arah ascent, kita ingin descent untuk minimisasi). Variasi: - **SGD** (Stochastic GD): gunakan gradient dari satu sample/mini-batch - **Adam, RMSprop**: adaptive learning rates berdasarkan history gradients - Semua metode ini tetap bergantung pada kemampuan menghitung $\nabla_\theta \mathcal{L}$ ::: ## Implicit Differentiation Kadang $y$ didefinisikan secara implicit oleh persamaan $F(x, y) = 0$. Maka: $$\frac{dy}{dx} = -\frac{\partial F / \partial x}{\partial F / \partial y}$$ ## Key Takeaways ::: {.key-takeaways} ### Poin Utama - Derivative: limit dari difference quotient — slope of tangent line - Chain rule: turunan komposisi — $\frac{d}{dx}f(g(x)) = f'(g(x)) \cdot g'(x)$ — kunci backpropagation - Product rule: $\frac{d}{dx}[fg] = f'g + fg'$ - Partial derivative: turunan terhadap satu variabel, variabel lain dianggap konstan - Gradient $\nabla f$: vektor semua partial derivatives — menunjuk ke steepest ascent - Gradient descent: bergerak berlawanan arah gradient untuk minimisasi - OLS: diturunkan dengan mengambil $\nabla_\beta \|y - X\beta\|^2 = 0$ ::: **Sebelumnya:** [← Limits & Continuity](01-limits-continuity.qmd) | **Selanjutnya:** [Integrals →](03-integrals.qmd)