04 · Probability

Bahasa Uncertainty dalam Data Science

Overview modul Probability: dari set theory dan Kolmogorov’s axioms hingga distribusi, konvergensi, dan moment generating functions.

Tentang Modul Ini

Probabilitas adalah bahasa yang dipakai oleh statistik, econometrics, dan machine learning untuk berbicara tentang ketidakpastian. Setiap model yang pernah kamu fit, setiap p-value yang pernah kamu laporkan, setiap confidence interval yang pernah kamu buat — semua berdiri di atas fondasi teori probabilitas.

Masalahnya, banyak dari kita belajar statistik secara prosedural: “gunakan t-test kalau sampelnya kecil, gunakan z-test kalau besar.” Kita tahu apa yang harus dilakukan, tapi sering tidak tahu mengapa prosedur itu valid, dan kapan asumsinya breakdown.

Modul ini membangun fondasi formal yang menjawab pertanyaan-pertanyaan itu.

Why This Matters for Your Work

Probabilitas bukan hanya matematika abstrak. Ini adalah framework operasional untuk:

Econometrics: Kenapa OLS estimator punya distribusi $t$? Kenapa F-test bekerja? Karena error terms diasumsikan punya distribusi tertentu, dan kita bisa menurunkan distribusi test statistics dari sana secara analitis.
Machine Learning: Naive Bayes classifier adalah Bayes’ theorem yang diaplikasikan langsung. Variational autoencoders dan diffusion models adalah probabilistic models. EM algorithm bekerja di atas expected log-likelihood.
Causal Inference: Potential outcomes framework, propensity scores, RDD — semuanya berbicara dalam bahasa probabilitas kondisional.

Paham teori probabilitas = paham mengapa metode-metode ini bekerja (dan kapan tidak).

Topics dalam Modul Ini

#	Topik	Konten Utama	Status
4.1	Counting, Sets & Axioms	Sample space, events, Kolmogorov axioms, counting methods, inclusion-exclusion	Selesai
4.2	Conditional Probability & Bayes	Conditional probability, independence, law of total probability, Bayes’ theorem	Selesai
4.3	Random Variables	PMF, PDF, CDF, expectation, variance, covariance, correlation	Selesai
4.4	Key Distributions	Binomial, Poisson, Normal, $t$, $\chi^2$, $F$, Beta, Gamma, Multivariate Normal	Selesai
4.5	Joint Distributions	Joint PMF/PDF, marginals, conditionals, covariance matrix, copulas	Draft
4.6	Convergence, LLN & CLT	Modes of convergence, Law of Large Numbers, Central Limit Theorem	Draft
4.7	Moment Generating Functions	MGFs, characteristic functions, applications	Draft

Roadmap Modul

graph TD
    A["4.1 Sets & Axioms\nKolmogorov's Framework"] --> B["4.2 Conditional Probability\n& Bayes' Theorem"]
    A --> C["4.3 Random Variables\nPMF, PDF, E[X], Var(X)"]
    B --> C
    C --> D["4.4 Key Distributions\nNormal, t, χ², F, Beta"]
    C --> E["4.5 Joint Distributions\nMultivariate framework"]
    D --> F["4.6 Convergence\nLLN & CLT"]
    E --> F
    F --> G["4.7 MGFs\nCharacteristic Functions"]
    D --> H["05 Statistics\nEstimation & Inference"]
    F --> H

    style A fill:#7C3AED,color:#fff
    style B fill:#7C3AED,color:#fff
    style C fill:#7C3AED,color:#fff
    style D fill:#7C3AED,color:#fff
    style E fill:#A78BFA,color:#fff
    style F fill:#A78BFA,color:#fff
    style G fill:#A78BFA,color:#fff
    style H fill:#2563EB,color:#fff

Insight Utama: Probability sebagai Foundation of Inference

Kenapa kita perlu teori probabilitas yang formal? Karena inferensi statistik — proses menarik kesimpulan tentang populasi dari sampel — pada dasarnya adalah reasoning under uncertainty, dan probabilitas adalah bahasanya.

Rantai logisnya:

Probability theory memberikan kita cara formal untuk mendefinisikan random variables dan distribusinya
Distribusi sampling (distribution of estimators) diturunkan dari probability theory
Hypothesis testing bekerja dengan menghitung probabilitas observing data di bawah null hypothesis
Confidence intervals punya interpretasi yang tepat hanya dalam kerangka probability

Tanpa teori probabilitas yang solid, statistik jadi sekumpulan resep yang kamu ikuti tanpa benar-benar mengerti apa yang kamu ukur.

Connection: Dari Probability ke Econometrics

Contoh konkret dari rantai ini: kenapa OLS standard errors valid?

Kita asumsikan $y = X\beta + \varepsilon$ di mana $\varepsilon \sim \mathcal{N}(0, \sigma^2 I)$ (probability model)
Maka $\hat{\beta} = (X^TX)^{-1}X^Ty$ adalah random variable dengan distribusi $\mathcal{N}(\beta, \sigma^2(X^TX)^{-1})$ (ditunjukkan via properties of multivariate normal)
Maka $\frac{\hat{\beta}_j - \beta_j}{\text{SE}(\hat{\beta}_j)} \sim t(n-p)$ (distribusi sampling)
Dari sini, t-test dan confidence intervals punya justifikasi formal

Setiap langkah dalam rantai ini membutuhkan pemahaman probability theory.

Prerequisites

Modul ini membutuhkan:

Calculus (03): Integral dan turunan digunakan untuk mendefinisikan PDF, menghitung expected values, dan memahami CDF
Linear Algebra (04): Diperlukan untuk multivariate normal, covariance matrices, dan distribusi $\hat{\beta}$
Foundations (01): Sigma notation untuk sums, set notation

Kalau kamu sudah punya background econometrics atau statistics formal, modul 4.1–4.4 mungkin sudah familiar. Focus on the connections and proofs, bukan hanya definisi.

Estimasi Waktu

Full read + exercises: 10–15 jam total
Per topik: sekitar 60–120 menit
Topics 4.1–4.4 lebih intensif; 4.5–4.7 lebih ringkas

Referensi Utama

Kalau ingin baca lebih dalam:

Casella & Berger — Statistical Inference: rigorous, comprehensive, canonical reference
Blitzstein & Hwang — Introduction to Probability: intuitive, sangat readable, free online
DeGroot & Schervish — Probability and Statistics: bagus untuk bridge ke inference
Durrett — Probability: Theory and Examples: untuk yang mau rigorous measure-theoretic treatment

--- title: "04 · Probability" subtitle: "Bahasa Uncertainty dalam Data Science" description: "Overview modul Probability: dari set theory dan Kolmogorov's axioms hingga distribusi, konvergensi, dan moment generating functions." number-sections: false toc: true --- ## Tentang Modul Ini Probabilitas adalah bahasa yang dipakai oleh statistik, econometrics, dan machine learning untuk berbicara tentang **ketidakpastian**. Setiap model yang pernah kamu fit, setiap p-value yang pernah kamu laporkan, setiap confidence interval yang pernah kamu buat — semua berdiri di atas fondasi teori probabilitas. Masalahnya, banyak dari kita belajar statistik secara prosedural: "gunakan t-test kalau sampelnya kecil, gunakan z-test kalau besar." Kita tahu *apa* yang harus dilakukan, tapi sering tidak tahu *mengapa* prosedur itu valid, dan *kapan* asumsinya breakdown. Modul ini membangun fondasi formal yang menjawab pertanyaan-pertanyaan itu. ::: {.callout-note title="Why This Matters for Your Work"} Probabilitas bukan hanya matematika abstrak. Ini adalah framework operasional untuk: - **Econometrics**: Kenapa OLS estimator punya distribusi $t$? Kenapa F-test bekerja? Karena error terms diasumsikan punya distribusi tertentu, dan kita bisa menurunkan distribusi test statistics dari sana secara analitis. - **Machine Learning**: Naive Bayes classifier adalah Bayes' theorem yang diaplikasikan langsung. Variational autoencoders dan diffusion models adalah probabilistic models. EM algorithm bekerja di atas expected log-likelihood. - **Causal Inference**: Potential outcomes framework, propensity scores, RDD — semuanya berbicara dalam bahasa probabilitas kondisional. Paham teori probabilitas = paham *mengapa* metode-metode ini bekerja (dan kapan tidak). ::: --- ## Topics dalam Modul Ini | # | Topik | Konten Utama | Status | |---|-------|-------------|--------| | 4.1 | [Counting, Sets & Axioms](01-counting-sets.qmd) | Sample space, events, Kolmogorov axioms, counting methods, inclusion-exclusion | Selesai | | 4.2 | [Conditional Probability & Bayes](02-conditional-bayes.qmd) | Conditional probability, independence, law of total probability, Bayes' theorem | Selesai | | 4.3 | [Random Variables](03-random-variables.qmd) | PMF, PDF, CDF, expectation, variance, covariance, correlation | Selesai | | 4.4 | [Key Distributions](04-distributions.qmd) | Binomial, Poisson, Normal, $t$, $\chi^2$, $F$, Beta, Gamma, Multivariate Normal | Selesai | | 4.5 | [Joint Distributions](05-joint-distributions.qmd) | Joint PMF/PDF, marginals, conditionals, covariance matrix, copulas | Draft | | 4.6 | [Convergence, LLN & CLT](06-convergence-lln-clt.qmd) | Modes of convergence, Law of Large Numbers, Central Limit Theorem | Draft | | 4.7 | [Moment Generating Functions](07-moment-generating.qmd) | MGFs, characteristic functions, applications | Draft | : {tbl-colwidths="[5,25,50,10]"} --- ## Roadmap Modul ```{mermaid} graph TD A["4.1 Sets & Axioms\nKolmogorov's Framework"] --> B["4.2 Conditional Probability\n& Bayes' Theorem"] A --> C["4.3 Random Variables\nPMF, PDF, E[X], Var(X)"] B --> C C --> D["4.4 Key Distributions\nNormal, t, χ², F, Beta"] C --> E["4.5 Joint Distributions\nMultivariate framework"] D --> F["4.6 Convergence\nLLN & CLT"] E --> F F --> G["4.7 MGFs\nCharacteristic Functions"] D --> H["05 Statistics\nEstimation & Inference"] F --> H style A fill:#7C3AED,color:#fff style B fill:#7C3AED,color:#fff style C fill:#7C3AED,color:#fff style D fill:#7C3AED,color:#fff style E fill:#A78BFA,color:#fff style F fill:#A78BFA,color:#fff style G fill:#A78BFA,color:#fff style H fill:#2563EB,color:#fff ``` --- ## Insight Utama: Probability sebagai Foundation of Inference Kenapa kita perlu teori probabilitas yang formal? Karena **inferensi statistik** — proses menarik kesimpulan tentang populasi dari sampel — pada dasarnya adalah reasoning under uncertainty, dan probabilitas adalah bahasanya. Rantai logisnya: 1. **Probability theory** memberikan kita cara formal untuk mendefinisikan random variables dan distribusinya 2. **Distribusi sampling** (distribution of estimators) diturunkan dari probability theory 3. **Hypothesis testing** bekerja dengan menghitung probabilitas observing data di bawah null hypothesis 4. **Confidence intervals** punya interpretasi yang tepat hanya dalam kerangka probability Tanpa teori probabilitas yang solid, statistik jadi sekumpulan resep yang kamu ikuti tanpa benar-benar mengerti apa yang kamu ukur. ::: {.callout-caution title="Connection: Dari Probability ke Econometrics"} Contoh konkret dari rantai ini: kenapa OLS standard errors valid? 1. Kita asumsikan $y = X\beta + \varepsilon$ di mana $\varepsilon \sim \mathcal{N}(0, \sigma^2 I)$ (probability model) 2. Maka $\hat{\beta} = (X^TX)^{-1}X^Ty$ adalah random variable dengan distribusi $\mathcal{N}(\beta, \sigma^2(X^TX)^{-1})$ (ditunjukkan via properties of multivariate normal) 3. Maka $\frac{\hat{\beta}_j - \beta_j}{\text{SE}(\hat{\beta}_j)} \sim t(n-p)$ (distribusi sampling) 4. Dari sini, t-test dan confidence intervals punya justifikasi formal Setiap langkah dalam rantai ini membutuhkan pemahaman probability theory. ::: --- ## Prerequisites Modul ini membutuhkan: - **Calculus** (03): Integral dan turunan digunakan untuk mendefinisikan PDF, menghitung expected values, dan memahami CDF - **Linear Algebra** (04): Diperlukan untuk multivariate normal, covariance matrices, dan distribusi $\hat{\beta}$ - **Foundations** (01): Sigma notation untuk sums, set notation Kalau kamu sudah punya background econometrics atau statistics formal, modul 4.1–4.4 mungkin sudah familiar. Focus on the connections and proofs, bukan hanya definisi. ## Estimasi Waktu - Full read + exercises: **10–15 jam** total - Per topik: sekitar **60–120 menit** - Topics 4.1–4.4 lebih intensif; 4.5–4.7 lebih ringkas ## Referensi Utama Kalau ingin baca lebih dalam: - **Casella & Berger** — *Statistical Inference*: rigorous, comprehensive, canonical reference - **Blitzstein & Hwang** — *Introduction to Probability*: intuitive, sangat readable, free online - **DeGroot & Schervish** — *Probability and Statistics*: bagus untuk bridge ke inference - **Durrett** — *Probability: Theory and Examples*: untuk yang mau rigorous measure-theoretic treatment