graph TD
A["4.1 Sets & Axioms\nKolmogorov's Framework"] --> B["4.2 Conditional Probability\n& Bayes' Theorem"]
A --> C["4.3 Random Variables\nPMF, PDF, E[X], Var(X)"]
B --> C
C --> D["4.4 Key Distributions\nNormal, t, χ², F, Beta"]
C --> E["4.5 Joint Distributions\nMultivariate framework"]
D --> F["4.6 Convergence\nLLN & CLT"]
E --> F
F --> G["4.7 MGFs\nCharacteristic Functions"]
D --> H["05 Statistics\nEstimation & Inference"]
F --> H
style A fill:#7C3AED,color:#fff
style B fill:#7C3AED,color:#fff
style C fill:#7C3AED,color:#fff
style D fill:#7C3AED,color:#fff
style E fill:#A78BFA,color:#fff
style F fill:#A78BFA,color:#fff
style G fill:#A78BFA,color:#fff
style H fill:#2563EB,color:#fff
04 · Probability
Bahasa Uncertainty dalam Data Science
Tentang Modul Ini
Probabilitas adalah bahasa yang dipakai oleh statistik, econometrics, dan machine learning untuk berbicara tentang ketidakpastian. Setiap model yang pernah kamu fit, setiap p-value yang pernah kamu laporkan, setiap confidence interval yang pernah kamu buat — semua berdiri di atas fondasi teori probabilitas.
Masalahnya, banyak dari kita belajar statistik secara prosedural: “gunakan t-test kalau sampelnya kecil, gunakan z-test kalau besar.” Kita tahu apa yang harus dilakukan, tapi sering tidak tahu mengapa prosedur itu valid, dan kapan asumsinya breakdown.
Modul ini membangun fondasi formal yang menjawab pertanyaan-pertanyaan itu.
Probabilitas bukan hanya matematika abstrak. Ini adalah framework operasional untuk:
- Econometrics: Kenapa OLS estimator punya distribusi \(t\)? Kenapa F-test bekerja? Karena error terms diasumsikan punya distribusi tertentu, dan kita bisa menurunkan distribusi test statistics dari sana secara analitis.
- Machine Learning: Naive Bayes classifier adalah Bayes’ theorem yang diaplikasikan langsung. Variational autoencoders dan diffusion models adalah probabilistic models. EM algorithm bekerja di atas expected log-likelihood.
- Causal Inference: Potential outcomes framework, propensity scores, RDD — semuanya berbicara dalam bahasa probabilitas kondisional.
Paham teori probabilitas = paham mengapa metode-metode ini bekerja (dan kapan tidak).
Topics dalam Modul Ini
| # | Topik | Konten Utama | Status |
|---|---|---|---|
| 4.1 | Counting, Sets & Axioms | Sample space, events, Kolmogorov axioms, counting methods, inclusion-exclusion | Selesai |
| 4.2 | Conditional Probability & Bayes | Conditional probability, independence, law of total probability, Bayes’ theorem | Selesai |
| 4.3 | Random Variables | PMF, PDF, CDF, expectation, variance, covariance, correlation | Selesai |
| 4.4 | Key Distributions | Binomial, Poisson, Normal, \(t\), \(\chi^2\), \(F\), Beta, Gamma, Multivariate Normal | Selesai |
| 4.5 | Joint Distributions | Joint PMF/PDF, marginals, conditionals, covariance matrix, copulas | Draft |
| 4.6 | Convergence, LLN & CLT | Modes of convergence, Law of Large Numbers, Central Limit Theorem | Draft |
| 4.7 | Moment Generating Functions | MGFs, characteristic functions, applications | Draft |
Roadmap Modul
Insight Utama: Probability sebagai Foundation of Inference
Kenapa kita perlu teori probabilitas yang formal? Karena inferensi statistik — proses menarik kesimpulan tentang populasi dari sampel — pada dasarnya adalah reasoning under uncertainty, dan probabilitas adalah bahasanya.
Rantai logisnya:
- Probability theory memberikan kita cara formal untuk mendefinisikan random variables dan distribusinya
- Distribusi sampling (distribution of estimators) diturunkan dari probability theory
- Hypothesis testing bekerja dengan menghitung probabilitas observing data di bawah null hypothesis
- Confidence intervals punya interpretasi yang tepat hanya dalam kerangka probability
Tanpa teori probabilitas yang solid, statistik jadi sekumpulan resep yang kamu ikuti tanpa benar-benar mengerti apa yang kamu ukur.
Contoh konkret dari rantai ini: kenapa OLS standard errors valid?
- Kita asumsikan \(y = X\beta + \varepsilon\) di mana \(\varepsilon \sim \mathcal{N}(0, \sigma^2 I)\) (probability model)
- Maka \(\hat{\beta} = (X^TX)^{-1}X^Ty\) adalah random variable dengan distribusi \(\mathcal{N}(\beta, \sigma^2(X^TX)^{-1})\) (ditunjukkan via properties of multivariate normal)
- Maka \(\frac{\hat{\beta}_j - \beta_j}{\text{SE}(\hat{\beta}_j)} \sim t(n-p)\) (distribusi sampling)
- Dari sini, t-test dan confidence intervals punya justifikasi formal
Setiap langkah dalam rantai ini membutuhkan pemahaman probability theory.
Prerequisites
Modul ini membutuhkan:
- Calculus (03): Integral dan turunan digunakan untuk mendefinisikan PDF, menghitung expected values, dan memahami CDF
- Linear Algebra (04): Diperlukan untuk multivariate normal, covariance matrices, dan distribusi \(\hat{\beta}\)
- Foundations (01): Sigma notation untuk sums, set notation
Kalau kamu sudah punya background econometrics atau statistics formal, modul 4.1–4.4 mungkin sudah familiar. Focus on the connections and proofs, bukan hanya definisi.
Estimasi Waktu
- Full read + exercises: 10–15 jam total
- Per topik: sekitar 60–120 menit
- Topics 4.1–4.4 lebih intensif; 4.5–4.7 lebih ringkas
Referensi Utama
Kalau ingin baca lebih dalam:
- Casella & Berger — Statistical Inference: rigorous, comprehensive, canonical reference
- Blitzstein & Hwang — Introduction to Probability: intuitive, sangat readable, free online
- DeGroot & Schervish — Probability and Statistics: bagus untuk bridge ke inference
- Durrett — Probability: Theory and Examples: untuk yang mau rigorous measure-theoretic treatment