04 · Probability

Bahasa Uncertainty dalam Data Science

Overview modul Probability: dari set theory dan Kolmogorov’s axioms hingga distribusi, konvergensi, dan moment generating functions.

Tentang Modul Ini

Probabilitas adalah bahasa yang dipakai oleh statistik, econometrics, dan machine learning untuk berbicara tentang ketidakpastian. Setiap model yang pernah kamu fit, setiap p-value yang pernah kamu laporkan, setiap confidence interval yang pernah kamu buat — semua berdiri di atas fondasi teori probabilitas.

Masalahnya, banyak dari kita belajar statistik secara prosedural: “gunakan t-test kalau sampelnya kecil, gunakan z-test kalau besar.” Kita tahu apa yang harus dilakukan, tapi sering tidak tahu mengapa prosedur itu valid, dan kapan asumsinya breakdown.

Modul ini membangun fondasi formal yang menjawab pertanyaan-pertanyaan itu.

NoteWhy This Matters for Your Work

Probabilitas bukan hanya matematika abstrak. Ini adalah framework operasional untuk:

  • Econometrics: Kenapa OLS estimator punya distribusi \(t\)? Kenapa F-test bekerja? Karena error terms diasumsikan punya distribusi tertentu, dan kita bisa menurunkan distribusi test statistics dari sana secara analitis.
  • Machine Learning: Naive Bayes classifier adalah Bayes’ theorem yang diaplikasikan langsung. Variational autoencoders dan diffusion models adalah probabilistic models. EM algorithm bekerja di atas expected log-likelihood.
  • Causal Inference: Potential outcomes framework, propensity scores, RDD — semuanya berbicara dalam bahasa probabilitas kondisional.

Paham teori probabilitas = paham mengapa metode-metode ini bekerja (dan kapan tidak).


Topics dalam Modul Ini

# Topik Konten Utama Status
4.1 Counting, Sets & Axioms Sample space, events, Kolmogorov axioms, counting methods, inclusion-exclusion Selesai
4.2 Conditional Probability & Bayes Conditional probability, independence, law of total probability, Bayes’ theorem Selesai
4.3 Random Variables PMF, PDF, CDF, expectation, variance, covariance, correlation Selesai
4.4 Key Distributions Binomial, Poisson, Normal, \(t\), \(\chi^2\), \(F\), Beta, Gamma, Multivariate Normal Selesai
4.5 Joint Distributions Joint PMF/PDF, marginals, conditionals, covariance matrix, copulas Draft
4.6 Convergence, LLN & CLT Modes of convergence, Law of Large Numbers, Central Limit Theorem Draft
4.7 Moment Generating Functions MGFs, characteristic functions, applications Draft

Roadmap Modul

graph TD
    A["4.1 Sets & Axioms\nKolmogorov's Framework"] --> B["4.2 Conditional Probability\n& Bayes' Theorem"]
    A --> C["4.3 Random Variables\nPMF, PDF, E[X], Var(X)"]
    B --> C
    C --> D["4.4 Key Distributions\nNormal, t, χ², F, Beta"]
    C --> E["4.5 Joint Distributions\nMultivariate framework"]
    D --> F["4.6 Convergence\nLLN & CLT"]
    E --> F
    F --> G["4.7 MGFs\nCharacteristic Functions"]
    D --> H["05 Statistics\nEstimation & Inference"]
    F --> H

    style A fill:#7C3AED,color:#fff
    style B fill:#7C3AED,color:#fff
    style C fill:#7C3AED,color:#fff
    style D fill:#7C3AED,color:#fff
    style E fill:#A78BFA,color:#fff
    style F fill:#A78BFA,color:#fff
    style G fill:#A78BFA,color:#fff
    style H fill:#2563EB,color:#fff


Insight Utama: Probability sebagai Foundation of Inference

Kenapa kita perlu teori probabilitas yang formal? Karena inferensi statistik — proses menarik kesimpulan tentang populasi dari sampel — pada dasarnya adalah reasoning under uncertainty, dan probabilitas adalah bahasanya.

Rantai logisnya:

  1. Probability theory memberikan kita cara formal untuk mendefinisikan random variables dan distribusinya
  2. Distribusi sampling (distribution of estimators) diturunkan dari probability theory
  3. Hypothesis testing bekerja dengan menghitung probabilitas observing data di bawah null hypothesis
  4. Confidence intervals punya interpretasi yang tepat hanya dalam kerangka probability

Tanpa teori probabilitas yang solid, statistik jadi sekumpulan resep yang kamu ikuti tanpa benar-benar mengerti apa yang kamu ukur.

CautionConnection: Dari Probability ke Econometrics

Contoh konkret dari rantai ini: kenapa OLS standard errors valid?

  1. Kita asumsikan \(y = X\beta + \varepsilon\) di mana \(\varepsilon \sim \mathcal{N}(0, \sigma^2 I)\) (probability model)
  2. Maka \(\hat{\beta} = (X^TX)^{-1}X^Ty\) adalah random variable dengan distribusi \(\mathcal{N}(\beta, \sigma^2(X^TX)^{-1})\) (ditunjukkan via properties of multivariate normal)
  3. Maka \(\frac{\hat{\beta}_j - \beta_j}{\text{SE}(\hat{\beta}_j)} \sim t(n-p)\) (distribusi sampling)
  4. Dari sini, t-test dan confidence intervals punya justifikasi formal

Setiap langkah dalam rantai ini membutuhkan pemahaman probability theory.


Prerequisites

Modul ini membutuhkan:

  • Calculus (03): Integral dan turunan digunakan untuk mendefinisikan PDF, menghitung expected values, dan memahami CDF
  • Linear Algebra (04): Diperlukan untuk multivariate normal, covariance matrices, dan distribusi \(\hat{\beta}\)
  • Foundations (01): Sigma notation untuk sums, set notation

Kalau kamu sudah punya background econometrics atau statistics formal, modul 4.1–4.4 mungkin sudah familiar. Focus on the connections and proofs, bukan hanya definisi.

Estimasi Waktu

  • Full read + exercises: 10–15 jam total
  • Per topik: sekitar 60–120 menit
  • Topics 4.1–4.4 lebih intensif; 4.5–4.7 lebih ringkas

Referensi Utama

Kalau ingin baca lebih dalam:

  • Casella & BergerStatistical Inference: rigorous, comprehensive, canonical reference
  • Blitzstein & HwangIntroduction to Probability: intuitive, sangat readable, free online
  • DeGroot & SchervishProbability and Statistics: bagus untuk bridge ke inference
  • DurrettProbability: Theory and Examples: untuk yang mau rigorous measure-theoretic treatment