Skip to Tutorial Content

Die Bayes-Formel

Nun können wir Datendichte und Priori(-dichte) kombinieren. Der Satz von Bayes lautet ja:

\[ p(\pi|x) = \frac{f(x|\pi)p(\pi)}{f(x)} = \frac{f(x|\pi)p(\pi)}{\int f(x|\tilde\pi)p(\tilde\pi) d\tilde\pi} \]

  • \(p(\pi|x)\) ist die Dichte der Verteilung von \(\Pi\) gegeben \(X=x\). Also genau das was wir suchen: Information über \(\Pi\) nach (lateinisch: a posteriori) unserer Beobachtung \(x\). Information stellen wir – wie bei der Priori – als Verteilung dar. Wir nennen diese bedingte Verteilung \(\Pi|X=x\) die Posteriori-Verteilung.

  • Die Verteilung wird durch ihre Dichte festgelegt. Entsprechend bezeichnen wir \(p(\pi|x)\) als Posterior-Dichte

  • In der Praxis unterscheidet man sprachlich kaum zwischen Posteriori-Verteilung und Posteriori-Dichte (auch wenn es unterschiedliche Konzepte sind), sondern spricht nur von der Posteriori. Damit lässt sich die Bayes-Formel auch so darstellen:

\[ \text{Posteriori} = \frac{\text{Likelihood}\cdot \text{Priori}}{\text{Normalisierungskonstante}}\]

  • Wichtig: Im Beispiel ist \(f(\pi)\) eine stetige Dichte; \(f(x|\pi)\) eine diskrete oder Wahrscheinlichkeitsdichte. Für den Satz von Bayes ist es aber egal, ob wir diskrete oder stetige Dichten verwenden.

  • Beachten Sie, dass wir in der Formel \(\Pi\) und \(X\) unterdrücken – vergessen Sie aber nicht, dass \(\pi\) und \(x\) Realisationen von Zufallszahlen sind. Formal richtig müssten wir schreiben:

  • \(f_{\Pi}(\pi)\) für die Dichte von \(\Pi\)

  • \(f_{X|\Pi=\pi}(x|\pi)\) für die Dichte von \(X\) gegeben \(\Pi=\pi\)

Normalisierungskonstante

  • Die Bayes-Formel kombiniert also Datenmodell (Likelihood) und Priori zur Posteriori.

  • Zusätzlich brauchen wir \(f(x)=\int f(x|\tilde\pi)f(\tilde\pi) d\tilde\pi\). Die Funktion \(f(x)\) hängt nicht von \(\pi\) ab, ist also bezüglich der Dichte von \(\pi\) eine Konstante. Wir nennen \(f(x)\) Normalisierungskonstante, weil sie sicherstellt, dass \(\int p(x|\pi) d\pi=1\) gilt (für diskretes \(\Pi\): das \(\sum_\{pi}p(x|\pi)=1\).

  • Wir können im Satz von Bayes auch das Zeichen “\(\propto\)” (sprich: propotional zu) benutzen. Das Zeichen bedeutet, dass sich linke und rechte Seite bis auf eine Konstante entsprechen:

\[ p(\pi|x) = \frac{f(x|\pi)p(\pi)}{f(x)} \propto f(x|\pi)p(\pi) \]

oder informell:

\[ \text{Posteriori} \propto \text{Likelihood}\cdot \text{Priori} \]

  • Wichtig dabei: “Konstant” in der Normalisierungskonstante bezieht sich auf \(\pi\). Die Normalisierungskonstante ist eine Funktion in \(x\), also der Beobachtung. Alle Aussagen gehen aber immer davon aus, dass wir die Beobachtung gemacht haben, \(x\) also bekannt und damit fest ist.

Die Posteriori

In unserem Billard-Beispiel ergibt sich (für \(\pi \in [0,1]\)):

\[ p(\pi|x) = \frac{f(x|\pi)\cdot f(\pi)}{f(x)} = \frac{\left({{n}\choose{x}}\pi^x(1-\pi)^{n-x}\right)\cdot \left(1\right)}{f(x)} \]

oder wieder mit dem Proportionalitätszeichen:

\[ p(\pi|x) \propto \pi^x(1-\pi)^{n-x} \]

Wir nennen den Teil der Dichte ohne Konstanten den Kern der Dichte. Da \(p(\pi|x)\) eine Dichte ist, muss \(\int p(\pi|x) d\pi=1\) gelten. Die Dichte (und damit die Verteilung) ist also durch den Kern festgelegt, da gilt:

\[ \text{Dichte} = \frac{\text{Kern}}{\text{Integral über Kern}} \]

Die Posteriori im Billard-Beispiel

Schauen wir uns den Kern \(p(\pi|x) \propto \pi^x(1-\pi)^{n-x}\) genauer an. Vorsichtig, es handelt sich um eine Funktion in \(\pi\) bei festem (gegebenem, da beobachtetem) \(x\)!

Der Kern der Dichte dieser Posteriorverteilung \(\Pi|x\) ist der Kern einer Beta-Verteilung. Allgemein ist die Dichte einer Beta-Verteilung mit Parametern \(a\) und \(b\) definiert als:

\[ f(y) = \frac{1}{B(a,b)} y^{a-1}(1-y)^{b-1} \]

für \(0\leq y\leq 1\). Dabei ist \(B(a,b)\) die Beta-Funktion, die uns hier nicht weiter interessiert. Setzen wir also \(y=\pi|x\), \(a=x+1\) und \(b=n-x+1\), ist die Posteriori-Dichte identisch mit der Dichte einer \(Beta(x+1,n-x+1)\)-Verteilung.

Priori und der Posteriori

Beispiel: \(n=20\) mal Rollen der roten Kugeln, \(x=15\) mal kommt sie links von der weißen Kugel zu liegen. Die Posteriori-Verteilung ist also die Beta(16,6)-Verteilung:

Für Werte von π zwischen (etwa) 0.55 und 0.9 ist die Posteriori-Dichte höher als die Priori-Dichte. "Wahrscheinlich" liegt π also in diesem Intervall. Für Werte von π kleiner 0.4 und größer 0.95 ist die Posteriori-Dichte dagegen praktisch gleich Null, sprich: diese Werte können wir, gegeben der Beobachtung $x$, ziemlich sicher ausschliessen. Werte von π kleiner als 0 und größer als 1 sind komplett ausgeschlossen, hier sind Priori- und Posteriori-Dichte jeweils gleich 0.

Für Werte von π zwischen (etwa) 0.55 und 0.9 ist die Posteriori-Dichte höher als die Priori-Dichte. “Wahrscheinlich” liegt π also in diesem Intervall. Für Werte von π kleiner 0.4 und größer 0.95 ist die Posteriori-Dichte dagegen praktisch gleich Null, sprich: diese Werte können wir, gegeben der Beobachtung \(x\), ziemlich sicher ausschliessen. Werte von π kleiner als 0 und größer als 1 sind komplett ausgeschlossen, hier sind Priori- und Posteriori-Dichte jeweils gleich 0.

Bemerkung zur Priori

Übrigens lässt sich auch unsere Priori, also die Gleichverteilung auf \([0,1]\) als Spezialfall der Beta-Verteilung interpretieren. Für \(a=1\) und \(b=1\) ist

\[ f(\pi) = \frac{1}{B(1,1)} y^{1-1}(1-y)^{1-1} = 1 \]

Es gilt also a priori \(\Pi \sim\) Beta(1,1)!

Konjugiertheit

Den Kern der Posterioridichte \(\pi^x(1-\pi)^{n-x}\) ist wie gesagt eine Funktion in \(\pi\) bei gegebenen \(x\). Würde man dagegen \(\pi\) festhalten und liesse \(x\) variieren, sieht der Kern nach einer Binomialverteilung aus, siehe Datenmodell.

  • Das ist natürlich kein Zufall: die Posteriori entsteht ja genau aus Datendichte und Priori.
  • In unserem Beispiel passen Datendichte (Binomialverteilung) und Prioridichte (Betaverteilung) genau zusammen.
  • Die Posterioridichte hat daher die Form der Prioridichte, nur mit anderen Parametern. Bei beiden handelt es sich um Betaverteilungen.
  • Wir nennen dies Konjugiertheit bzw. sprechen von der konjugierten Priori.

Nicht immer werden wir eine konjugierte Priori verwenden können oder wollen. Zur Wahl der Priori später mehr.

Weiter

Bayes’ Billardkugeln Teil 3