Skip to Tutorial Content

Vorwissen

Um nun mit dem Satz von Bayes eine Aussage über \(\pi\) gegeben \(x\) zu machen, brauchen wir eine Wahrscheinlichkeitsaussage für \(\Pi\). Was wissen wir über \(\pi\) vor der Beobachtung?

Zur Errinnerung: \(\Pi\) ist eine Zufallsvariable, \(\pi\) deren Realisation. Lassen Sie sich nicht dadurch verwirren, dass wir hier den Buchstaben \(\Pi\) für eine Zufallsvariable verwenden, statt wie üblich \(X\) oder \(Y\).

Wir nehmen an, dass die weiße Kugel keinen Ort bevorzugt, d.h., jeder Wert für \(\pi\) gleich wahrscheinlich ist.

Diskrete Gleichverteilung

Lassen wir für \(\pi\) z.B. nur die Werte \(0, 0.01, 0.02, \ldots, 0.99, 1\) zu, dann wäre unsere Vorannahme, dass jeder dieser Werte gleich wahrscheinlich ist. Wir haben dieses Ansatz bereits als Laplace-Wahrscheinlichkeit kennen gelernt.

Unter dieser Annahme …

Quiz

Wir sagen, \(\Pi\) ist diskret gleichverteilt oder auch Laplace-verteilt.

Allgemein ist die Laplace-Wahrscheinlichkeit

\[ P(\Pi=\pi)=\frac{\text{Anzahl der günstigen Ergebnisse}}{\text{Anzahl der möglichen Ergebnisse}} \]

Nun kann man mit Recht aber sagen, dass \(\Pi\) auch Werte zwischen z.B. \(0.01\) und \(0.02\) annehmen kann. Im Prinzip kann \(\Pi\) beliebige reele Werte zwischen 0 und 1 annehmen, also im Intervall \([0,1]\).

Berechnen wir dann die Laplace-Wahrscheinlichkeit für das Eintreten eines reelen Wertes \(\pi\) zwischen 0 und 1

\[ P(\Pi=\pi)=\frac{1}{\text{Anzahl der möglichen Werte}} \]

Da es aber (überabzählbar) unendlich viele mögliche reele Werte zwischen 0 und 1 gibt, ist \(P(\Pi=\pi)=0\)!

  • Diese Aussage ist korrekt; für stetige Zufallsvariablen tritt jeder Wert mit Wahrscheinlichkeit 0 ein.
  • Aber wir können diese Wahrscheinlichkeit natürlich nicht sinnvoll in den Satz von Bayes einsetzen.
Quiz

Dichte

Wir brauchen daher den Begriff der stetigen Dichte für stetige Zufallsvariablen, also Zufallsvariablen mit überabzählbar vielen möglichen Ergebnissen.

Sei \(Y\) eine stetige Zufallsvariable. Dann nennen wir die Funktion

  • \(F(y)=P(Y\leq y)\) die Verteilungsfunktion von \(Y\) (gleich der Wahrscheinlichkeit, dass \(Y\) kleiner als \(y\) ist)
  • \(f(y)=\frac{d}{dy}F(y)\) die stetige Dichte von \(Y\) (gleich der Ableitung der Verteilungsfunktion)

Es gilt für ein Intervall \([y_1,y_2]\)

\[ P(Y\in [y_1,y_2])=\int_{y_1}^{y_2} f(y) dy \]

Beispiel für eine stetige Verteilung

Ein Beispiel für eine stetige Verteilung ist die Beta-Verteilung. Diese hat zwei Parameter (\(a\) und \(b\)), die die Form ihrer Dichte bestimmen. Eine Zufallsvariable

\[ Y \sim Beta(a,b) \]

kann Werte zwischen 0 und 1 annehmen.

Diskrete und stetige Dichten

  • Es existiert eine mathematische Theorie, die diskrete und stetige Verteilungen einheitlich definiert.
  • Aus dieser Theorie heraus können wir diskrete (Wahrscheinlichkeits-)Dichten und stetige Dichten analog verwenden.
  • Das gilt auch für bedingte Wahrscheinlichkeit, für die sich entsprechend bedingte Dichten definieren lassen:

\[ f(x|\pi) = \frac{f(x,\pi)}{f(\pi)} \]

  • Eigentlich sollte man hier \(f(x|\Pi=\pi)\) schreiben, zur Übersichtlichkeit verwenden wir die Kurzschreibweise \(f(x|\pi)\) für die bedingte Dichte von \(X\) gegeben \(\Pi=\pi\).

Satz von Bayes mit Dichten

Der Satz von Bayes lässt sich entsprechend auch mit Dichten schreiben:

\[ f(\pi|x) = \frac{f(x|\pi)f(\pi)}{f(x)} \]

  • Für rein diskrete Probleme werden die Dichten durch Wahrscheinlichkeiten ersetzt und wir sind wieder bei der ursprünglichen Form.
  • Oft ersetzt man die Schreibweise \(f(\pi|x)\) durch \(p(\pi|x)\), um klar zu machen, dass hier die Posteriori-Dichte berechnet wird.
  • Analog wird auch für die Priori-Dichte \(p(\pi)\) statt \(f(\pi)\) benutzt:

\[ p(\pi|x) = \frac{f(x|\pi)p(\pi)}{f(x)} \]

Normalisierungskonstante

Die Berechnung des Terms \(f(x)\) (die sogenannte Normalisierungskonstante, den Grund dafür sehen wir später) hängt davon ab, ob \(\Pi\) diskret oder stetig ist:

  • Ist \(\Pi\) diskret, dann gilt \(f(x)=\sum_{\pi} f(x|\pi)P(\Pi=\pi)\) (wie zuvor Satz von der totalen Wahrscheinlichkeit)
  • Ist \(\Pi\) stetig, dann gilt \(f(x)=\int f(x|\pi)p(\pi) d\pi\) (wir “integrieren \(\pi\) raus”)

Vorwissen über \(\pi\)

Kommen wir zurück zur Frage: Wie können wir vor dem Experiment Aussagen über die Zufallsvariable \(\Pi\) (“Punkt an der die weiße Kugel zu liegen kommt”) machen.

  • Wir nehmen an, dass die weiße Kugel keinen Ort bevorzugt (zumindest wissen wir nichts anderes).
  • Für stetige Zufallsvariablen heißt das, die Dichte ist überall gleich!
  • Statistisch gesehen nehmen wir die stetige Gleichverteilung für \(\Pi\) auf dem Intervall \([0,1]\) an (\(\Pi \sim U[0,1]\)). Die Priori-Dichte von \(\Pi\) ist dann also

\[ p(\pi) = 1 \qquad \text{ für } 0\leq \pi \leq 1 \]

Für Werte von \(\pi<0\) und \(\pi>1\) ist die Dichte 0 - der Fall kann nicht eintreten!

Nebenbemerkung: Für jedes Intervall \([y_1,y_2]\) mit \(0\leq y_1 < y_2 \leq 1\) gilt dann:

\[ P(\Pi \in [y_1,y_2]) = y_2-y_1 \]

Vorwissen oder: Die Priori

Diese Angabe ist die Vorinformation über \(\Pi\) vor (lateinisch a priori) Beobachtung der roten Kugeln, die sogenannte Priori(-Verteilung) von \(\Pi\). Information liegt uns in Form einer Verteilung vor. Das ist ganz allgemein in der Bayes-Statistik der Fall: Verteilung entspricht Information.

Nebenbemerkung: Die Schreibweise \(f(\pi)\) für eine Dichte erscheint Ihnen eventuell erstmal ungewohnt. In der Bayesianischen Statistik nehmen wir aber nicht nur Verteilungen für die Daten an, sondern auch für viele Parameter (hier \(\pi\)). Der Umgang mit den Dichten von Parameter unterscheidet sich nicht von dem mit Dichten von Daten, sowohl Daten als auch Parameter sind Bayesianische gesehen Zufallsgrößen!

Vorwissen als Priori-Dichte: π liegt irgendwo zwischen 0 und 1

Vorwissen als Priori-Dichte: π liegt irgendwo zwischen 0 und 1

Weiter

Bayes’ Billardkugeln Teil 2