Skip to Tutorial Content

Information einer Verteilung

Wir haben nach Beobachtung der Daten (a posteriori) mehr Information als vor der Beobachtung (a priori). Das läßt sich an der Dichte erkennen: In unserem Beispiel war die Priori-Dichte sehr flach, kein Punkt war bevorzugt. Das heißt, wir hatten a priori praktisch keine Information über \(\Pi\). Wir sprechen auch von einer flachen oder nicht-informativen Verteilung. Nach der Beobachtung hat sich die Masse der Dichte auf einen Bereich konzentriert: wir haben Information darüber, dass \(\Pi\) wahrscheinlich in diesem Bereich liegt. Um so höher die Dichte, um so mehr Information haben wir.

Posterioris für verschiedene Beobachtungen

Sehen wir uns die Posteriori-Dichte mit verschiedenen \(n\) bzw. \(x\) an.

Information einer Verteilung

Wir sehen:

  • Mehr Beobachtungen geben uns mehr Informationen (das ist trivial). Wir sehen das daran, dass die Posteriori-Dichte an einer Stelle höher wird.
  • Im Vergleich dazu hat die Priori-Dichte keine Information, sie ist überall gleich.

  • Bei gleichem \(n\) wird die Dichte höher, wenn \(x\) sehr klein oder sehr nahe an \(n\) ist. Ist \(x \approx n/2\), dann wird die Dichte (bei gleichem \(n\)) am niedrigsten – der Fall gibt uns am wenigsten Information.
  • Das hängt mit der Varianz der Bernoulliverteilung zusammen. Diese ist \(\pi(1-\pi)\), damit für \(\pi=0.5\) am höchsten.
  • Große Varianz heißt aber große Unsicherheit bzw. wenig Information.
  • Viel Information heißt wenig Unsicherheit heißt geringe Varianz.

Schlüsse aus der Posteriori

Die Posteriori-Verteilung enthält alle Information über unseren Parameter \(\Pi\); in ihr sind Vorinformation und Information aus der Beobachtung vereint. Alle weiteren Schlüsse ziehen wir nur aus der Posteriori.

Posteriori-Wahrscheinlichkeit

Als erstes stellen wir uns die Frage: wie wahrscheinlich ist es a posteriori, also nach Beobachtung, dass \(\Pi\) zwischen 0.5 und 0.9 liegt? Dazu berechnen wir ganz normal die Wahrscheinlichkeit aus der Dichte der Posteriori-Verteilung \(\Pi|x \sim Beta(x+1,n-x+1)\):

\[ P(0.5\leq\Pi\leq 0.9|X=x) = F(0.9)-F(0.5) \]

wobei \(F\) hier die Verteilungsfunktion der Beta\((x+1,n-x+1)\)-Verteilung (also der Posteriori-Verteilung) ist. Hier also

\[ P(0.5\leq\Pi\leq 0.9) \approx 0.985 - 0.013 \approx 0.972 \]

Wir sind uns also zu 97,2 % sicher, dass \(\Pi\) zwischen 0.5 und 0.9 liegt.

Punktschätzer

Nun stellen wir uns die Frage, welchen Wert für \(\Pi\) wir denn gegeben unserer Beobachtung erwarten. Wir können dafür den Erwartungswert der Posteriori oder Posteriori-Erwartungswert nutzen. Dieser dient hier als Punktschätzer.

Allgemein ist der Erwartungswert der Beta(a,b)-Verteilung \(\frac{a}{a+b}\), also gilt hier für den Posteriori-Erwartungswert

\[ E(\Pi|x)=\frac{x+1}{n+2}\]

Nebenbemerkung: Andere Punktschätzer sind möglich, zum Beispiel kann man den wahrscheinlichsten Wert von \(\Pi|x\) bestimmen (Posteriori-Modus) – dazu später mehr.

Zusammenfassung

  • Wir hatten in diesem Abschnitt ein Binomialexperiment mit unbekanntem Parameter \(\pi\) (\(X\sim B(n,\pi)\)
  • Für den Parameter \(\pi\) haben wir eine Priori-Verteilung, die unser Vorwissen ausdrückt: Wir wissen “nichts” über \(\pi\), außer dass \(\pi\) zwischen 0 und 1 liegen muss
  • Durch Beobachtung (\(X=x\)) erhalten wir mehr Information über den Parameter \(\pi\), ausgedrückt durch die Posteriori-Verteilung
  • Die Posteriori-Verteilung erhalten wir über die Bayes-Formel
  • Mit der allgemeinen Bayes-Formel lassen sich beliebig diskrete und stetige Verteilungen kombinieren

Im weiteren Verlauf des Kurses werden wir folgende Themen vertiefen:

  • Welche Datenmodelle kann man verwenden (z.B. mit mehr Parametern, eventuell sehr vielen)
  • Wie kann ich allgemein eine Priori definieren bzw. begründen?
  • Wie berechne ich die Posteriori? (Stichwort: Normalisierungskonstante)
  • Welche Schlüsse ziehe ich aus der Posteriori?

Weiter

Bayes’ Billardkugeln Teil 4