Skip to Tutorial Content

Die Billardkugeln

Das folgende Beispiel geht auf Thomas Bayes zurück und wird in An Essay towards solving a Problem in the Doctrine of Chance beschrieben (der Artikel wurde posthum zwei Jahre nach Bayes’ Tod von Richard Price veröffentlicht).

Eine weisse Billardkugel wird auf eine Gerade der Länge 1 gerollt.

Eine rote Kugel wird unter den selben Bedinungen n-mal gerollt. Sei x die Zahl der Versuche, in denen die rote Kugel links von der ersten Kugel, also links von π zu liegen kommt.

Welche Information über π erhalten wir aus der Beobachtung x?

Visualisierung

Beispiel: Zuerst wird die weiße Kugel gerollt, sie kommt bei π zu liegen. Danach wird die rote Kugeln dreimal gerollt: zwei Mal kommt sie links von der weißen Kugel zu liegen, einmal rechts.

Schließlich wird die weiße Kugel entfernt. Können wir trotzdem etwas darüber aussagen, wo die weiße Kugel lag?

Kommen viele rote Kugeln links von der weißen zu liegen, können wir wohl vermuten, dass \(\pi\) eher in der Nähe von 1 als in der Nähe von 0 ist.

Diese Vermutung gilt es jetzt zu quantifizieren.

Statistisch ausgedrückt

Wir bezeichnen mit

  • \(\Pi\) die Zufallsvariable “Punkt an der die weiße Kugel zu liegen kommt”
  • \(\pi\) eine Ausprägung der Zufallsvariable \(\Pi\), also das Ergebnis des Experiments
  • \(X\) sei die Zufallsvariable “Anzahl der roten Kugeln, die links von der weißen Kugeln zu liegen kommen”
  • \(x\) eine Ausprägung der Zufallsvariable \(X\), also das konkrete Ergebnis des Experiments
  • \(n\) die Anzahl der roten Kugeln, die insgesamt gerollt werden.

In obigem Beispiel wäre also \(n=3\) und \(x=2\). \(\pi\) dagegen kennen wir nicht.

Das Experiment lässt sich also wie folgt darstellen:

  • Gegeben sei eine Folge von unabhängigen 0/1-Experimenten (Bernoulli-Experimenten) – jeweils das Rollen der roten Kugeln, die entweder links oder rechts von der weißen zu liegen kommen
  • Die Erfolgswahrscheinlichkeit (der Parameter) \(\pi\) ist erstmal unbekannt, sie ist die Realisation der Zufallsgrösse \(\Pi\) und ergibt sich aus dem Rollen der weissen Kugel.
  • Die Experimente (Rollen der roten Kugeln) sind nicht unbhängig, da sie alle von der Zufallszahl \(\Pi\) abhängen
  • Gegeben dem Ergebnis der weissen Kugel (also bedingt auf \(\Pi=\pi\)) sind die einzelnen Experimente “Rollen der roten Kugeln” aber unabhängig

Was erfahren wir über \(\Pi\), wenn wir die Ergebnisse der 0/1-Experimente kennen, oder anders ausgedrückt: Wie lautet die Verteilung von \(\Pi|X=x\)?

Datenmodell

Wir beginnen damit, uns die Wahrscheinlichkeitsverteilung der Beobachtungen oder Daten anzusehen.

Nehmen wir dafür erstmal an, die weiße Kugel sei bereits gerollt und liege auf dem Punkt \(\pi\). Wir rollen eine rote Kugel. Dann ist die Wahrscheinlichkeit, dass die rote Kugel links von der weißen zu liegen kommt gleich \(\pi\). Es handelt sich um ein Bernoulli-Experiment.

Rollen wir \(n\) Kugeln (oder \(n\)-mal die selbe rote Kugel), so handelt es sich um ein Binomialexperiment mit Erfolgswahrscheinlichkeit \(\pi\).

\[ X\sim B(n,\pi) \]

Wahrscheinlichkeit der Beobachtung

Für \(n=1\), also einmaliges Rollen der roten Kugel ist die Wahrscheinlichkeit dafür, dass \(X=1\), also die rote Kugel links von der weißen zu liegen kommt gleich \(\pi\); für \(X=0\) ist die Wahrscheinlichkeit \(1-\pi\). Zusammenfassend lässt sich schreiben:

\[ P(X=x|\Pi=\pi)= \pi^{x}(1-\pi)^{1-x} \]

Gegeben \(\Pi=\pi\) ist also die (bedingte!) Wahrscheinlichkeit für \(X=x\) beim \(n\)-maligen Rollen

\[ P(X=x|\Pi=\pi)=f(x|\pi)={{n}\choose{x}}\pi^x(1-\pi)^{n-x}, \]

wobei \({{n}\choose{x}}\) der Binomialkoeffizient ist (auf wie viele verschiedene Arten man \(x\) Erfolge bei \(n\) Versuchen erhalten).

Wahrscheinlichkeitsdichte

  • Für diskrete Zufallsvariablen - also Zufallsvariablen, die nur abzählbar viele Werte annehmen können - bezeichnet man die Wahrscheinlichkeit auch als Wahrscheinlichkeitsdichte.

  • In diesem Fall ist \(P(X=x|\Pi=\pi)\) die Wahrscheinlichkeitsdichte unserer Beobachtungen bzw. Daten. Wir nennen sie daher Datendichte

  • Auch der Begriff Likelihood (zu deutsch etwa Plausibilität) wird für die Datendichte benutzt. Hintergund: Bei der Likelihood-Inferenz benutzt man \(P(X=x|\Pi=\pi)\) als Funktion in \(\pi\) (und nicht als Wahrscheinlichkeit von \(x\)).

  • Die Datendichte bzw. Likelihood beschreibt uns allgemein den Zusammenhang zwischen Daten \(x\) und dem unbekannten Wert (Parameter) \(\pi\).

  • Zur Vereinfachung schreiben wir \(f(x|\pi)\) statt \(P(X=x|\Pi=\pi)\): \(f\) als Zeichen dafür, dass es sich um eine Dichte handelt; die Zufallszahlen \(X\) und \(\Pi\) lassen wir weg, weil wir wissen, dass \(x\) und \(\pi\) Realisationen der Zufallsgrößen \(X\) und \(\Pi\) sind.

Weiter

Bayes’ Billardkugeln Teil 1