Beta-Binomial-Modell

Lernziele

Konstruktion konjugierter Prioris
Anwendung und Kritik subjektiver Prioris
Konstruktion einfacher nicht-informativer Prioris

Konjugierte Prioris

Wir hatten im Beispiel mit den Billardkugeln festgestellt, dass die Kombination von Binomialverteilung der Daten und Gleichverteilung als Priori gut zusammen passt: Wir erhalten eine bekannte Verteilung als Posteriori.

Allgemein definieren wir:

Eine Familie \(\mathcal{F}\) von Verteilungen auf \(\Theta\) heißt konjugiert, zu einer Dichte \(f(x|\theta)\), wenn für jede Priori \(p(\theta)\) auf \(\mathcal{F}\) die Posteriori \(p(\theta|x)\) ebenfalls zu \(\mathrm{F}\) gehört

Beispiel nach Bayes

Im Beispiel der Billardkugeln hatten wir die Gleichverteilung als Spezialfall der Betaverteilung als Priori und die Betaverteilung als Posteriori.

Anzahl der Kugeln rechts von der weißen Kugel: \(X\sim B(n,\pi)\)
Priori-Annahme für \(\pi\): \(\pi\sim Beta(a,b)\) mit \(a=b=1\)

Wir nennen dieses Modell Beta-Binomial-Modell (Beta-Priori und Binomial-Datenmodell). Im Folgenden benutzten wir ganz allgemein die Parameter \(a\) und \(b\) in der Beta-Priori und werden dann auch andere Werte für die Priori-Parameter zulassen.

Man erkennt die Konjugiertheit am ähnlichen Aufbau von Datendichte (eine Funktion in \(x\)) und Priori, bezogen auf den unbekannten Parameter \(\pi\) (wir betrachten hier nur jeweils den Kern der Dichte, lassen also Konstanten weg):

\[ f(x|\pi)\propto\pi^x(1-\pi)^{n-x}. \]

\[ p(\pi)\propto \pi^{a-1}(1-\pi)^{b-1} \]

Zusammen also

\[ p(\pi|x)\propto f(x|\pi)p(\pi) \propto \pi^{x+a-1}(1-\pi)^{n-x+b-1} \]

Posteriori-Parameter

Die Posteriori-Verteilung von \(\pi|x\) ist also eine Beta(\(\tilde{a},\tilde{b}\))-Verteilung mit \(\tilde{a}=x+a\) und \(\tilde{b}=n-x+b\). Die Parameter der Posterioriverteilung, also die Posteriori-Parameter setzten sich jeweils aus Informationen der Priori und der Datendichte zusammen.
Allgemein fasst die Posteriori Information aus der Priori und der Datendichte zusammen.
Hier ist \(\tilde{a}\) die Summe des Priori-Parameters \(a\) und der Anzahl an Erfolgen \(x\). Entsprechend ist \(\tilde{b}\) die Summe des Priori-Parameters \(b\) und der Anzahl an Mißerfolgen \(n-x\).

Rückschluss auf die Priori-Parameter

Das heißt also, wenn wir \(a\) um eins erhöhen, ergibt sich für die Posteriori das selbe Ergebnis, wie wenn man die Anzahl der Erfolge um eins erhöht.
\(a\) kann also in gewisser Weise also die Priori-Anzahl an Erfolgen interpretiert werden, entsprechend ist \(b\) die Priori-Anzahl an Mißerfolgen.

Quiz zu konjugierten Prioris

Sei \(X\) Erlang-verteilt mit unbekanntem Parameter \(\lambda\) und bekanntem \(n\). Die Erlang-Verteilung ergibt sich zum Beispiel als Summe von unabhängigen Wartezeiten. Die Dichte der Erlang(\(n,\lambda)\)-verteilung ist

\[ f(x)=\frac{1}{(n-1)!} \lambda^n x^{n-1} \exp(-\lambda x) \]

Quiz

Sei \(X\sim\) Erlang(\(n,\lambda)\)-verteilt und die Priori-Verteilung \(\lambda\sim\)Ga\((a,b)\).

Quiz

Informative und subjektive Priori

Wir können also in die Priori-Verteilung “Information reinstecken”. Und zwar theoretisch beliebig viel!

Zu viel Priori-Information

Nehmen wir im Billard-Beispiel als Priori \(\pi\sim Beta(100,100)\) und rollen dann zehn rote Kugeln, die alle links von der weißen Kugel zum liegen kommen. Die Posteriori ist dann \(\pi|x\sim Beta(110,100)\) und die Posteriori-Dichte sieht so aus:

Die Posteriori unterscheidet sich also kaum von der Priori, obwohl die Daten darauf hindeuten, dass die weiße Kugel weit rechts liegt.

Kritik an der Bayes-Inferenz

Die Möglichkeit, mit der Priori die Posteriori – und damit das Ergebnis – weitgehend festzulegen, ist traditionell ein großer Kritikpunkt an der Bayes-Inferenz. Ein derartige Vorfestlegung des Endergebnis entspricht natürlich nicht wissenschaftlichen Grundsätzen.

Als Ausweg daraus kann man nichtinformative Prioris verwenden. Dafür werden wir uns den Begriff der Information noch genauer ansehen müssen.

Ein weiterer Anwendungsbereich der Bayes-Statistik liegt aber genau in der Nutzung von Vorwissen. Dieses kann zum Beispiel aus vorherigen Beobachtungen stammen – wir sprechen von sequentiellem Lernen, siehe dazu das Frosch-Beispiel – oder aus anderen Quellen, z.B. Expertenwissen.

Ein dritter Ansatzpunkt ist, die Priori als Teil der Modellierung zu verwenden. Zum Beispiel in dem man Parameter absichtlich Richtung Null drückt oder Abhängigkeiten zwischen Parametern berücksichtigt. Insbesondere in hochdimensionalen, eventuell überparamtrisierten Modellen ist dies hilfreich. Dazu später mehr.

Nichtinformative Priori

Im Beispiel der Billardkugel hatten wir die Priori-Parameter \(a\) und \(b\) als Priori-Erfolge bzw. Priori-Mißerfolge interpretiert. Intuitiv heißt heißt keine Information, das \(a=0\) und \(b=0\).

Priori ohne Vorinformation

Setzen wir \(a=0\) und \(b=0\) in den Kern der Beta-Verteilung ein, erhalten wir die sogenannte Haldane-Priori:

\[ p(\pi)\propto \pi^{-1}(1-\pi)^{-1} \]

Allerdings: Das Integral \(\int_0^1 \pi^{-1}(1-\pi)^{-1}=\infty\), existiert nicht. Da aber für jede Dichte gelten muss \(\int p(\pi) d\pi=1\), ist \(p(\pi)\) hier keine Dichte ist!

Die Haldane-Priori kann man herleiten als Grenzfall einer Beta(\(a,b\))-Verteilung mit \(a\to 0\) und \(b\to 0\).

Uneigentliche Verteilungen

Das die Haldane-Priori keine Dichte hat, ist aber (erstmal) kein Problem! Wir verwenden diese Uneigentliche Verteilung trotzdem.

Allgemein definieren wir eine uneigentliche oder impropere Verteilung mit Dichte \(f(\theta)\) wie folgt:

\(f(\theta)\geq 0\) für alle \(\theta\) (wie bei jeder Dichte)
\(\int f(\theta)d\theta =\infty\) (“eigentlich” müsste das Integral gleich 1 sein)

Aber warum ist das kein Problem?

Posteriori bei uneigentlicher Verteilung

Im Billard-Beispiel haben wir \(\pi\sim\) “Beta(\(0,0\))” - die Verteilung setzen wir hier in Anführungszeichen, denn die Priori ist eigentlich keine Betas-Verteilung. Trotzdem entspricht sie von der Form her der konjugierten Priori. Es gilt also für die Posteriori in diesem Fall:

\[ \begin{align} p(\pi|x) & \propto p(\pi) \cdot f(x|\pi) \\ & \propto \pi^{-1}(1-\pi)^{-1} \cdot \pi^{x}(1-\pi)^{n-x}\\ & \propto \pi^{x-1}(1-\pi)^{n-x-1} \end{align} \]

Dies entspricht der Dichte einer Beta(\(x,n-x\))-Verteilung, wenn \(x>0\) und \(n-x>0\), also wenn wir mindestens einen Erfolg und mindestens einen Mißerfolg beobachtet haben.

Aus einer uneigentliche Posterioriverteilung können wir keine Schlüsse ziehen: weder können wir eine Posterioriwahrscheinlichkeit berechnen noch einen Posteriori-Erwartungswert
Die uneigentliche Priori führt aber im Regelfall zu einer eigentlichen oder properen Posterioriverteilung, aus der wir Schlüsse ziehen können.
Nur in Ausnahmefällen kann eine uneigentliche Posterioriverteilung resultieren – dies muss man im Einzelfall überprüfen.

Laplace-Priori

Bayes hatte in seinem Beispiel die Gleichverteilung benutzt. Laplace formulierte einige Jahre später das Prinzip vom unzureichenden Grund (Indifferenzprinzip):

Wenn keine Gründe dafür bekannt sind, um eines von verschiedenen möglichen Ereignissen zu begünstigen, dann sind die Ereignisse als gleich wahrscheinlich anzusehen.

Bekannt ist die Laplace-Wahrscheinlichkeit für Ergebnisse \(\omega_i\in\Omega\):

\[ P(\omega) = \frac{1}{|\Omega|} \]

mit \(|\Omega|\) die Anzahl der Ergebnisse. Das entspricht einer diskreten Gleichverteilung. Analog spricht man auch bei der stetigen Gleichverteilung von der Laplace-Verteilung.

Laplace-Priori

Die Laplace-Priori ist also ganz allgemein

\[ p(\theta)\propto \text{const.} \]

Sprich: die Dichte von \(\theta\) ist proportional zu einer Konstante (“const.” steht hierbei für eine beliebige Konstante).

Nebenbemerkung

Die stetige Gleichverteilung existiert nur für beschränkte \(\theta\). Wie wir bereits gesehen haben, können wir aber durchaus auch Prioris benutzen, die keine eigentlichen Verteilungen sind. Später verwenden wir also auch \(p(\theta)\propto\) const. als “Gleichverteilung auf den reelen Zahlen”.

Zusammenhang zur Likelihood-Inferenz

Für die Posteriori gilt:

\[ p(\theta|x) \propto p(\theta)\cdot f(x|\theta) \propto f(x|\theta). \]

Die Posteriori ist bei Laplace-Priori also proportional zur Datendichte bzw. Likelihood. Die Schlüsse werden dann nur aus der Likelihood gezogen. Die Bayes-Inferenz entspricht damit in diesem Fall weitgehend der Likelihood-Inferenz.

Informative Gleichverteilung

Kommen wir zurück zum Billard-Beispiel. Wie wir oben gesehen haben, entspricht die Gleichverteilung der Vorinformation “ein Erfolg, ein Mißerfolg”. Die Gleichverteilung ist in diesem Fall also informativ.

Eine weitere Möglichkeit, sich das klar zu machen, ist, sich die Transformation des Parameters anzuschauen. Zum Beispiel können wir statt \(\pi\) den odds \(\rho=\frac{\pi}{1-\pi}\) betrachten. Ist \(\pi\sim U[0,1]\), dann lässt sich mit dem Transformationssatz für Dichten zeigen:

\[ p(\rho)=\frac{1}{(1+\rho)^2} \]

\(\rho\) ist offensichtlich nicht gleichverteilt.

Schlüsse

Das heißt also

Die Laplace-Priori bzw. Gleichverteilung führt dazu, dass die Posteriori der Likelihood entspricht.
Die Laplace-Priori bzw. Gleichverteilung kann Information enthalten
Benutzt man die Laplace-Priori auf einem transformierten Parameter, so kann dies zu einem anderen Posteriori-Ergebnis führen.

Für eine nicht-informative Priori ist also eine sinnvolle Forderung, das die Transformation des Parameters erneut zu einer nicht-informativen Priori führt.

Jeffreys’ Priori

Die von Harold Jeffreys entwickelte und nach ihm benannte Jeffreys’ Priori ist invariant gegenüber Reparametrisierungen.

Wenn also \(p^{*}(\theta)\) eine Jeffreys-Priori ist, und \(\phi\) eine beliebige Funktion, dann ist \(p^{*}(\phi(\theta))\) wieder eine Jeffreys-Priori für \(\phi(\theta)\).

Fisher-Information

Jeffreys’ Priori ergibt sich aus der sogenannten Fisher-Information.

Die Score-Funktion ist definiert als Ableitung des Logarithmus der Likelihood bezüglich des Parameters:

\[ S_\theta(x):=\frac{d}{d\theta} \ln f(x,\theta) \]

Setzt man die Score-Funktion gleich Null und löst nach \(\theta\) auf, findet man das Maximum der Likelihood (also den Maximum-Likelihood-Schätzer).

Die Fisher-Information (als Funktion in \(\theta\) ist definiert als Varianz der Scorefunktion (die ja eine Funktion in \(x\) ist) in Abhängigkeit vom Parameter \(\theta\)

\[ I(\theta):=\operatorname{Var}(S_\theta) \]

Die Fisher-Information kann damit als Krümmung der Log-Likelihood angesehen werden. In der Nähe der Maximum-Likelihood-Schätzung zeigt eine niedrige Fisher-Information daher an, dass das Maximum relativ flach flach ist, d.h. es gibt viele nahe gelegene Werte mit einer ähnlichen Log-Likelihood. Umgekehrt zeigt eine hohe Fisher-Information an, dass das Maximum heraussticht ist.

Neben der Fisher-Information gibt es noch andere mathematische Informationsbegriffe wie die Information nach Shannon, die wir später kennen lernen.

Jeffreys’ Priori

Jeffreys’ Priori ist definiert als Wurzel aus der Fisherinformation:

\[ p^{*}(\theta) \propto I^{1/2}(\theta) \] Beispiel: Exponentialverteilung

Sei \(X\sim Exp(\lambda)\). Dann ist die Dichtefunktion \(f(x)= \lambda \exp (- \lambda x)\)

Damit ist die Score-Funktion

\[ S_\lambda(x)=\frac{d}{d\lambda} \ln f(x)=\frac{d}{d\lambda}\left( \ln(\lambda) - \lambda x\right)=\frac 1 \lambda - x \]

Die Fisher-Information ergibt sich als

\[ I(\lambda)=\operatorname{Var}(S_\lambda)= \operatorname{Var}\left(\frac 1 \lambda - x\right)= \operatorname{Var}(x)=\frac{1}{\lambda^2} \] und Jeffreys’ Priori für den Parameter \(\lambda\) der Exponentialverteilung ist

\[ p(\lambda)\propto\sqrt{\frac{1}{\lambda^2}}=\lambda^{-1} \]

Diese Priori lässt sich als Spezialfall der Gamma-Verteilung \(Ga(a,b)\) mit \(a\to 0\) und \(b\to 0\) interpretieren.

Information

Jeffreys’ Priori gilt als nicht-informative Priori-Verteilung

Nicht-informative Prioris

Wir haben in unserem Beispiel drei verschiedene Arten von nicht-informativen Prioris kennen gelernt:

Laplace-Priori, also die Gleichverteilung
Jeffreys’ Priori, mit der Eigenschaft der Transformationsinvariabilität
Haldane’s Priori, als Beispiel für eine uneigentliche Prioriverteilung

Auswirkungen auf die Posteriori

Diese Prioris unterscheiden sich aber nur geringfügig. Schon bei wenigen Beobachtungen (in der Graphik \(n=30, x=16\)) ergeben sich kaum Unterschiede in der Posteriori

Wiederholung und Bemerkungen

Die Gleichverteilung (Laplace-Priori) kann unter Umständen Information enthalten.
Jeffreys’ Priori entspricht nicht unbedingt der intuitiv nicht-informativen Priori (hier Haldane).
Jeffreys’ Priori kann uneigentlich sein, muss sie aber nicht sein.

Eine nichtinformative Priori kann auch die konjugierte sein, eventuell auch als Grenzfall der konjugierten Priori.
Viele flache (nichtinformative) Prioris sind nicht proper. Dies ist unproblematisch, solange die Posteriori proper ist
Gerne benutzt man auch “relativ” flache Prioris, die proper sind (zum Beispiel statt der stetigen Gleichverteilung auf ganz \(\mathbb{R}\)), siehe Abschnitt Normalverteilung.

Quiz zu informativen und subjektiven Prioris

Quiz

Lernziele

Konjugierte Prioris

Beispiel nach Bayes

Posteriori-Parameter

Rückschluss auf die Priori-Parameter

Quiz zu konjugierten Prioris

Informative und subjektive Priori

Zu viel Priori-Information

Kritik an der Bayes-Inferenz

Nichtinformative Priori

Priori ohne Vorinformation

Uneigentliche Verteilungen

Posteriori bei uneigentlicher Verteilung

Laplace-Priori

Laplace-Priori

Nebenbemerkung

Zusammenhang zur Likelihood-Inferenz

Informative Gleichverteilung

Schlüsse

Jeffreys’ Priori

Fisher-Information

Jeffreys’ Priori

Information

Nicht-informative Prioris

Auswirkungen auf die Posteriori

Wiederholung und Bemerkungen

Quiz zu informativen und subjektiven Prioris

Weiter

Beta-Binomial-Modell