Lernziele
- Konstruktion konjugierter Prioris
- Anwendung und Kritik subjektiver Prioris
- Konstruktion einfacher nicht-informativer Prioris
Konjugierte Prioris
Wir hatten im Beispiel mit den Billardkugeln festgestellt, dass die Kombination von Binomialverteilung der Daten und Gleichverteilung als Priori gut zusammen passt: Wir erhalten eine bekannte Verteilung als Posteriori.
Allgemein definieren wir:
Eine Familie \(\mathcal{F}\) von Verteilungen auf \(\Theta\) heißt konjugiert, zu einer Dichte \(f(x|\theta)\), wenn für jede Priori \(p(\theta)\) auf \(\mathcal{F}\) die Posteriori \(p(\theta|x)\) ebenfalls zu \(\mathrm{F}\) gehört
Beispiel nach Bayes
Im Beispiel der Billardkugeln hatten wir die Gleichverteilung als Spezialfall der Betaverteilung als Priori und die Betaverteilung als Posteriori.
- Anzahl der Kugeln rechts von der weißen Kugel: \(X\sim B(n,\pi)\)
- Priori-Annahme für \(\pi\): \(\pi\sim Beta(a,b)\) mit \(a=b=1\)
Wir nennen dieses Modell Beta-Binomial-Modell (Beta-Priori und Binomial-Datenmodell). Im Folgenden benutzten wir ganz allgemein die Parameter \(a\) und \(b\) in der Beta-Priori und werden dann auch andere Werte für die Priori-Parameter zulassen.
Man erkennt die Konjugiertheit am ähnlichen Aufbau von Datendichte (eine Funktion in \(x\)) und Priori, bezogen auf den unbekannten Parameter \(\pi\) (wir betrachten hier nur jeweils den Kern der Dichte, lassen also Konstanten weg):
\[ f(x|\pi)\propto\pi^x(1-\pi)^{n-x}. \]
\[ p(\pi)\propto \pi^{a-1}(1-\pi)^{b-1} \]
Zusammen also
\[ p(\pi|x)\propto f(x|\pi)p(\pi) \propto \pi^{x+a-1}(1-\pi)^{n-x+b-1} \]
Posteriori-Parameter
Die Posteriori-Verteilung von \(\pi|x\) ist also eine Beta(\(\tilde{a},\tilde{b}\))-Verteilung mit \(\tilde{a}=x+a\) und \(\tilde{b}=n-x+b\). Die Parameter der Posterioriverteilung, also die Posteriori-Parameter setzten sich jeweils aus Informationen der Priori und der Datendichte zusammen.
Allgemein fasst die Posteriori Information aus der Priori und der Datendichte zusammen.
Hier ist \(\tilde{a}\) die Summe des Priori-Parameters \(a\) und der Anzahl an Erfolgen \(x\). Entsprechend ist \(\tilde{b}\) die Summe des Priori-Parameters \(b\) und der Anzahl an Mißerfolgen \(n-x\).
Rückschluss auf die Priori-Parameter
- Das heißt also, wenn wir \(a\) um eins erhöhen, ergibt sich für die Posteriori das selbe Ergebnis, wie wenn man die Anzahl der Erfolge um eins erhöht.
- \(a\) kann also in gewisser Weise also die Priori-Anzahl an Erfolgen interpretiert werden, entsprechend ist \(b\) die Priori-Anzahl an Mißerfolgen.
Quiz zu konjugierten Prioris
Sei \(X\) Erlang-verteilt mit unbekanntem Parameter \(\lambda\) und bekanntem \(n\). Die Erlang-Verteilung ergibt sich zum Beispiel als Summe von unabhängigen Wartezeiten. Die Dichte der Erlang(\(n,\lambda)\)-verteilung ist
\[ f(x)=\frac{1}{(n-1)!} \lambda^n x^{n-1} \exp(-\lambda x) \]
Sei \(X\sim\) Erlang(\(n,\lambda)\)-verteilt und die Priori-Verteilung \(\lambda\sim\)Ga\((a,b)\).
Informative und subjektive Priori
Wir können also in die Priori-Verteilung “Information reinstecken”. Und zwar theoretisch beliebig viel!
Zu viel Priori-Information
Nehmen wir im Billard-Beispiel als Priori \(\pi\sim Beta(100,100)\) und rollen dann zehn rote Kugeln, die alle links von der weißen Kugel zum liegen kommen. Die Posteriori ist dann \(\pi|x\sim Beta(110,100)\) und die Posteriori-Dichte sieht so aus:
Die Posteriori unterscheidet sich also kaum von der Priori, obwohl die Daten darauf hindeuten, dass die weiße Kugel weit rechts liegt.
Kritik an der Bayes-Inferenz
Die Möglichkeit, mit der Priori die Posteriori – und damit das Ergebnis – weitgehend festzulegen, ist traditionell ein großer Kritikpunkt an der Bayes-Inferenz. Ein derartige Vorfestlegung des Endergebnis entspricht natürlich nicht wissenschaftlichen Grundsätzen.
Als Ausweg daraus kann man nichtinformative Prioris verwenden. Dafür werden wir uns den Begriff der Information noch genauer ansehen müssen.
Ein weiterer Anwendungsbereich der Bayes-Statistik liegt aber genau in der Nutzung von Vorwissen. Dieses kann zum Beispiel aus vorherigen Beobachtungen stammen – wir sprechen von sequentiellem Lernen, siehe dazu das Frosch-Beispiel – oder aus anderen Quellen, z.B. Expertenwissen.
Ein dritter Ansatzpunkt ist, die Priori als Teil der Modellierung zu verwenden. Zum Beispiel in dem man Parameter absichtlich Richtung Null drückt oder Abhängigkeiten zwischen Parametern berücksichtigt. Insbesondere in hochdimensionalen, eventuell überparamtrisierten Modellen ist dies hilfreich. Dazu später mehr.
Nichtinformative Priori
Im Beispiel der Billardkugel hatten wir die Priori-Parameter \(a\) und \(b\) als Priori-Erfolge bzw. Priori-Mißerfolge interpretiert. Intuitiv heißt heißt keine Information, das \(a=0\) und \(b=0\).
Priori ohne Vorinformation
Setzen wir \(a=0\) und \(b=0\) in den Kern der Beta-Verteilung ein, erhalten wir die sogenannte Haldane-Priori:
\[ p(\pi)\propto \pi^{-1}(1-\pi)^{-1} \]
Allerdings: Das Integral \(\int_0^1 \pi^{-1}(1-\pi)^{-1}=\infty\), existiert nicht. Da aber für jede Dichte gelten muss \(\int p(\pi) d\pi=1\), ist \(p(\pi)\) hier keine Dichte ist!
Die Haldane-Priori kann man herleiten als Grenzfall einer Beta(\(a,b\))-Verteilung mit \(a\to 0\) und \(b\to 0\).
Uneigentliche Verteilungen
Das die Haldane-Priori keine Dichte hat, ist aber (erstmal) kein Problem! Wir verwenden diese Uneigentliche Verteilung trotzdem.
Allgemein definieren wir eine uneigentliche oder impropere Verteilung mit Dichte \(f(\theta)\) wie folgt:
- \(f(\theta)\geq 0\) für alle \(\theta\) (wie bei jeder Dichte)
- \(\int f(\theta)d\theta =\infty\) (“eigentlich” müsste das Integral gleich 1 sein)
Aber warum ist das kein Problem?
Posteriori bei uneigentlicher Verteilung
Im Billard-Beispiel haben wir \(\pi\sim\) “Beta(\(0,0\))” - die Verteilung setzen wir hier in Anführungszeichen, denn die Priori ist eigentlich keine Betas-Verteilung. Trotzdem entspricht sie von der Form her der konjugierten Priori. Es gilt also für die Posteriori in diesem Fall:
\[ \begin{align} p(\pi|x) & \propto p(\pi) \cdot f(x|\pi) \\ & \propto \pi^{-1}(1-\pi)^{-1} \cdot \pi^{x}(1-\pi)^{n-x}\\ & \propto \pi^{x-1}(1-\pi)^{n-x-1} \end{align} \]
Dies entspricht der Dichte einer Beta(\(x,n-x\))-Verteilung, wenn \(x>0\) und \(n-x>0\), also wenn wir mindestens einen Erfolg und mindestens einen Mißerfolg beobachtet haben.
- Aus einer uneigentliche Posterioriverteilung können wir keine Schlüsse ziehen: weder können wir eine Posterioriwahrscheinlichkeit berechnen noch einen Posteriori-Erwartungswert
- Die uneigentliche Priori führt aber im Regelfall zu einer eigentlichen oder properen Posterioriverteilung, aus der wir Schlüsse ziehen können.
- Nur in Ausnahmefällen kann eine uneigentliche Posterioriverteilung resultieren – dies muss man im Einzelfall überprüfen.
Laplace-Priori
Bayes hatte in seinem Beispiel die Gleichverteilung benutzt. Laplace formulierte einige Jahre später das Prinzip vom unzureichenden Grund (Indifferenzprinzip):
Wenn keine Gründe dafür bekannt sind, um eines von verschiedenen möglichen Ereignissen zu begünstigen, dann sind die Ereignisse als gleich wahrscheinlich anzusehen.
Bekannt ist die Laplace-Wahrscheinlichkeit für Ergebnisse \(\omega_i\in\Omega\):
\[ P(\omega) = \frac{1}{|\Omega|} \]
mit \(|\Omega|\) die Anzahl der Ergebnisse. Das entspricht einer diskreten Gleichverteilung. Analog spricht man auch bei der stetigen Gleichverteilung von der Laplace-Verteilung.
Laplace-Priori
Die Laplace-Priori ist also ganz allgemein
\[ p(\theta)\propto \text{const.} \]
Sprich: die Dichte von \(\theta\) ist proportional zu einer Konstante (“const.” steht hierbei für eine beliebige Konstante).
Nebenbemerkung
Die stetige Gleichverteilung existiert nur für beschränkte \(\theta\). Wie wir bereits gesehen haben, können wir aber durchaus auch Prioris benutzen, die keine eigentlichen Verteilungen sind. Später verwenden wir also auch \(p(\theta)\propto\) const. als “Gleichverteilung auf den reelen Zahlen”.
Zusammenhang zur Likelihood-Inferenz
Für die Posteriori gilt:
\[ p(\theta|x) \propto p(\theta)\cdot f(x|\theta) \propto f(x|\theta). \]
Die Posteriori ist bei Laplace-Priori also proportional zur Datendichte bzw. Likelihood. Die Schlüsse werden dann nur aus der Likelihood gezogen. Die Bayes-Inferenz entspricht damit in diesem Fall weitgehend der Likelihood-Inferenz.
Informative Gleichverteilung
Kommen wir zurück zum Billard-Beispiel. Wie wir oben gesehen haben, entspricht die Gleichverteilung der Vorinformation “ein Erfolg, ein Mißerfolg”. Die Gleichverteilung ist in diesem Fall also informativ.
Eine weitere Möglichkeit, sich das klar zu machen, ist, sich die Transformation des Parameters anzuschauen. Zum Beispiel können wir statt \(\pi\) den odds \(\rho=\frac{\pi}{1-\pi}\) betrachten. Ist \(\pi\sim U[0,1]\), dann lässt sich mit dem Transformationssatz für Dichten zeigen:
\[ p(\rho)=\frac{1}{(1+\rho)^2} \]
\(\rho\) ist offensichtlich nicht gleichverteilt.
Schlüsse
Das heißt also
- Die Laplace-Priori bzw. Gleichverteilung führt dazu, dass die Posteriori der Likelihood entspricht.
- Die Laplace-Priori bzw. Gleichverteilung kann Information enthalten
- Benutzt man die Laplace-Priori auf einem transformierten Parameter, so kann dies zu einem anderen Posteriori-Ergebnis führen.
Für eine nicht-informative Priori ist also eine sinnvolle Forderung, das die Transformation des Parameters erneut zu einer nicht-informativen Priori führt.
Jeffreys’ Priori
Die von Harold Jeffreys entwickelte und nach ihm benannte Jeffreys’ Priori ist invariant gegenüber Reparametrisierungen.
Wenn also \(p^{*}(\theta)\) eine Jeffreys-Priori ist, und \(\phi\) eine beliebige Funktion, dann ist \(p^{*}(\phi(\theta))\) wieder eine Jeffreys-Priori für \(\phi(\theta)\).
Fisher-Information
Jeffreys’ Priori ergibt sich aus der sogenannten Fisher-Information.
Die Score-Funktion ist definiert als Ableitung des Logarithmus der Likelihood bezüglich des Parameters:
\[ S_\theta(x):=\frac{d}{d\theta} \ln f(x,\theta) \]
Setzt man die Score-Funktion gleich Null und löst nach \(\theta\) auf, findet man das Maximum der Likelihood (also den Maximum-Likelihood-Schätzer).
Die Fisher-Information (als Funktion in \(\theta\) ist definiert als Varianz der Scorefunktion (die ja eine Funktion in \(x\) ist) in Abhängigkeit vom Parameter \(\theta\)
\[ I(\theta):=\operatorname{Var}(S_\theta) \]
Die Fisher-Information kann damit als Krümmung der Log-Likelihood angesehen werden. In der Nähe der Maximum-Likelihood-Schätzung zeigt eine niedrige Fisher-Information daher an, dass das Maximum relativ flach flach ist, d.h. es gibt viele nahe gelegene Werte mit einer ähnlichen Log-Likelihood. Umgekehrt zeigt eine hohe Fisher-Information an, dass das Maximum heraussticht ist.
- Neben der Fisher-Information gibt es noch andere mathematische Informationsbegriffe wie die Information nach Shannon, die wir später kennen lernen.
Jeffreys’ Priori
Jeffreys’ Priori ist definiert als Wurzel aus der Fisherinformation:
\[ p^{*}(\theta) \propto I^{1/2}(\theta) \] Beispiel: Exponentialverteilung
Sei \(X\sim Exp(\lambda)\). Dann ist die Dichtefunktion \(f(x)= \lambda \exp (- \lambda x)\)
Damit ist die Score-Funktion
\[ S_\lambda(x)=\frac{d}{d\lambda} \ln f(x)=\frac{d}{d\lambda}\left( \ln(\lambda) - \lambda x\right)=\frac 1 \lambda - x \]
Die Fisher-Information ergibt sich als
\[ I(\lambda)=\operatorname{Var}(S_\lambda)= \operatorname{Var}\left(\frac 1 \lambda - x\right)= \operatorname{Var}(x)=\frac{1}{\lambda^2} \] und Jeffreys’ Priori für den Parameter \(\lambda\) der Exponentialverteilung ist
\[ p(\lambda)\propto\frac{1}{\lambda^2}=\lambda^{-1} \]
Diese Priori lässt sich als Spezialfall der Gamma-Verteilung \(Ga(a,b)\) mit \(a\to 0\) und \(b\to 0\) interpretieren.
Information
- Jeffreys’ Priori gilt als nicht-informative Priori-Verteilung
Nicht-informative Prioris
Wir haben in unserem Beispiel drei verschiedene Arten von nicht-informativen Prioris kennen gelernt:
- Laplace-Priori, also die Gleichverteilung
- Jeffreys’ Priori, mit der Eigenschaft der Transformationsinvariabilität
- Haldane’s Priori, als Beispiel für eine uneigentliche Prioriverteilung
Auswirkungen auf die Posteriori
Diese Prioris unterscheiden sich aber nur geringfügig. Schon bei wenigen Beobachtungen (in der Graphik \(n=30, x=16\)) ergeben sich kaum Unterschiede in der Posteriori
Wiederholung und Bemerkungen
- Die Gleichverteilung (Laplace-Priori) kann unter Umständen Information enthalten.
- Jeffreys’ Priori entspricht nicht unbedingt der intuitiv nicht-informativen Priori (hier Haldane).
- Jeffreys’ Priori kann uneigentlich sein, muss sie aber nicht sein.
- Eine nichtinformative Priori kann auch die konjugierte sein, eventuell auch als Grenzfall der konjugierten Priori.
- Viele flache (nichtinformative) Prioris sind nicht proper. Dies ist unproblematisch, solange die Posteriori proper ist
- Gerne benutzt man auch “relativ” flache Prioris, die proper sind (zum Beispiel statt der stetigen Gleichverteilung auf ganz \(\mathbb{R}\)), siehe Abschnitt Normalverteilung.