Poisson-Modell
Folgende Graphik zeigt die monatliche Anzahl von schwerverletzten oder getöteten Kindern (6 bis 10 Jahre) im Straßenverkehr in Linz von 1987 bis 2002.
Poissonverteilung
Für Zählvariablen, insbesondere für seltene Ereignisse, wie in diesem Fall, bietet sich die Poisson-Verteilung an. Für die Anzahl \(x_t\) zum Zeitpunkt \(t\) gilt
\[ X_t \sim Po(\lambda) \]
Der Parameter \(\lambda\) ist der Erwartungswert von \(X_t\), also die erwartete Anzahl von Fällen zum Zeitpunkt \(t\). Gleichzeitig ist Var\((X_t)=\lambda\); der Parameter bestimmt also Erwartungswert und Varianz.
Anmerkung: Die Poisson-Verteilung ergibt sich auch als Approximation der Binomialverteilung für kleine π.
Datendichte
Die Datendichte (hier eine Wahrscheinlichkeitsdichte) für einen Monat \(t\) hat die Form
\[ f(x_t|\lambda) = \frac{\lambda^{x_t}}{x_t!} \exp(-\lambda) \]
Dabei ist \(\lambda\) der unbekannte Parameter, interpretierbar als Rate von Fällen pro Zeiteinheit (hier Monat),
- Wir gehen davon aus, dass die monatlichen Anzahlen voneinander unabhängig sind.
- Für unabhängige Zufallsvariablen gilt: die gemeinsame Dichte ist das Produkt der einzelnen Dichten.
- Damit ergibt sich für die kompletten Daten \(x=(x_1,\ldots,x_n)\) (mit \(n=192\))
\[\begin{eqnarray*} f(x|\lambda)&=&\prod_{t=1}^{n} f(x_t|\lambda)\\ &=&\frac{\lambda^{x_t}}{x_t!} \exp(-\lambda)\\ &=& \frac{\lambda^{\sum_{t=1}^n x_t}}{\prod_{t=1}^{n} x_t!} \exp(-n\lambda) \end{eqnarray*}\]
Fragestellungen
Wir wollen aus den Daten Lernen:
- Welchen Wert hat die Rate \(\lambda\)?
- Wie hoch ist die Unsicherheit der Schätzung von \(\lambda\)?
- Wieviele Kinder werden im kommenden Monat einen schwerwiegenden Verkehrsunfall haben (Prognose)?
Priori
Konjugierte Priori
Die konjugierte Priori ist die Gamma-Verteilung \(\lambda \sim \text{Ga}(a,b)\) mit Dichte
\[ p(\lambda) = \frac{b^a}{\Gamma(a)}\lambda^{a-1}\exp(-b\lambda) \]
Dabei ist \(\Gamma(a)\) die Gamma-Funktion mit Definition \(\Gamma(a) = \int_0^\infty t^{a-1} \exp{-t} dt\). Die Gamma-Funktion ist eine Verallgemeinerung der Fakultät, für natürlich Zahlen gilt: \(\Gamma(a+1)=a!\).
Der Erwartungswert der Gamma-Verteilung ist \(\frac{a}{b}\), die Varianz ist \(\frac{a}{b^2}\). Wir können die Priori-Parameter also zum einen so wählen, dass \(a/b\) der Wert ist, den wir für \(\lambda\) a priori annehmen, z.B. \(a=b\), womit der Priori-Erwartungswert 1 wäre.
Zum anderen können wir über die Priori-Varianz bestimmen, wie viel Information wir a priori geben. Große Varianz heißt wenig Information. Zum Beispiel wird oft \(a=b=0.001\) verwendet, so dass die Priori-Varianz gleich 1000 ist.
Konjugierte Posteriori
Kombiniert man Poisson-Daten-Dichte und Gamma-Priori-Dichte, erhält man mit \(\bar{x}=\frac{1}{n}\sum_{t=1}^nx_t\):
\[ p(\lambda|x) \propto \lambda^{n\bar{x}} \exp(-n\lambda) \cdot \lambda^{a-1}\exp(-b\lambda) \\ = \lambda^{a+n\bar{x}-1} \exp(-\lambda (b+n)) \]
Also \(\lambda|x \sim\) Ga\((a+n\bar{x}, b+n)\).
Jeffreys’ Priori
- Jeffreys’ Priori ergibt sich in diesem Fall als
\[ p(\lambda) \propto \lambda^{-1/2} \]
- Das entspricht dem Grenzfall der Gamma-Verteilung mit \(a=1/2\) und \(b\to 0\).
- In diesme Fall Jeffreys’ Priori also eine uneigentliche konjugierte Priori.
Punktschätzer
Im Folgenden benutzen wird als Priori-Parameter \(a=b=0.001\). Aus den Daten ergibt sich \(n=192\) und \(\bar{x}\approx1.8385\).
Die Posteriori ist also
\[ \lambda|x \sim \text{Ga}(0.001+192\cdot1.8385,0.001+192) \sim \text{Ga}(352.993,192.001) \]
Welche Schlüsse können wir nun aus der Posteriori ziehen? Zuerst wollen wir für \(\lambda\) einen Punktschätzer angeben.
Posteriori-Erwartungswert
Wir kennen bereits den Posteriori-Erwartungswert als Punktschätzer:
\[ {\hat{\lambda}}_{PE}=E(\lambda|x)=\frac{a+n\bar{x}}{b+n}=\frac{352.993}{192.001}=1.8385 \]
Interpretation: Welchen Wert für \(\lambda\) erwarten wir gegeben der Beobachtung?
Posteriori-Modus
Ein alternativer Ansatz wäre es, den Wert zu nehmen, der die höchste Dichte hat:
\[ \hat{\lambda}_{MAP}=\text{argmax}_{\lambda}(p(\lambda|x))=\frac{a-1+n\bar{x}}{b+n}=\frac{351.993}{192.001}=1.8332 \]
Wir nennen dieses Schätzer denn Posteriori-Modus oder aus Maximum-A-Posteriori-Schätzer (MAP-Schätzer).
Posteriori-Median
Zuletzt lässt sich auch der Posteriori-Median als Punktschätzer verwenden:
\[ \hat{\lambda}_{med}=\text{Median}(\lambda|x)=F_{\text{Ga}(352.993,192.001)}(0.5)\approx 1.8368 \]
Interpretation: Der Posteriori-Median ist der “mittlere” Wert, den wir für \(\lambda\) a posteriori erwarten.
Drei Schätzer
Nun haben wir drei verschiedene mögliche Punktschätzer:
- Posteriori-Erwartungswert
- Posteriori-Modus (MAP)
- Posteriori-Median
Welcher ist den nun der beste Schätzer?
Theoretisch
Welcher Schätzer der Beste ist, hängt davon ab, wie man “Bester” definiert. Das wiederum hängt davon ab, was man als “schlecht” definiert: Wie bewertet man die Abweichung zwischen geschätztem Wert und wahren Wert. In der Entscheidungstheorie benutzt man dazu eine Verlustfunktion. Es stellt sich heraus:
- Bei quadratischer Verlustfunktion ist der Posteriori-Erwartungswert der beste Schätzer
- Bei absoluter Verlustfunktion ist der Posteriori-Median der beste Schätzer
- Bei 0/1-Verlustfunktion ist der Posteriori-Modus der beste Schätzer
Praxis
Praktisch betrachet fällt erstmal auf, dass sich die Werte der drei Schätzer in unserem Beispiel kaum unterscheiden:
- \(\hat{\lambda}_{PE}=1.8385\)
- \(\hat{\lambda}_{MAP}=1.8332\)
- \(\hat{\lambda}_{med}=1.8368\)
Für symmetrische Posteriori-Verteilungen fallen die drei Schätzer sogar zusammen!
Berechnung
In der Praxis ist auch wichtig, ob der Schätzer leicht berechnet werden kann:
- Der Erwartungswert ist bei Standard-Verteilungen bekannt. Für konjugierte Prioris können wir den Posteriori-Erwartungswert einfach durch Aufdatieren der Priori-Parameter erhalten.
- Für Nicht-Standard-Verteilungen ist der Erwartungswert dagegen schwer zu berechnen: Er ist entweder als Integral oder Summe (mit eventuell unendlich vielen Termen) definiert.
- Der Modus ist nur für wenige Standard-Verteilungen explizit als Formel bekannt (z.B. bei der Poisson-Verteilung).
- Oft kann der Modus nur durch numerische Optimierung maximiert werden. Dafür gibt es allerdings vielfältige etablierte Algorithmen.
- Der MAP-Schätzer hat zudem folgende schöne Eigenschaft:
- Für flache Prioris (\(p(\theta)\propto\) const.) ist bekanntlich die Posteriori gleich der Datendichte bzw. Likelihood
- maximiert man in diesem Fall die Posteriori, maximiert man also die Likelihood.
- der MAP-Schätzer und der Maximum-Likelihood-Schätzer fallen unter flacher Priori also zusammen. Die Eigenschaften des ML-Schätzers gelten dann auch für den MAP-Schätzer.
- Für andere Prioris entspricht der MAP-Schätzer einem penalisierten ML-Schätzer.
- Der Posteriori-Median ist nur einfach zu berechnen, wenn die Verteilungsfunktion (bzw. deren Inverse) bekannt ist.
- Später werden wir die Posteriori nur approxmieren können, z.B. in dem wir aus der Posteriori-Verteilung Zufallszahlen ziehen. Dann hat der Posteriori-Median den Vorteil, dass er robuster gegenüber Ausreißer ist.
- Der Median liegt im Allgemeinen zwischen dem Erwartungswert und dem Modus
Weitere Eigenschaften
- Der Posteriori-Erwartungswert ist eventuell ein verzerrter Schätzer
- MAP und PE sind nicht invariant bezüglich streng monotoner Transformationen des Parameters
Quiz
Kommen wir zurück zu Bayes’ Billardkugel-Beispiel bzw. dem Beta-Binomial-Modell.
Sei \(X\sim B(n,\pi)\) und a priori \(\pi\sim\)Beta\((a,b)\).
Sei im Beta-Binomial-Modell \(a=b=1\), \(n\) gerade und \(x=n/2\). Dann ist