Poisson-Modell

Folgende Graphik zeigt die monatliche Anzahl von schwerverletzten oder getöteten Kindern (6 bis 10 Jahre) im Straßenverkehr in Linz von 1987 bis 2002.

Poissonverteilung

Für Zählvariablen, insbesondere für seltene Ereignisse, wie in diesem Fall, bietet sich die Poisson-Verteilung an. Für die Anzahl \(x_t\) zum Zeitpunkt \(t\) gilt

\[ X_t \sim Po(\lambda) \]

Der Parameter \(\lambda\) ist der Erwartungswert von \(X_t\), also die erwartete Anzahl von Fällen zum Zeitpunkt \(t\). Gleichzeitig ist Var\((X_t)=\lambda\); der Parameter bestimmt also Erwartungswert und Varianz.

Anmerkung: Die Poisson-Verteilung ergibt sich auch als Approximation der Binomialverteilung für kleine π.

Datendichte

Die Datendichte (hier eine Wahrscheinlichkeitsdichte) für einen Monat \(t\) hat die Form

\[ f(x_t|\lambda) = \frac{\lambda^{x_t}}{x_t!} \exp(-\lambda) \]

Dabei ist \(\lambda\) der unbekannte Parameter, interpretierbar als Rate von Fällen pro Zeiteinheit (hier Monat),

Wir gehen davon aus, dass die monatlichen Anzahlen voneinander unabhängig sind.
Für unabhängige Zufallsvariablen gilt: die gemeinsame Dichte ist das Produkt der einzelnen Dichten.
Damit ergibt sich für die kompletten Daten \(x=(x_1,\ldots,x_n)\) (mit \(n=192\))

\[\begin{eqnarray*} f(x|\lambda)&=&\prod_{t=1}^{n} f(x_t|\lambda)\\ &=&\frac{\lambda^{x_t}}{x_t!} \exp(-\lambda)\\ &=& \frac{\lambda^{\sum_{t=1}^n x_t}}{\prod_{t=1}^{n} x_t!} \exp(-n\lambda) \end{eqnarray*}\]

Fragestellungen

Wir wollen aus den Daten Lernen:

Welchen Wert hat die Rate \(\lambda\)?
Wie hoch ist die Unsicherheit der Schätzung von \(\lambda\)?
Wieviele Kinder werden im kommenden Monat einen schwerwiegenden Verkehrsunfall haben (Prognose)?

Priori

Konjugierte Priori

Die konjugierte Priori ist die Gamma-Verteilung \(\lambda \sim \text{Ga}(a,b)\) mit Dichte

\[ p(\lambda) = \frac{b^a}{\Gamma(a)}\lambda^{a-1}\exp(-b\lambda) \]

Dabei ist \(\Gamma(a)\) die Gamma-Funktion mit Definition \(\Gamma(a) = \int_0^\infty t^{a-1} \exp{-t} dt\). Die Gamma-Funktion ist eine Verallgemeinerung der Fakultät, für natürlich Zahlen gilt: \(\Gamma(a+1)=a!\).

Der Erwartungswert der Gamma-Verteilung ist \(\frac{a}{b}\), die Varianz ist \(\frac{a}{b^2}\). Wir können die Priori-Parameter also zum einen so wählen, dass \(a/b\) der Wert ist, den wir für \(\lambda\) a priori annehmen, z.B. \(a=b\), womit der Priori-Erwartungswert 1 wäre.

Zum anderen können wir über die Priori-Varianz bestimmen, wie viel Information wir a priori geben. Große Varianz heißt wenig Information. Zum Beispiel wird oft \(a=b=0.001\) verwendet, so dass die Priori-Varianz gleich 1000 ist.

Konjugierte Posteriori

Kombiniert man Poisson-Daten-Dichte und Gamma-Priori-Dichte, erhält man mit \(\bar{x}=\frac{1}{n}\sum_{t=1}^nx_t\):

\[ p(\lambda|x) \propto \lambda^{n\bar{x}} \exp(-n\lambda) \cdot \lambda^{a-1}\exp(-b\lambda) \\ = \lambda^{a+n\bar{x}-1} \exp(-\lambda (b+n)) \]

Also \(\lambda|x \sim\) Ga\((a+n\bar{x}, b+n)\).

Jeffreys’ Priori

Jeffreys’ Priori ergibt sich in diesem Fall als

\[ p(\lambda) \propto \lambda^{-1/2} \]

Das entspricht dem Grenzfall der Gamma-Verteilung mit \(a=1/2\) und \(b\to 0\).
In diesme Fall Jeffreys’ Priori also eine uneigentliche konjugierte Priori.

Punktschätzer

Im Folgenden benutzen wird als Priori-Parameter \(a=b=0.001\). Aus den Daten ergibt sich \(n=192\) und \(\bar{x}\approx1.8385\).

Die Posteriori ist also

\[ \lambda|x \sim \text{Ga}(0.001+192\cdot1.8385,0.001+192) \sim \text{Ga}(352.993,192.001) \]

Welche Schlüsse können wir nun aus der Posteriori ziehen? Zuerst wollen wir für \(\lambda\) einen Punktschätzer angeben.

Posteriori-Erwartungswert

Wir kennen bereits den Posteriori-Erwartungswert als Punktschätzer:

\[ {\hat{\lambda}}_{PE}=E(\lambda|x)=\frac{a+n\bar{x}}{b+n}=\frac{352.993}{192.001}=1.8385 \]

Interpretation: Welchen Wert für \(\lambda\) erwarten wir gegeben der Beobachtung?

Posteriori-Modus

Ein alternativer Ansatz wäre es, den Wert zu nehmen, der die höchste Dichte hat:

\[ \hat{\lambda}_{MAP}=\text{argmax}_{\lambda}(p(\lambda|x))=\frac{a-1+n\bar{x}}{b+n}=\frac{351.993}{192.001}=1.8332 \]

Wir nennen dieses Schätzer denn Posteriori-Modus oder aus Maximum-A-Posteriori-Schätzer (MAP-Schätzer).

Posteriori-Median

Zuletzt lässt sich auch der Posteriori-Median als Punktschätzer verwenden:

\[ \hat{\lambda}_{med}=\text{Median}(\lambda|x)=F_{\text{Ga}(352.993,192.001)}(0.5)\approx 1.8368 \]

Interpretation: Der Posteriori-Median ist der “mittlere” Wert, den wir für \(\lambda\) a posteriori erwarten.

Drei Schätzer

Nun haben wir drei verschiedene mögliche Punktschätzer:

Posteriori-Erwartungswert
Posteriori-Modus (MAP)
Posteriori-Median

Welcher ist den nun der beste Schätzer?

Theoretisch

Welcher Schätzer der Beste ist, hängt davon ab, wie man “Bester” definiert. Das wiederum hängt davon ab, was man als “schlecht” definiert: Wie bewertet man die Abweichung zwischen geschätztem Wert und wahren Wert. In der Entscheidungstheorie benutzt man dazu eine Verlustfunktion. Es stellt sich heraus:

Bei quadratischer Verlustfunktion ist der Posteriori-Erwartungswert der beste Schätzer
Bei absoluter Verlustfunktion ist der Posteriori-Median der beste Schätzer
Bei 0/1-Verlustfunktion ist der Posteriori-Modus der beste Schätzer

Praxis

Praktisch betrachet fällt erstmal auf, dass sich die Werte der drei Schätzer in unserem Beispiel kaum unterscheiden:

\(\hat{\lambda}_{PE}=1.8385\)
\(\hat{\lambda}_{MAP}=1.8332\)
\(\hat{\lambda}_{med}=1.8368\)

Für symmetrische Posteriori-Verteilungen fallen die drei Schätzer sogar zusammen!

Berechnung

In der Praxis ist auch wichtig, ob der Schätzer leicht berechnet werden kann:

Der Erwartungswert ist bei Standard-Verteilungen bekannt. Für konjugierte Prioris können wir den Posteriori-Erwartungswert einfach durch Aufdatieren der Priori-Parameter erhalten.
Für Nicht-Standard-Verteilungen ist der Erwartungswert dagegen schwer zu berechnen: Er ist entweder als Integral oder Summe (mit eventuell unendlich vielen Termen) definiert.

Der Modus ist nur für wenige Standard-Verteilungen explizit als Formel bekannt (z.B. bei der Poisson-Verteilung).
Oft kann der Modus nur durch numerische Optimierung maximiert werden. Dafür gibt es allerdings vielfältige etablierte Algorithmen.
Der MAP-Schätzer hat zudem folgende schöne Eigenschaft:
- Für flache Prioris (\(p(\theta)\propto\) const.) ist bekanntlich die Posteriori gleich der Datendichte bzw. Likelihood
- maximiert man in diesem Fall die Posteriori, maximiert man also die Likelihood.
- der MAP-Schätzer und der Maximum-Likelihood-Schätzer fallen unter flacher Priori also zusammen. Die Eigenschaften des ML-Schätzers gelten dann auch für den MAP-Schätzer.
- Für andere Prioris entspricht der MAP-Schätzer einem penalisierten ML-Schätzer.

Der Posteriori-Median ist nur einfach zu berechnen, wenn die Verteilungsfunktion (bzw. deren Inverse) bekannt ist.
Später werden wir die Posteriori nur approxmieren können, z.B. in dem wir aus der Posteriori-Verteilung Zufallszahlen ziehen. Dann hat der Posteriori-Median den Vorteil, dass er robuster gegenüber Ausreißer ist.
Der Median liegt im Allgemeinen zwischen dem Erwartungswert und dem Modus

Weitere Eigenschaften

Der Posteriori-Erwartungswert ist eventuell ein verzerrter Schätzer
MAP und PE sind nicht invariant bezüglich streng monotoner Transformationen des Parameters

Quiz

Kommen wir zurück zu Bayes’ Billardkugel-Beispiel bzw. dem Beta-Binomial-Modell.

Sei \(X\sim B(n,\pi)\) und a priori \(\pi\sim\)Beta\((a,b)\).

Quiz

Sei im Beta-Binomial-Modell \(a=b=1\), \(n\) gerade und \(x=n/2\). Dann ist

Quiz