Modellwahl
Wir haben verschiedene Modelle kennengelernt. Wenn wir uns bezüglich des Modells nicht sicher sind: wie können wir die Modelle dann vergleichen, welches Modell ist das Beste?
Natürlich wollen wir die Schlüsse wieder aus der Posteriori ziehen. Idee: Das Modell ist eigentlich nur ein weiterer uns unbekannter Parameter.
Beispiel
Brandmeldungen in Frankville, NC
Quelle: Jim Albert, LearnBayes Vignette
- Gegeben seinen die Anzahl von Brandmeldungen in aufeinanderfolgenden Monaten: \(y_1, ..., y_N\) in Frankville, NC.
- Bekannt sein, dass wir a priori für Erwartungswert von \(y\) den Wert 70 annehmen.
- Unklar ist aber: welche Verteilung haben die Daten?
Modelle
Folgende Modell stehen zur Diskussion:
- \(y \sim Po(\theta)\)
- \(y \sim N(\theta,12^2)\)
- \(y \sim N(\theta, 6^2)\)
- In allen drei Modellen ist \(\theta\) der Erwartungswert.
- Wir nehmen in allen drei Modellen die selbe Priori für \(\theta\):
\[\theta \sim Ga(280, 4)\]
Damit ist
- E\((\theta)=70\)
- sd\((\theta)=4.2\)
Visueller Vergleich
Modellwahl über Bayes-Faktor
Allgemein:
Gegeben:
- Daten \(x\)
- \(K\) verschiedene Modelle
- Wahrscheinlichkeit, \(x\) unter Modell \(M_k\) zu beobachten: \(p(x|M_k)\)
- Priori auf Modelle: \(p(M_k)\)
Dann ist der Posteriori-Odds, also der Quotient von Wahrscheinlichkeit (bzw. Dichte) von Modell \(M_k\) gegeben den Daten geteilt durch Wahrscheinlichkeit (Dichte) von Modell \(M_l\) gegeben den Daten \(x\):
\[ \frac{p(M_k|x)}{p(M_l|x)}=\frac{\frac{p(x|M_k)p(M_k)}{p(x)}}{\frac{p(x|M_l)p(M_l)}{p(x)}}=\frac{p(x|M_k)}{p(x|M_l)}\frac{p(M_k)}{p(M_l)} \]
Priori-Odds
Der Priori-Odds ist:
\[\frac{p(M_k)}{p(M_l)}\]
Wie wahrscheinlich ist Modell \(M_k\) im Vergleich zu Modell \(M_l\) a priori? Welches Modell bevorzugen wir a priori?
In den Posteriori-Odds geht der Priori-Odds ein. Das heißt, unsere Vorannahme über die Modelle beeinflußt die Entscheidung a posteriori direkt.
Welchen Beitrag zum Posterior-Odds haben die Daten?
Bayes-Faktor
Den Quotienten
\[ B(x) = \frac{p(x|M_k)}{p(x|M_l)} \]
nennen wir Bayes-Faktor zugungen von \(M_k\).
Posteriori-Odds = Bayes-Faktor * Priori-Odds
Der Bayesfaktor hängt nicht von der Priori auf die Modelle ab
Wohl aber von der Priori auf die Daten
Marginale Likelihood
Zähler/Nenner des Bayes-Faktors ist die marginale Likelihood oder marginale Dichte der Modelle \(k\) und \(l\).
\[ p(x|M_k)=\int p(x|\theta_k,M_k)p(\theta_k|M_k)d\theta_k \]
- Die marginale Likelihood sagt aus, wie “wahrscheinlich” die Daten gegeben des Modells \(k\) ist.
- Mit der marginalen Likelihood kann man also verschiedene Modelle vergleichen, wie gut sie zu den Daten passen.
Anmerkungen
- Für einfache Hypothesen (\(H_0:\theta=\theta_0, H_1:\theta=\theta_1\)) ist der Bayesfaktor gleich dem Likelihood ratio.
- Die analytische Berechnung der marginalen Likelihood ist meist schwierig, hier sind numerische Methoden nötig.
Anwendung
Laplace-Integration
Die Berechnung des Integrals ist zum Beispiel möglich über Laplace-Integration (die wieder auf Pierre-Simon Laplace zurückgeht). Diese kann allgemein angewandt werden auf Integrale der Form
\[ \int_a^b g(x) = \int_a^b \exp(h(x)) dx \]
wobei \(h(x)\) eine zweimal differenzierbare Funktion ist.
Übersicht der Log Marginalen Likelihood
Modell | Log Marginale Likelihood |
---|---|
1 | -137.7395 |
2 | -151.0382 |
3 | -138.8251 |
Bayesfaktor
Vergleichen wir zwei Modelle, erhalten wir den Bayesfaktor als exp(Log-Marginale Likelihood von Modell 1 - Log-Marginale Likelihood von Modell 2), also z.B.
\[ B_{12} = \exp(\log(p(x|M_1))-\log(p(x|M_2))) \approx \exp(-137.7395+151.0382)\approx 596450.8 \]
Vergleich | Bayesfaktor |
---|---|
Modell 1 zu Modell 2 | 596450.8 |
Modell 1 zu Modell 3 | 3.0 |
Modell 3 zu Modell 2 | 201406.6 |
Skala des Bayes-Faktors
Nach Jeffreys (1961) kann der Bayes-Faktor für Modell \(k\) gegen Modell \(l\) wie folgt interpretiert werden:
Bayes-Faktor | Interpretation |
---|---|
\(B<1\) | Modell \(l\) wird gestützt |
\(B\in [1,10^{1/2}]\) | Anzeichen für Modell \(k\) gegen Modell \(l\), aber kaum erwähnenswert |
\(B\in [10^{1/2},10]\) | beachtliche Anzeichen für Modell \(k\) gegen Modell \(l\) |
\(B\in [10,10^{3/2}]\) | starke Anzeichen für Modell \(k\) gegen Modell \(l\) |
\(B\in [10^{3/2},100]\) | sehr starke Anzeichen für Modell \(k\) gegen Modell \(l\) |
\(B>100\) | ausschlaggebende Anzeichen für Modell \(k\) gegen Modell \(l\) |
Dabei ist \(10^{1/2}\approx 3.16\), \(10^{3/2}\approx 31.6\).
- Nach Jeffreys gibt es also ausschlaggebende Anzeichen für Modell 1 und Modell 3 gegenüber Modell 2.
- Da \(B_{13}\approx 3.0 < \sqrt{10}\) gibt es Anzeichen für Modell 1 gegenüber Modell 3, aber kaum erwähnenswert.
Güte der Laplace-Approximation
Sehen wir uns zum Schluß noch an, wie gut die Laplace-Approximation für das Poisson-Gamma-Modell funktioniert:
- Hier funktioniert die Approximation sehr gut – die Posteriori ist selbst fast eine Normalverteilung.
- Für \(n\to \infty\) gibt es approximative Aussagen, dass die Posteriori (unter Rgularitätsbedingungen) gegen eine Normalverteilung geht.
- Bei nicht symmetrischen Posterioris ist die Laplace-Approximation schlechter. Hier kann man den dritten Term der Taylor-Entwicklung mit einbeziehen.