Skip to Tutorial Content

Modellwahl

Wir haben verschiedene Modelle kennengelernt. Wenn wir uns bezüglich des Modells nicht sicher sind: wie können wir die Modelle dann vergleichen, welches Modell ist das Beste?

Natürlich wollen wir die Schlüsse wieder aus der Posteriori ziehen. Idee: Das Modell ist eigentlich nur ein weiterer uns unbekannter Parameter.

Beispiel

Brandmeldungen in Frankville, NC

Quelle: Jim Albert, LearnBayes Vignette

  • Gegeben seinen die Anzahl von Brandmeldungen in aufeinanderfolgenden Monaten: \(y_1, ..., y_N\) in Frankville, NC.
  • Bekannt sein, dass wir a priori für Erwartungswert von \(y\) den Wert 70 annehmen.
  • Unklar ist aber: welche Verteilung haben die Daten?

Modelle

Folgende Modell stehen zur Diskussion:

  1. \(y \sim Po(\theta)\)
  2. \(y \sim N(\theta,12^2)\)
  3. \(y \sim N(\theta, 6^2)\)
  • In allen drei Modellen ist \(\theta\) der Erwartungswert.
  • Wir nehmen in allen drei Modellen die selbe Priori für \(\theta\):

\[\theta \sim Ga(280, 4)\]

Damit ist

  • E\((\theta)=70\)
  • sd\((\theta)=4.2\)

Visueller Vergleich

Modellwahl über Bayes-Faktor

Allgemein:

Gegeben:

  • Daten \(x\)
  • \(K\) verschiedene Modelle
  • Wahrscheinlichkeit, \(x\) unter Modell \(M_k\) zu beobachten: \(p(x|M_k)\)
  • Priori auf Modelle: \(p(M_k)\)

Dann ist der Posteriori-Odds, also der Quotient von Wahrscheinlichkeit (bzw. Dichte) von Modell \(M_k\) gegeben den Daten geteilt durch Wahrscheinlichkeit (Dichte) von Modell \(M_l\) gegeben den Daten \(x\):

\[ \frac{p(M_k|x)}{p(M_l|x)}=\frac{\frac{p(x|M_k)p(M_k)}{p(x)}}{\frac{p(x|M_l)p(M_l)}{p(x)}}=\frac{p(x|M_k)}{p(x|M_l)}\frac{p(M_k)}{p(M_l)} \]

Priori-Odds

Der Priori-Odds ist:

\[\frac{p(M_k)}{p(M_l)}\]

Wie wahrscheinlich ist Modell \(M_k\) im Vergleich zu Modell \(M_l\) a priori? Welches Modell bevorzugen wir a priori?

In den Posteriori-Odds geht der Priori-Odds ein. Das heißt, unsere Vorannahme über die Modelle beeinflußt die Entscheidung a posteriori direkt.

Welchen Beitrag zum Posterior-Odds haben die Daten?

Bayes-Faktor

Den Quotienten

\[ B(x) = \frac{p(x|M_k)}{p(x|M_l)} \]

nennen wir Bayes-Faktor zugungen von \(M_k\).

  • Posteriori-Odds = Bayes-Faktor * Priori-Odds

  • Der Bayesfaktor hängt nicht von der Priori auf die Modelle ab

  • Wohl aber von der Priori auf die Daten

Marginale Likelihood

Zähler/Nenner des Bayes-Faktors ist die marginale Likelihood oder marginale Dichte der Modelle \(k\) und \(l\).

\[ p(x|M_k)=\int p(x|\theta_k,M_k)p(\theta_k|M_k)d\theta_k \]

  • Die marginale Likelihood sagt aus, wie “wahrscheinlich” die Daten gegeben des Modells \(k\) ist.
  • Mit der marginalen Likelihood kann man also verschiedene Modelle vergleichen, wie gut sie zu den Daten passen.

Anmerkungen

  • Für einfache Hypothesen (\(H_0:\theta=\theta_0, H_1:\theta=\theta_1\)) ist der Bayesfaktor gleich dem Likelihood ratio.
  • Die analytische Berechnung der marginalen Likelihood ist meist schwierig, hier sind numerische Methoden nötig.

Dieser Abschnitt erfordert tiefere mathematische Ausbildung Details dazu finden Sie hier

Anwendung

Laplace-Integration

Die Berechnung des Integrals ist zum Beispiel möglich über Laplace-Integration (die wieder auf Pierre-Simon Laplace zurückgeht). Diese kann allgemein angewandt werden auf Integrale der Form

\[ \int_a^b g(x) = \int_a^b \exp(h(x)) dx \]

wobei \(h(x)\) eine zweimal differenzierbare Funktion ist.

Übersicht der Log Marginalen Likelihood

Modell Log Marginale Likelihood
1 -137.7395
2 -151.0382
3 -138.8251

Bayesfaktor

Vergleichen wir zwei Modelle, erhalten wir den Bayesfaktor als exp(Log-Marginale Likelihood von Modell 1 - Log-Marginale Likelihood von Modell 2), also z.B.

\[ B_{12} = \exp(\log(p(x|M_1))-\log(p(x|M_2))) \approx \exp(-137.7395+151.0382)\approx 596450.8 \]

Vergleich Bayesfaktor
Modell 1 zu Modell 2 596450.8
Modell 1 zu Modell 3 3.0
Modell 3 zu Modell 2 201406.6

Skala des Bayes-Faktors

Nach Jeffreys (1961) kann der Bayes-Faktor für Modell \(k\) gegen Modell \(l\) wie folgt interpretiert werden:

  • Nach Jeffreys gibt es also ausschlaggebende Anzeichen für Modell 1 und Modell 3 gegenüber Modell 2.
  • Da \(B_{13}\approx 3.0 < \sqrt{10}\) gibt es Anzeichen für Modell 1 gegenüber Modell 3, aber kaum erwähnenswert.

Güte der Laplace-Approximation

Sehen wir uns zum Schluß noch an, wie gut die Laplace-Approximation für das Poisson-Gamma-Modell funktioniert:

  • Hier funktioniert die Approximation sehr gut – die Posteriori ist selbst fast eine Normalverteilung.
  • Für \(n\to \infty\) gibt es approximative Aussagen, dass die Posteriori (unter Rgularitätsbedingungen) gegen eine Normalverteilung geht.
  • Bei nicht symmetrischen Posterioris ist die Laplace-Approximation schlechter. Hier kann man den dritten Term der Taylor-Entwicklung mit einbeziehen.

Weiter

Bayes-Faktor