Empirischer Bayes
Im vorigen Abschnitt hatten wir folgende Daten:
Anzahl von getöteten oder schwer verletzten Autofahrern in England von Januar 1969 bis Dezember 1984
und hatten folgendes Modell angenommen:
\[ \begin{aligned} \sqrt{y_i} & \sim N(\mu_i, \sigma^2);\, i=1,\ldots,T=192 \\[2mm] \mu_i & = \alpha + \beta x_i + \gamma_i + \delta_i \end{aligned} \]
- Für die Effekte \(\theta=(\alpha, \beta, \gamma_i, \delta_i)\) hatten wir jeweils Normalverteilungspriori angenommen.
- Für den MCMC-Algorithmus ergab sich ein Gibbs-Sampler, da dies die semi-konjugierte Prioris sind, z.B.
\[ \theta|\tau \sim N(0,\tau) \Rightarrow \theta|\cdot\sim N(\tilde{\mu},\tilde{\tau}) \]
- Das gilt nicht nur für die einzelnen Parameter, auch \(\theta\) insgesamt ist multivariat normalverteilt.
- Würden wir \(\tau\) kennen, würden wir die Posteriori komplett kennen!
Empirischer Bayes-Ansatz
Idee des Empirischen Bayes-Ansatzes
- Schätze die Prioriparameter (\(\tau\)) aus den Daten.
- Setze die geschätzen Prioriparameter ein.
- In der Regel wird beim empirischen Bayes-Ansatz keine Hyperpriori-Information für die Prioriparameter spezifiziert.
- Verschiedene Methoden zur Schätzung möglich.
Der empirische Bayes-Ansatz ist kein Bayesianisches Verfahren im eigentlichen Sinn. Wir erhalten nämlich nicht die Posteriori-Verteilung von \(\theta,\tau|y\) sondern von \(\theta|y,\hat{\tau}\).
Methoden
Zwei Methoden der Schätzung der Prioriparamter werden hauptsächlich verwendet:
Expectation-Maximization-Algorithmus
Der EM-Algorithmus kann allgemein verwendet werden, um den Maximum-A-Posteriori-Schätzer zu berechnen:
Algorithmus
- Schätze \(\theta\) aus \(y\) bei gegebenen \(\tau\)
- Schätze \(\tau\) als inverse Varianz aus \(\theta\)
- Iteriere bis zur Konvergenz
- Am Ende kann man \(\hat{\tau}\) in \(p(\theta|\tau)\) einsetzen und erhält eine komplette Posteriori-Verteilung.
Restringierter ML-Schätzer (REML)
- Grundidee des REML ist: Transformiere Daten so, dass unnötige (nuisance) Parameter in der Likelihood nicht mehr auftauchen.
- Wir wollen \(\tau\) aus der marginalen Posteriori \(p(\tau|y)\) schätzen.
- Daher ist \(\theta\) nuisance-Parameter
Beispiel: Gegeben seien multivariat normalverteilte Daten:
\[ y\sim N(X\theta,\tau^{-1} I) \]
Wir transformieren die Daten mit
\[ A=I-X(X'X)^{-1}X' \]
Dann gilt: \(Ay\sim N(,)\) mit
\[ \begin{aligned} \text{E}(Ay)&=E((I-X(X'X)^{-1}X')y)\\ &=X\theta-X(X'X)^{-1}X'X\theta=0\\ \text{Var}(Ay)&=(I-X(X'X)^{-1}X')' (\tau^{-1}I) (I-X(X'X)^{-1}X')\\ &=\tau^{-1}(I-2(X(X'TX)^{-1}X')\\ &+X(X'X)^{-1}X'X(X'X)^{-1}X')\\ &=\tau^{-1}(I-X(X'X)^{-1}X')\\ \end{aligned} \]
- Die Verteilung von \(Ay\) hängt also nicht mehr von \(\theta\) ab
- Schätze also \(\tau\) aus \(p(\tau|Ay)\)
- Empirische Bayes-Idee: Setze Schätzung in ursprüngliche Posteriori ein: \(p(\theta|y,\hat{\tau})\)
Model Averaging
Warum sind die Intervallschätzer beim Empirischen Bayes-Ansatz kleiner?
- Der empirische Bayes-Ansatz berücksichtigt die Unsicherheit über die Präzisionsparameter \(\tau\) nicht.
- Die Unsicherheit wird durch die Posteriori von \(\tau\) ausgedrückt.
- Nur im “vollen Bayes-Ansatz” (z.B. mit MCMC) erhalten wir die Posteriori von \(\theta\) und \(\tau\) und berücksichtigen in der Schätzung von \(\theta\) auch die Unsicherheit über \(\tau\).
- Die Schätzung der \(\tau\) ist in der Regel nicht besonder interessant.
- Uns interessiert die marginale Posterioriverteilung von \(\theta\). Für diese gilt:
\[ p(\theta|y)=\int p(\theta,\tau|y) d\tau = \int p(\theta|\tau,y)p(\tau|y) d\tau \]
- Im Gegensatz zum Empirischen Bayes-Ansatz erhalten wir beim “vollen Bayes-Ansatz” also nicht das Ergebnis für einen \(\tau\)-Wert, sondern die Mischung von verschiedenen Modellen, gewichtet mit der marginalen Posteriori-Verteilung von \(\tau\).
- Man spricht hier auch von Model Averaging.