Skip to Tutorial Content

Die Schokohasen

Wir vermuten, dass die Schokohasen einer bestimmten Marke weniger als das angegebene Gewicht von 100 Gramm haben. Wir kaufen uns 10 Hasen und wiegen sie. Folgende Gewichte beobachten wir:

## 100.37 103.04 99.34 101.5 97.44 100.26 99.19 100.12 99.76 98.51

Im Folgenden wollen wir diese Daten Bayesianisch analysieren.

Normalverteilungsmodel

Wir nehmen an, dass das Gewicht eines Schokoladenhasen normalverteilt ist. Laut Hersteller liegt der Erwartungswert des Gewichts bei \(\mu=101\) Gramm, die Standardabweichung bei der Herstellung bei \(\sigma^2=0.5\).

Wir glauben die Angabe \(\mu=101\) nicht und behandeln den Parameter im Folgenden als unbekannt. Für die Bayesianische Analyse brauchen wir:

  • Die Datendichte (Likelihood)
  • Die Priori für den unbekannten Parameter \(\mu\)

Daten

Wir haben also \(n=10\) unabhängig normalverteilte Beobachtungen

\[ X_i \sim N(\mu,\sigma^2), i=1,\ldots,n. \]

Datendichte

Auf Grund der Unabhängigkeit der Beobachtungen ist die gemeinsame Datendichte das Produkt der einzelnen, also mit \(x=(x_1,\ldots,x_n)\)

\[\begin{eqnarray} f(x|\mu) &=& \prod_{i=1}^n\left(f(x_i|\mu)\right) = \\ &=& \prod_{i=1}^n \left(\left(\frac{1}{\sigma\sqrt{2\pi}}\right) \exp\left(-\frac{1}{2\sigma^2} (x_i-\mu)^2\right)\right)\\ &=& \frac{1}{(\sigma\sqrt{2\pi})^n} \exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2\right) \end{eqnarray}\]

Der Kern der Datendichte ist damit \(\exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2\right)\).

Konjugierte Priori

Nun brauchen wir eine Priori für \(\mu\).

Wir kennen bisher den Ansatz der konjugierten Priori. Das heißt, die Posterioriverteilung ist die selbe wie die Priori-Verteilung, aber mit anderen Parametern. Dafür muss der Kern der Priori zum Kern der Datendichte passen.

Der Kern der Datendichte für eine Beobachtung ist \(\exp\left(-\frac{1}{2\sigma^2} (x_i-\mu)^2\right)\). Hält man im Kern \(x\) fest, handelt es sich wieder um den Kern einer Normalverteilung für \(\mu\).

Die konjugierte Priori für \(\mu\) ist die Normalverteilung

\[ \mu\sim N(\mu_0,\sigma_0^2), \]

bzw.

\[ p(\mu) = \frac{1}{\sigma_0\sqrt{2\pi}} \exp\left(-\frac{1}{2\sigma_0^2}(\mu-\mu_0)^2\right) \]

wobei \(\mu_0\) (Erwartungswert) und \(\sigma_0^2\) (Varianz) Priori-Parameter sind, die wir noch festlegen müssen.

Posteriori bei konjugierter Priori

Die Posterioridichte (bis auf Konstanten) erhalten wir, indem wir Priori und Datendichte multiplizieren:

\[\begin{eqnarray*} p(\mu|x) &\propto& f(x|\mu)\cdot p(\mu)\\ &\propto& \exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2\right) \cdot \exp\left(-\frac{1}{2\sigma_0^2}(\mu-\mu_0)^2\right)\\ &\propto& \exp\left(-\frac{1}{2}\left(\frac{1}{\sigma^2}\sum_{i=1}^n (x_i-\mu)^2+\frac{1}{\sigma_0^2}(\mu-\mu_0)^2\right)\right) \end{eqnarray*}\]

Wir können zeigen, dass gilt:

\[\begin{eqnarray*} p(\mu|x) \propto \exp\left(\frac{1}{\tilde\sigma^2}\left(\mu-\tilde{\mu}\right)^2\right) \end{eqnarray*}\]

mit \(\tilde{\mu}=\frac{\frac{\sum_{i=1}^nx_i}{\sigma^2}+\frac{\mu_0}{\sigma^2_0}}{\frac{n}{\sigma^2}+\frac{1}{\sigma_0^2}}\) und \(\tilde\sigma^2=\left(\frac{n}{\sigma^2}+\frac{1}{\sigma_0^2}\right)^{-1}\). Die Herleitung dafür finden Sie hier Dieser Abschnitt erfordert tiefere mathematische Ausbildung.

Zur einfacheren Notation sei im Folgenden

  • \(\tilde{m}:=\frac{\sum_{i=1}^nx_i}{\sigma^2}+\frac{\mu_0}{\sigma^2_0}\)
  • \(\tilde{\tau}:=\frac{n}{\sigma^2}+\frac{1}{\sigma_0^2}\)

dann gilt:

  • \(\tilde{\mu}=\frac{\tilde{m}}{\tilde{\tau}}\)
  • \(\tilde{\sigma}^2=\frac{1}{\tilde{\tau}}\)

Also gilt a posteriori

\[\mu|x \sim N\left(\frac{\tilde{m}}{\tilde{\tau}},\frac{1}{\tilde{\tau}}\right)\]

mit den oben definierten Posterioriparametern \(\tilde{m}\) und \(\tilde{\tau}^2\).

Nichtinformative Priori

Wir wollen wieder versuchen, intuitiv eine nicht-informative Priori herzuleiten. Betrachten wir dazu erstmal die Posteriori-Parameter

  • \(\tilde{m}=\frac{\mu_0}{\sigma_0^2} + \frac{\sum_{i=1}^n x_i}{\sigma^2}\)
  • \(\tilde{\tau} = \frac{n}{\sigma_0^2} + \frac{n}{\sigma^2}\)

Hier spielt \(\sigma_0^2\) die entscheidenden Rolle: Wir \(\sigma_0^2\) groß, dann schwindet der Einfluß der Priori in den Posteriori-Parametern. Für \(\sigma^2_0\to\infty\) würde die Priori komplett entfallen.

Jeffreys’ Priori

Zum Vergleich berechnen wir Jeffreys’ Priori. Diese ergibt sich als

\[ p(\mu)\propto \text{const.} \]

Diese Funktion ergibt sich als Grenzfall der Normalverteilung, wenn man in der Dichte der Normalverteilung für \(\mu\)

\[ p(\mu)\propto \exp\left(-\frac{1}{2\sigma_0^2}(\mu-\mu_0)^2\right) \]

die Varianz \(\sigma_0^2\) gegen unendlich gehen lässt.

  • Alternativ lässt sich \(p(\mu)\propto \text{const.}\) auch als Gleichverteilung auf ganz \(\mathbb{R}\) interpetieren, was der Laplace-Priori entspricht.

  • In diesem Fall sind Jeffreys’ Priori und Laplace-Priori identisch und die Priori entspricht auch dem, was wir intuitiv erwartet haben (anders als im Beta-Binomial-Modell, mit den drei unterschiedlichen Prioris nach Jeffreys, Laplace und Haldane).

  • Die nicht-informative Priori ist wieder ein Grenzfall der konjugierten Priori. Es handelt sich um eine impropere Verteilung.

  • Will man keine impropere Prioriverteilung verwenden, bietet sich hier auch eine relativ flache Priori an: man wählt dazu einfach eine sehr große Varianz (z.B. in der Graphik \(\sigma^2_0=1000000\)).

  • Später werden wir Fälle sehen, wo man keine impropere Priori wählen darf.

Posteriori

Wählen wir im Folgenden also nun Jeffreys’ Priori. Gegeben der Beobachtungen der Gewichte unserer Schokohasen (und der Herstellerangabe \(\sigma^2=0.5\)) erhalten wir

  • \(\tilde{m}=\frac{\sum_{i=1}^n x_i}{\sigma^2} = 1999.06\)
  • \(\tilde{\tau}^2 = \frac{n}{\sigma^2}= \frac{10}{0.5}=20\)
  • \(\tilde{\mu}=\frac{\tilde{m}}{\tilde{\tau}}=99.953\)
  • \(\tilde{\sigma^2}=\frac{1}{\tilde{\tau}}=0.05\)

Unsere Posteriori sieht also wie folgt aus:

Was können wir für Schlüsse daraus ziehen?

Posteriori-Wahrscheinlichkeit

Unsere Vermutung war, dass das Gewichts der Hasen im Mittel unter 100 Gramm liegt. Wir können nun die Posteriori-Wahrscheinlichkeit dafür angeben:

## [1] 0.5832405

\[ P(\mu\leq 100|x) \approx 0.5832405 \]

Die Wahrscheinlichkeit dafür, dass der Erwartungwert kleiner als 100 Gramm ist, ist gegeben der Beobachtungen also 58.3 \(\%\). Umgekehrt: die Wahrscheinlichkeit, dass unsere Annahme falsch ist, liegt bei 41.7 \(\%\).

Die Wahrscheinlichkeit deutet zwar leicht darauf hin, dass unsere Annahme stimmt, aber ein Nachweis für unsere Annahme ist es nicht.

Herstellerangabe

Wie ist es mit der Angabe des Herstellers. Er sagt: Das Erwartungswert des Gewichts liegt bei 101 Gramm. Darüber können wir direkt keine Aussage machen, weil die Wahrscheinlichkeit

\[ P(\mu=101|x) = 0. \]

\(\mu|x\) ist eine stetige Zufallsvariable, dementsprechend hat jeder einzelne Wert die Wahrscheinlichkeit 0.

Alternativ können wir die Aussage "\(\mu\) ist 101 oder größer überprüfen:

## [1] 1.418187e-06

\[ P(\mu\geq101|x) = 1-F(101) = 1.4182\cdot 10^{-6} \]

Die Posteriori-Wahrscheinlichkeit dafür, dass das Gewicht 101 Gramm oder mehr ist, liegt also bei fast Null.

Unbekannte Varianz

In unserem Beispiel lässt sich nicht schlüssig nachweisen, dass der Erwartungswert niedriger als 100 ist, die Herstellerangabe scheint aber falsch. Könnte es aber sein, dass der Erwartungswert korrekt angegeben ist, die Varianz aber zu hoch ist?

Normalverteilungsmodell

Wir nehmen wieder an:

\[ X\sim\text{N}(\mu,\sigma^2). \]

Jetzt aber ist der Erwartungswert \(\mu=101\) Gramm bekannt, die Varianz \(\sigma^2\) aber unbekannt. Welche Priori können wir für \(\sigma^2\) verwenden?

Konjugierte Priori

Zuerst wollen wir wieder die konjugierte Priori finden. Der Kern der Normalverteilungsdichte für eine Beobachtung enthält nun folgende Teile (diesmal alle Teile, die von \(\sigma^2\) abhängen)

\[ f(x_i|\sigma^2)\propto \frac{1}{\sigma^2}\exp{\left(-\frac{1}{2\sigma^2} (x_i-\mu)^2\right)}\propto{(\sigma^2)}^{-1}\exp\left(-(\sigma^2)^{-1}\frac{(x_i-\mu)^2}{2}\right) \]

Dieser Kern entspricht für \(\sigma^2\) der Form der Dichte einer Invers-Gamma-Verteilung:

\[ p(\sigma^2)\propto (\sigma^2)^{a-1}\exp(-b/\sigma^2) \]

\(\sigma^2\sim IG(a,b)\) ist also die konjugierte Priori und führt zur Posteriori

\[ \sigma^2|x \sim IG\left(a+\frac{n}{2}, b+\frac{1}{2}\sum_{i=1}^n{(x_i-\mu)^2}\right) \]

Konjugierte Priori für Präzision

Zur Vereinfachung der Notation ist es oft besser, statt der Varianz die inverse Varianz (genannt Präzision) zu betrachten:

\[ \tau=\sigma^{-2} \]

Die konjugierte Priori von \(\tau\) ist dann die Gamma-Verteilung

\[ p(\tau) = \frac{b^a}{\Gamma(a)}\tau^{a-1}\exp{-b\tau}. \]

Die Posteriori lautet

\[ p(\tau|x)\propto \tau^{n/2}\exp\left(-\frac{\tau}{2}\sum_{i=1}^n(x-\mu)^2\right)\cdot\tau^{a-1}\exp(-b\tau), \]

ist also die Ga\(\left(\frac{a+n}{2}, b+0.5\sum_{i=1}^n{(x_i-\mu)^2}\right)\)-Verteilung.

Jeffreys’ Priori

Als Jeffreys’ Priori ergibt sich

\[ p(\sigma^2)\propto\sigma^{-2} \]

Erneut ist dies der Grenzfall der konjugierten Priori, nämlich für \(a\to 0\) und \(b\to 0\) (also “\(IG(0,0)\)”).

Im Gegensatz zu oben ist dies aber nicht eine Gleichverteilung auf \(\mathbb{R}^+\).

Posteriori-Wahrscheinlichkeit

Für unsere Beobachtungen ergibt sich \(\sum_{i=1}^n(x_i-\mu)^2\approx 32.57\) (dabei ist \(\mu=101\) bekannt) und mit der Jeffreys’ Priori folgende Posteriori:

\[ \sigma^2|x \sim IG(10/2, 32.57/2) \]

Wir können also mit \(F\) die Verteilungsfunktion der IG\((5, 16.28675)\)-Verteilung die Posteriori-Wahrscheinlichkeit für \(\sigma>0.5\) berechnen.

\[ P\left(\sigma^2\leq0.5|x\right)\approx 3.799\cdot 10^{-10} \]

Hinweis: Ist \(\sigma^2\sim\)IG\((a,b)\)-verteilt, dann ist \(\sigma^{-2}\sim\)Ga\((a,b)\). Wir können also auch \(P\left(\sigma^{-2}\geq 2|x\right)\) aus der Verteilungsfunktion der Gamma-Verteilung berechnen.

## [1] 3.799128e-10

Damit können wir mit fast 100% Sicherheit sagen, dass \(\sigma^2\) größer als 0.5 ist.

Weiter

Wir hatten nun jeweils einen der beiden Parameter als bekannt angenommen und den anderen als unbekannt. Realistischer ist natürlich die Annahme, dass beide Parameter unbekannt sind. Es geht also im nächsten Abschnitt weiter mit zwei unbekannten Parametern.

Normalverteilung