Information
Es gibt verschiedene mathematische Definitionen von Information. Wir betrachten hier nur die beobachtete und die Fisher-Information (im nächsten Kapitel werden wir die Information nach Shannon kennen lernen).
Sei wieder \(f(x|\theta)\) die Datendichte der Zufallsvariable \(X\) gegeben dem (skalaren) Parameter \(\theta\). Diese Dichte bzw. Likelihood beschreibt uns den Zusammenhang der Daten mit dem Parameter, also wieviel Information über den Parameter in den Daten \(x\) vorliegt.
Fisher-Information
Als Fisher-Information definiert man den Erwartungswert des Quadrats der Ableitung der Log-Dichte:
\[ I(\theta) = \text{E}\left[ \left( \frac{d}{d\theta}\log(f(X|\theta)) \right)^2 \right] \]
Alternativ kann man die Fisher-Information definieren als negativen Erwartungswert der zweiten Ableitung der Log-Dichte:
\[ I(\theta) = \text{E}\left[ - \left( \frac{d^2}{d\theta^2}\log(f(X|\theta)) \right) \right] \]
Hintergund
In der Likelihood-Inferenz bezeichnet man die Ableitung der Log-Likelihood als Score-Funktion. Setzt man die Score-Funktion gleich Null, kann man den Maximum-Likelihood-Schätzer herleiten.
Vor der Beobachtung ist die Scorefunktion aber eine Zufallsvariable
\[ s(X)=\frac{d}{d\theta}\log(f(X|\theta)) \]
Die Fisher-Information ist dann als Varianz der Score-Funktion definiert, was dem Erwartungswert des Quadrats der Score-Funktion entspricht (der Erwartungswert der Score-Funktion ist Null). Varianz ist hier ein Maß für Unsicherheit.
Steckt also viel Information in den Daten über den Parameter, so ist unsere Unsicherheit kleiner, damit die Varianz kleiner.
Über die Fisher-Information lässt sich zudem eine untere Schranke für die Varianz eines Parameterschätzers berechnen, die sogenannten “Cramér-Rao-Schranke”:
\[ \text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} \]
für alle möglichen \(\theta\).
Die Fisher-Information ist identisch zur negativen zweite Ableitung der Log-Dichte, falls diese existiert, und wird oft auch so definiert.
Jeffreys’ Priori
Aus der Fisher-Information lässt sich Jeffreys’ Priori berechnen:
\[ p^{*}(\theta) \propto I^{1/2}(\theta) \]
Jeffreys’ Priori ist invariant gegenüber Reparametrisierungen. Wenn also \(p^{*}(\theta)\) eine Jeffreys-Priori ist, dann ist \(p^{*}(\phi(\theta))\) wieder eine Jeffreys-Priori für \(\phi(\theta)\).
Beweis
Die Eigenschaft lässt sich (für bijektive Transformation \(\phi(\theta)\)) über den Transformationssatz für Dichten nachweisen. Sei \(p(\theta)\) eine Dichte bezüglich \(\theta\) und bezeichne \(\theta(\phi)\) die Umkehrtransformation:
\[\begin{eqnarray*} p^{*}(\phi)&=&p^{*}(\theta)\left|\frac{d \theta(\phi)}{d\phi}\right| \\ &\propto&\sqrt{E_X\left[\left(\frac{d\log(f(X|\theta(\phi)))}{d\theta(\phi)}\right)^2\right]}\left|\frac{d \theta(\phi)}{d\phi}\right|\\ &=& \sqrt{E_X\left[\left(\frac{d\log(f(X|\theta(\phi)))}{d\theta(\phi)} \frac{d\theta(\phi)}{d\phi} \right)^2\right]}\\ &=& \sqrt{E_X\left[\left(\frac{d\log(f(X|\theta(\phi)))}{d\phi} \right)^2\right]} = \sqrt{I(\phi)} \end{eqnarray*}\]
Binomialverteilung
Wir leiten Jeffreys’ Priori für die Bernoulliverteilung her. Die Dichte ist
\[ f(x|\pi)=\pi^{x}(1-\pi)^{1-x} \]
Die Log-Dichte ist
\[ \log(f(x|\pi)) =x\log(\pi) + (1-x)\log(1-\pi) \]
Die Ableitung nach \(\pi\) ist
\[ s(x)=\frac{d}{d\pi}\log(f(x|\pi)) = \frac{x}{\pi} - \frac{1-x}{1-\pi} \]
Vor der Beobachtung ersetzen wir \(x\) durch die Zufallsvariable \(X\). Dann berechnen wir den Erwartungswert von \(\left(s(X)^2\right)\):
\[\begin{eqnarray*} I(\pi) &=& \text{E}\left[\left(s(X)^2\right) \right]\\ &=& \pi \left(\frac{1}{\pi} - \frac{0}{1-\pi}\right)^2 + (1-\pi)\left(\frac{0}{\pi} - \frac{1}{1-\pi}\right)^2\\ &=&\frac{1}{\pi}+\frac{1}{1-\pi} = \frac{1}{\pi(1-\pi)} \end{eqnarray*}\]
Jeffrey’s Priori ist dann
\[ p(\pi) \propto \sqrt{I(\pi)} = \pi^{-\frac{1}{2}}(1-\pi)^{-\frac{1}{2}} = \pi^{(\frac{1}{2}-1)}(1-\pi)^{(\frac{1}{2}-1)} \]
Dies entspricht der Dichte einer Beta\(\left(\frac{1}{2},\frac{1}{2}\right)\)-Verteilung.
Quiz
Sei \(X\sim U(0,\theta)\), also stetig gleichverteilt auf dem Intervall \((0,\theta)\).
Hinweis: Realistischerweise hat man mehr als eine Beobachtung. Die Herleitung von Jeffreys’ Priori ist bei diesem Beispiel dann allerdings eher komplex.