Skip to Tutorial Content

Bayes-Schätzer

Entscheidungstheoretische Grundlage der Bayes-Schätzer

Wir haben im letzten Abschnitt drei verschiedene Bayesianische Punktschätzer kennen gelernt:

  • Posteriori-Erwartungswert
  • Posteriori-Modus
  • Posteriori-Median

Welcher Schätzer ist der Beste? Das hängt davon ab, was man unter “Bester” versteht.

Andere Formulierung: Für welchen Schätzer sollte man sich entscheiden? Da hilft uns die Entscheidungstheorie!

Sankt Petersburg Paradoxon

Auf Daniel Bernoulli geht folgende Frage zurück (in der ursprünglichen Darstellung spielt sich diese Geschichte in einem hypothetischen Kasino in Sankt Petersburg ab, daher der Name des Paradoxons):

In einem Glücksspiel, für das eine Teilnahmegebühr verlangt wird, wird eine faire Münze geworfen, solange bis zum ersten Mal “Kopf” fällt. Dies beendet das Spiel. Der Gewinn richtet sich nach der Anzahl der Münzwürfe insgesamt. War es nur einer, dann erhält der Spieler 1€. Bei zwei Würfen (also einmal “Zahl”, einem “Kopf”) erhält er 2€, bei drei Würfen 4€, bei jedem weiteren Wurf verdoppelt sich der Betrag. Man gewinnt also \(2^{k−1}\)€, wenn die Münze \(k\) mal geworfen wurde.

Welchen Geldbetrag würde man für die Teilnahme an diesem Spiel (maximal) bezahlen wollen?

Annahme: man will höchstens so viel Geld bezahlen, wie man durchschnittlich Gewinn erhalten würde. Sei \(X\) die Zufallsvariable Gewinn. Wir suchen den Erwartungswert \(E(X)\).

Wir berechnen zuerst die Wahrscheinlichkeit \(P(X=k)\), dass beim \(k\)-ten Münzwurf zum ersten Mal Kopf fällt. Dazu muss zuvor \(k-1\)-mal Zahl gefallen sein (jeweils mit Wahrscheinlichkeit 1/2), beim \(k\)-ten mal Kopf (ebenfalls mit Wahrscheinlichkeit 1/2); das entspricht der geometrischen Verteilung mit \(p=1/2\). Also ist die Wahrscheinlichkeit :

\[ P(X=k) = (1/2)^k \]

Wieviel Gewinn kann man im Durchschnitt erwarten? Bei \(k\) Würfen erhält man \(2^{k−1}\)€. Der Erwartungswert ist also:

\[ E(X) = \sum_{k=1}^\infty P(X=k)\cdot 2^{k−1}= \sum_{k=1}^\infty (1/2)^k \cdot 2^{k−1} = \sum_{k=1}^\infty \frac{1}{2} = \infty \]

Im Durchschnitt erwarten wir bei einem Spiel unendlichen Gewinn! Gemäß unserer Annahme wären wir also bereit, fast unendlich viel Geld auszugeben.

Allerdings ist die Wahrscheinlichkeit, z.B. 1024 Euro oder mehr zu gewinnen sehr klein, nämlich gerade \(1/1024\approx0.0976\)%. Es wäre also eher irrational, einen großen Betrag zu investieren. Diese offenbar paradoxe Diskrepanz führte zu dem Namen Sankt-Petersburg-Paradoxon.

Ein ähnliches Beispiel ist das Lottospielen. Per gesetzlicher Definition werden 50% der Einsätze wieder an die Spieler ausgeschüttet, der erwartete Gewinn ist also \(-0.5\cdot\) Einsatz. Wieso wird trotzdem gespielt? Antwort: Ein Verlust von einigen Euro ist (zumindest für manche) nicht schlimm, im Vergleich zur (kleinen Chance) auf einer sehr großen Gewinn.

Wie ein Gewinn oder Verlust bewertet ist, ist also Fall- und Individuenabhängig durchaus unterschiedlich. Hier setzt die Entscheidungstheorie an.

Entscheidungen

Das Ziel der statistischen Inferenz ist in der Regel, einen Parameter \(\theta\) zu schätzen (Punktschätzer oder Intervallschätzer) oder eine Hypothese zu testen. Im weiteren Sinn gilt es eine Entscheidung zu treffen, z.B.: der Parameter hat den Wert \(x\); der Patient hat die Krankheit \(y\); der mögliche Gewinn liegt zwischen \(a\) und \(b\), mit \(c\)% Wahrscheinlichkeit aber nicht unter \(d\).

In der Entscheidungstheorie wird die Inferenz direkt für die Entscheidung betrieben. Dazu definieren wir uns einen Entscheidungsraum \(D\) möglicher Entscheidungen. Für die Zufallsvariable \(X\) wollen wir für jedes mögliche Stichprobenergebnis \(x\) aus dem Stichprobenraum \(\mathcal X\) eine Entscheidung \(d(x)\) treffen.

Wir definieren uns:

Eine Entscheidungsfunktion ist eine Abbildung vom Stichprobenraum \(\mathcal X\) in den Entscheidungsraum \(D\)

\[ d:\mathcal X \to D; x \mapsto d(x) \]

Die Zufallsvariable \(X\) hänge von Parametern \(\theta\in\Theta\) ab.

  • Im Fall des Punktschätzers ist \(D=\Theta\) (der Parameterraum); wir entscheiden wir uns für einen Wert als Punktschätzer.
  • Beim Testen entscheidet man sich für eine Hypothese.

Verlustfunktion

Jetzt müssen wir die möglichen Entscheidungen bewerten. Wann ist eine Entscheidung gut, wann schlecht? Wir definieren

Die Verlustfunktion (engl. loss function) ordnet jeder Entscheidung einen Verlust zu

\[ L: D\times \Theta \to \mathbb{R}\\ (d,\theta) \mapsto L(d,\theta) \]

Die Verlustfunktion hängt von der Entscheidung ab, aber auch von dem uns unbekannten Parameter \(\theta\).

Wichtigste Verlustfunktionen

Klassische Verlustfunktionen sind:

  • \(L_1(d,\theta)=|(d-\theta)|\), absoluter Verlust

  • \(L_2(d,\theta)=(d-\theta)^2\), quadratischer Verlust

  • \(L_p(d,\theta)=|(d-\theta)|^p\), \(L_p\)-Verlust

  • \(L_{\epsilon}(d,\theta)= \left\{ \begin{array}{ll} 1 & \text{falls }|d-\theta|>\epsilon\\ 0 & \text{falls }|d-\theta|\leq \epsilon \end{array} \right.\), 0-1-Verlust

Schätzen als Entscheidungsproblem

Sei \(X_i \stackrel{\mathrm{iid}}{\sim} X \sim N(\mu,\sigma^2)\) mit \(\sigma^2\) bekannt und \(\theta=\mu\) zu schätzen. Der Entscheidungsraum \(D\) ist also der Raum der möglichen Schätzungen \(d=\hat\mu\in\mathbb{R}\).

Üblich ist die quadratische Verlustfunktion \(L(d(x),\mu)=(d(x)-\mu)^2\). Das entspricht der Kleinstquadrat-Schätzer ist \(\hat{\theta} =\frac{1}{n}\sum_{i=1}^nx_i\)!

Eine robustere Variante ist der absolute Verlust \(L(d(x)-\mu)=|d(x)-\mu|\).

Gewinnfunktion

Gelegentlich verwendet man die negative Verlustfunktion, also die Gewinnfunktion (utility function).

Die Wahl des Verlustfunktion bzw. der Gewinnfunktion ist natürlich subjektiv.

Risiko

Nehmen wir also a, wir hätten eine Verlustfunktion \(L\) gewählt:

  • Vor der Beobachtung von \(X\) ist die Entscheidung \(d(X)\) eine Zufallsvariable.
  • Damit ist \(L(d(X),\theta)\) eine Zufallsvariable.
  • Der Verlust hängt zudem von dem unbekannten Parameter \(\theta\) ab.

Kümmern wir uns erstmal um den Zufall. Wir betrachten den erwarteten (mittleren) Verlust und definieren:

Die Risikofunktion ist der mittlere Verlust bei Entscheidung \(d\) für einen wahren Parameter \(\theta\)

\[ R(d,\theta)=E_X\left[L(d(X),\theta)\right]=\int_{\mathcal X}L(d(x),\theta)f(x|\theta) dx \]

Das Risiko bewertet also die Entscheidungsfunktion \(d\), ist aber weiter abhängig vom unbekannten Parameter \(\theta\).

Zulässigkeit

Eigentlich würden wir gerne das Risiko, also den erwarteten Verlust, für alle möglichen wahren \(\theta\) minimieren. Das ist in der Regel aber nicht möglich. Wir können uns aber auf zulässige Entscheidungen beschränken:

Die Entscheidungsfunktion \(d\) ist zulässig, wenn es kein \(d^{*}\) gibt, für das gilt \(R(d^{*},\theta) < R(d,\theta)\) für alle \(\theta\in\Theta\)

Zulässig ist eine Entscheidungsfunktion also, wenn es keine Entscheidungsfunktion gibt, die immer geringeres Risiko hat.

Nun haben wir den Raum der Entscheidungsfunktionen schon etwas eingeschränkt, wir wollen aber eigentlich eine Entscheidung treffen (z.B. einen Punktschätzer auswählen).

Minimax-Entscheidung

Wir können das Risiko nicht global minimieren. Eine Idee ist es aber, das maximale Risiko zu minimieren:

Die “Minimax-Entscheidung” ist die Entscheidung \(d\), die das Maximum der Risikofunktion \(\max R(d,\theta)\) minimiert.

\[ d^{*}_{minimax}=\mathop{\text{argmax}}\limits_{d}(\max_\theta R(d,\theta)) \]

Beispiel

Die Graphik zeigt drei verschiedene Risikofunktionen. \(d_1\) und \(d_2\) sind zulässig; \(d_3\) ist nicht zulässig, da \(R(d_2,\theta)<R(d_3,\theta)\) für alle \(\theta\). \(d_2\) ist (unter diesen drei) die Minimax-Entscheidung, da das maximale Risiko (am Rand der Graphik) minimiert wird.

Was aber, wenn wir es für wahrscheinlich halten, dass in diesem Beispiel \(\theta\) nahe Null liegt? Dann würden wir vermutlich eher zu \(d_1\) tendieren.

Bayes-Risiko

Eventuell hat das maximale Risiko eine sehr geringe Wahrscheinlichkeit. Wenn wir Wahrscheinlichkeitsinformation \(p(\theta|x)\) (Priori-Information!) über \(\theta\) haben, dann definieren wir:

Der a posteriori erwartete Verlust ist

\[ r(d,p|x)=E_\theta \left[L(d(X),\theta)|x\right]=\int_\Theta L(d(x),\theta)p(\theta|x) d\theta \]

Es gilt:

\[ r(d,p|x)=E_\theta(R(d,\theta)) =E_\theta(E_X\left[L(d(X),\theta)\right])\\ =\int_\Theta\int_{\mathcal X}L(d(x),\theta)f(x|\theta) dx\, p(\theta) d\theta \]

Bayes-Risiko

Minimieren wir den a posteriori erwarteten Verlust, finden wir das optimale Risiko im Bayes-Sinn:

Für eine Verlustfunktion \(L\) und eine Priori-Verteilung \(p\) ist jede Entscheidung \(d^{*}\), welche den a posteriori erwarteten Verlust \(r(d,p|x)\) minimiert Bayes-optimal. Der Wert \(r^{*}(p)=r(d^{*},p|x)\) heißt dann Bayes-Risiko.

Eigenschaften

  • Bayes-optimale Entscheidungen sind immer zulässig
  • Das Bayes-Risiko ist immer kleiner oder gleich dem Minimax-Risiko
  • Wenn \(d_0\) eine Bayes-optimale Entscheidung ist und \(R(d,\theta) \leq r^{*}(p_0)\) für alle \(\theta\) im Träger von \(p_0\), dann ist \(d_0\) die Minimax-Entscheidung und \(p_0\) die ungünstigste Prioriverteilung

Bayesianische Punktschätzeer

Für das statistische Entscheidungsproblem \(d=\hat\theta\) gilt

  • Bei quadratischer Verlustfunktion ist der Posteriori-Erwartungswert Bayes-optimal
  • Bei absoluter Verlustfunktion ist der Posteriori-Median Bayes-optimal
  • Bei 0-1-Verlustfunktion ist (für \(\epsilon \to 0\)) der Posteriori-Modus (MAP) Bayes-optimal
  • Bei 0-1-Verlustfunktion und flacher Priori (\(p(\theta)\propto 1\)) ist der Maximum-Likelihood-Schätzer Bayes-optimal

Fazit

Welchen Bayesianischen Punkt-Schätzer wir nehmen, hängt also davon ab, welche Verlustfunktion wir wählen.

Weiter

Entscheidungstheorie