JAGS

Software für Bayes-Inferenz

Um Bayes-Modelle umzusetzen, gibt es verschiedene Software-Pakete. Dabei gibt es ziemlich universal einsetbare wie BUGS, JAGS oder STAN oder auch spezialisierte wie BayesX oder INLA.

Ansätze

All diese Pakete basieren auf unterschiedlichen Ansätzen von MCMC oder auch Approximation:

BUGS (Bayesian inference Using Gibbs Sampling) benutzt nur Gibbs-Sampler, wobei die full conditionals numerisch approximiert werden
STAN nutzt eine moderne MCMC-Variante namens Hamiltonian Monte Carlo (oder alternativ diverse Approxmiations-Verfahren)
INLA (Integrated Nested Laplace Approximation) verbindet mehrere Approximationsverfahren (insbesondere Laplace-Approximation) und ist für additive Regressionsmodelle geeignet.

BUGS und JAGS

BUGS startete 1989 als WinBUGS. Seit 2005 wurde das Projekt langsam in OpenBUGS überführt.
JAGS (Just another Gibbs sampler) ist eine Re-Implementierung von BUGS (geschrieben in C++).
Die Modellierungssprache in BUGS und JAGS ist praktisch identisch.
In R gibt es mehrere Pakete für OpenBUGS als auch für JAGS, wir benutzen hier rjags:

library(rjags)

## Loading required package: coda

## Linked to JAGS 4.3.2

## Loaded modules: basemod,bugs

Modellsprache

JAGS arbeitet mit einer einfach aufgebauten Modellierungssprache.

Erinnern wir uns an unser Poisson-Regressions-Modell. Unser Modell lautete:

\[ \begin{eqnarray} y_t &\sim& Po(\lambda_t e_t)\\ \log(\lambda_t) &=& \alpha+\beta x_t\\ \alpha &\sim& N(m_\alpha,v_\alpha^2)\\ \beta &\sim& N(m_\beta,v_\beta^2) \end{eqnarray} \]

Diese mathematische Modellbeschreibung setzen wir jetzt in die JAGS-Sprache um:

model <- "model{
    for (t in 1:T) {
        y[t] ~ dpois(lambda[t]*e[t])
        log(lambda[t]) <- alpha + beta*x[t]
    }
    # Prioris
    alpha ~ dnorm(0, 0.001)
    beta ~ dnorm(0, 0.001)
}"

Die Modellbeschreibung in JAGS ist fast identisch mit der mathematischen Beschreibung:

“~” steht für “verteilt wie”
dpois bzw. dnorm steht für Poisson-Verteilung bzw. Normalverteilung
Vorsicht bei dnorm: Der erste Parameter ist wie erwartet der Mittelwert, zweiter Parameter ist jedoch nicht die Varianz, sondern die Präzision, also die inverse Varianz!
statt einem Index wie \(y_t\) benutzen wir eckige Klammer \(y[t]\)
Wir haben \(T\) Daten (Zeitpunkte), also müssen wir \(y_1, y_2, \ldots, y_T\) definieren; dazu können wir for-Schleifen wie in R benutzen
log(lambda[t]) berechnen wir aus alpha und beta, wie in R benutzen wir “<-” als Zuweisung
# bezeichnet einen Kommentar (wie in R)

Damit ist das Modell schon fertig beschrieben.

rjags arbeitet eigentlich mit Text-Dateien. Daher definieren wir hier die Variable model als Text (Anführungszeichen am Anfang und am Ende).

Nebenbei bemerkt: Modell meint hier sowohl das Datenmodell als auch die Priori. Wie schon bei der Regularisierungspriori gesehen, können wir auch mit den Prioris “modellieren”.

Daten

Neben dem Modell brauchen wir noch die Daten. Diese übergeben wir als Liste:

daten<-list(
  y=as.integer(y),
  e=as.integer(e),
  x=x,
  T=length(y)
)

Die Daten müssen natürlich alles enthalten, was wir im Modell nicht genauer spezifiziert haben, hier also y, e, x, und T
y und e wandeln wir in Integer um, also in ganze Zahlen

Durchführung

Kompilieren

Nun können wir das “Modell kompilieren”, sprich aus unserer Modellbeschreibung ein ausführbares JAGS-Modell machen:

jagsmodel <- jags.model(file = textConnection(model), data = daten)

## Compiling model graph
##    Resolving undeclared variables
##    Allocating nodes
## Graph information:
##    Observed stochastic nodes: 22
##    Unobserved stochastic nodes: 2
##    Total graph size: 159
## 
## Initializing model

jags.model() erwartet dabei eigentlich eine Datei als erstes Argument, wir übergeben hier den Text mittels textConnection().

Ziehen

Nun ziehen wir 1000 Mal aus dem Modell:

ziehungen <- coda.samples(jagsmodel, variable.names = c("alpha","beta"), n.iter=1000)

Mit dem plot-Befehl können wir uns Trace Plots und geschätzte Dichte der Posteriori für jeden Parameter erzeugen:

plot(ziehungen)

Wie man an den Trace Plots sieht, sind die Ziehungen noch sehr instabil.
Im Trace Plot sieht man hier zusätzlich einen laufenden Mittelwert (also Iteration gegen Mittelwert der Ziehungen bis zu dieser Iteration)
Intern wird hier das coda-Paket benutzt, welches Ziehungen aus MCMC sinnvoll speichert und anzeigt.
Die Iterationen beginnen hier bei 1001 - jags.model() hat nach der Kompilierung schon Mal 1000 Iterationen als burn-in gemacht.

Mehr Ziehungen

Ziehen wir also noch 20000 Mal:

ziehungen <- coda.samples(jagsmodel, variable.names = c("alpha","beta"), n.iter=20000)
plot(ziehungen)

Die Trace Plots sehen soweit gut aus (Nebenbemerkung: diese visuelle Inspektion ist natürlich subjektiv. Um das zu überprüfen, gibt es auch geeingete Maßzahlen).

Sehen wir uns also die Punkt- und Intervallschätzungen an:

summary(ziehungen)

## 
## Iterations = 2001:22000
## Thinning interval = 1 
## Number of chains = 1 
## Sample size per chain = 20000 
## 
## 1. Empirical mean and standard deviation for each variable,
##    plus standard error of the mean:
## 
##           Mean       SD  Naive SE Time-series SE
## alpha -0.05009 0.006028 4.263e-05      0.0003047
## beta   0.02565 0.002997 2.119e-05      0.0001526
## 
## 2. Quantiles for each variable:
## 
##           2.5%      25%      50%      75%    97.5%
## alpha -0.06187 -0.05415 -0.05016 -0.04602 -0.03817
## beta   0.01973  0.02363  0.02570  0.02768  0.03146

coda liefert uns hier:

Mittelwert (Mean) der Ziehungen (als Schätzer für den Posteriori-Erwartungswert) und Standardabweichung der Posterior (SD) für jeden Parameter (sowie geschätzter Fehler des Mittelwerts ohne (Naive SE) und mit (Time-series SE) Berücksichtigung der Autokorrelation der MCMC-Kette. Diese sollten möglichst klein sein)
(Posteriori-)Median und verschiedene Quantile (diese können natürlich auch gewählt werden)

Die Ergebnisse sind natürlich ganz ähnlich zu denen aus, die wir bei der Implementation von Hand hatten.

Modell mit Überdispersion

Ergänzen wir jetzt das Modell um die Überdispersion.

Einzige Änderungen am Modell:

In der Gleichung für log(lambda) ergänzen wir + epsilon[t]
Wir brauchen Prioris für epsilon[t] in der for-Schleife

model.overdisp <- "model{
    for (t in 1:T) {
        y[t] ~ dpois(lambda[t]*e[t])
        log(lambda[t]) <- alpha + beta*x[t] + epsilon[t]
        epsilon[t] ~ dnorm(0, 1000)
    }
    ## Prioris
    alpha ~ dnorm(0, 0.001)
    beta ~ dnorm(0, 0.001)
}"

Daten

Die Daten können wir von oben übernehmen.

Startwerte

Unsere MCMC-Algorithmus braucht eigentlich Startwerte. Diese hatten wir zuvor nicht spezifiziert; JAGS zieht sie aus der Priori!
Wir können sie aber auch (als Liste) vorgeben, was in der Regel Rechenzeit spart:

startwerte <- list(
  "alpha" = 0,
  "beta" = 0,
  "epsilon" = rep(0,T)
)

jagsmodel.overdisp <- jags.model(file = textConnection(model.overdisp), 
                                 data = daten, inits = startwerte)

## Compiling model graph
##    Resolving undeclared variables
##    Allocating nodes
## Graph information:
##    Observed stochastic nodes: 22
##    Unobserved stochastic nodes: 24
##    Total graph size: 182
## 
## Initializing model

Ziehungen

Wir ziehen erst 50000 Mal und verwerfen die Ziehungen als burn-in:

update(jagsmodel.overdisp, n.iter = 50000)

Dann die Ziehungen, bei denen wir mitprotokollieren. variable.names gibt an, welche Parameter wir abspeichern (später werden uns vielleicht nicht mehr alle Parameter interessieren):

ziehungen <- coda.samples(jagsmodel.overdisp, variable.names = c("alpha","beta", "epsilon"), n.iter=50000)
summary(ziehungen)

## 
## Iterations = 51001:101000
## Thinning interval = 1 
## Number of chains = 1 
## Sample size per chain = 50000 
## 
## 1. Empirical mean and standard deviation for each variable,
##    plus standard error of the mean:
## 
##                  Mean       SD  Naive SE Time-series SE
## alpha       -0.047418 0.026145 1.169e-04      0.0034861
## beta         0.024279 0.013019 5.822e-05      0.0017518
## epsilon[1]  -0.031264 0.014929 6.677e-05      0.0013440
## epsilon[2]  -0.017555 0.014229 6.363e-05      0.0011930
## epsilon[3]  -0.007021 0.013223 5.914e-05      0.0009840
## epsilon[4]   0.019578 0.012230 5.469e-05      0.0007706
## epsilon[5]  -0.005181 0.011539 5.160e-05      0.0006185
## epsilon[6]   0.012831 0.010846 4.850e-05      0.0004928
## epsilon[7]   0.003064 0.010309 4.610e-05      0.0004205
## epsilon[8]   0.004969 0.009631 4.307e-05      0.0002867
## epsilon[9]   0.012635 0.009422 4.213e-05      0.0002476
## epsilon[10]  0.002071 0.009430 4.217e-05      0.0002476
## epsilon[11]  0.031124 0.009484 4.241e-05      0.0002351
## epsilon[12]  0.009925 0.009673 4.326e-05      0.0002570
## epsilon[13]  0.021206 0.010003 4.473e-05      0.0002971
## epsilon[14]  0.034668 0.010201 4.562e-05      0.0003208
## epsilon[15]  0.023588 0.010639 4.758e-05      0.0003725
## epsilon[16]  0.013295 0.010891 4.870e-05      0.0003974
## epsilon[17]  0.001093 0.010953 4.899e-05      0.0004061
## epsilon[18] -0.010379 0.010991 4.915e-05      0.0004228
## epsilon[19] -0.025167 0.011097 4.963e-05      0.0004264
## epsilon[20] -0.030531 0.011043 4.939e-05      0.0004231
## epsilon[21] -0.024492 0.011012 4.925e-05      0.0004065
## epsilon[22] -0.032161 0.010918 4.883e-05      0.0004095
## 
## 2. Quantiles for each variable:
## 
##                  2.5%       25%        50%       75%     97.5%
## alpha       -0.101904 -0.063372 -0.0480390 -0.032528  0.011965
## beta        -0.004952  0.016749  0.0246025  0.032510  0.050640
## epsilon[1]  -0.062399 -0.040556 -0.0310914 -0.021719 -0.001553
## epsilon[2]  -0.046874 -0.026543 -0.0172014 -0.008363  0.010496
## epsilon[3]  -0.034319 -0.015439 -0.0067961  0.001682  0.019019
## epsilon[4]  -0.005053  0.011602  0.0196899  0.027654  0.043582
## epsilon[5]  -0.028377 -0.012722 -0.0050828  0.002483  0.017371
## epsilon[6]  -0.008757  0.005617  0.0129603  0.020143  0.033883
## epsilon[7]  -0.017440 -0.003827  0.0031547  0.010046  0.023166
## epsilon[8]  -0.014111 -0.001494  0.0050273  0.011523  0.023601
## epsilon[9]  -0.006070  0.006270  0.0126472  0.019026  0.030906
## epsilon[10] -0.016416 -0.004293  0.0020772  0.008456  0.020538
## epsilon[11]  0.012469  0.024760  0.0311327  0.037483  0.049728
## epsilon[12] -0.008983  0.003395  0.0099237  0.016437  0.029099
## epsilon[13]  0.001746  0.014469  0.0211638  0.027983  0.040706
## epsilon[14]  0.014733  0.027798  0.0346315  0.041531  0.054727
## epsilon[15]  0.002899  0.016317  0.0235301  0.030793  0.044595
## epsilon[16] -0.007834  0.005879  0.0132065  0.020633  0.034888
## epsilon[17] -0.020267 -0.006349  0.0009867  0.008444  0.022925
## epsilon[18] -0.031803 -0.017759 -0.0104380 -0.003015  0.011271
## epsilon[19] -0.046590 -0.032705 -0.0252480 -0.017710 -0.003237
## epsilon[20] -0.051855 -0.037994 -0.0306606 -0.023179 -0.008485
## epsilon[21] -0.045931 -0.031907 -0.0246335 -0.017145 -0.002617
## epsilon[22] -0.053394 -0.039499 -0.0322571 -0.024859 -0.010512

Trace Plots und Dichteschätzung von alpha

Wir plotten hier nicht alle Trace Plots, sondern beschränken uns auf alpha

plot(ziehungen[[1]][,1])

Trace Plots und Dichteschätzung von beta

… und beta:

plot(ziehungen[[1]][,2])

Sehen wir uns zuletzt noch die geschätzten Überdispersionsparameter an:

epsilon.sample <- ziehungen[[1]][,3:24]
epsilon.median <- apply(epsilon.sample, 2, median)
epsilon.q <- apply(epsilon.sample, 2, quantile, c(.025,.975))
plot(epsilon.median, ylim=range(epsilon.q), ylab=expression(epsilon))
lines(epsilon.q[1,])
lines(epsilon.q[2,])

Wir sehen wieder eine Art Trend, wenn auch etwas anders als zuvor geschätzt.

Zweites Modell mit Überdispersion

Bisher hatten wir uns die Priori-Varianz der Überdispersion \(\epsilon\) subjektiv vorgegeben.
Können wir diese aus den Daten schätzen?

Hierarchisches Modell

Nehmen wir also als Priori für \(\epsilon_t\) an

\[ \epsilon_t \sim N(0,1/\tau) \]

\(\tau\) ist die unbekannte inverse Varianz (Präzision; wir könnten auch mit der Varianz selbst arbeiten, Bayesianer nehmen aber lieber Präzision).
“Aus den Daten schätzen” heißt: Nach der Beobachtung haben wir Posteriori-Information über \(\tau\).
Wir brauchen also auch Priori-Information über \(\tau\).
Wir nehmen uns ein Beispiel an der Priori für die Varianz der Normalverteilung, also

\[ \tau \sim Ga(a,b) \]

Die Präzision \(\tau\) ist damit Gamma-verteilt, was identisch ist zu die Varianz \(1/\tau\) ist Invers-Gamma-verteilt. \(a\) und \(b\) sind Hyperparameter, die wir noch wählen müssen.

Änderungen am Modell

Wir ergänzen tau in der Priori der epsilon[t]
Wir ergänzen die Priori von tau
Wir wählen hier \(a=1\) und \(b=0.001\), der Priori-Erwartungswert ist damit 1000

model.overdisp2 <- "model{
    for (t in 1:T) {
        y[t] ~ dpois(lambda[t]*e[t])
        log(lambda[t]) <- alpha + beta*x[t] + epsilon[t]
        epsilon[t] ~ dnorm(0, tau)
    }
    ## Prioris
    alpha ~ dnorm(0, 0.001)
    beta ~ dnorm(0, 0.001)
    tau ~ dgamma(1, 0.001) 
}"

Startwerte und Kompilieren

Spezifieren wir noch Startwerte:

startwerte <- list(
  "alpha" = 0,
  "beta" = 0,
  "tau" = 1000,
  "epsilon" = rep(0,T)
)

und kompilieren das Modell:

jagsmodel.overdisp2 <- jags.model(file = textConnection(model.overdisp2), 
                                 data = daten, inits = startwerte)

## Compiling model graph
##    Resolving undeclared variables
##    Allocating nodes
## Graph information:
##    Observed stochastic nodes: 22
##    Unobserved stochastic nodes: 25
##    Total graph size: 183
## 
## Initializing model

Ziehungen

50000 Ziehungen burn-in (das ist übrigens sehr großzügig)

update(jagsmodel.overdisp2, n.iter = 50000)

und schliesslich die endgültigen Ziehungen

ziehungen <- coda.samples(jagsmodel.overdisp2, variable.names = c("alpha","beta", "tau", "epsilon"), n.iter=50000)
summary(ziehungen)

## 
## Iterations = 51001:101000
## Thinning interval = 1 
## Number of chains = 1 
## Sample size per chain = 50000 
## 
## 1. Empirical mean and standard deviation for each variable,
##    plus standard error of the mean:
## 
##                   Mean        SD  Naive SE Time-series SE
## alpha       -5.430e-02 2.100e-02 9.393e-05      0.0024630
## beta         2.796e-02 1.045e-02 4.674e-05      0.0012305
## epsilon[1]  -2.694e-02 1.227e-02 5.488e-05      0.0009319
## epsilon[2]  -1.408e-02 1.167e-02 5.220e-05      0.0007846
## epsilon[3]  -4.452e-03 1.096e-02 4.903e-05      0.0006936
## epsilon[4]   2.054e-02 1.020e-02 4.562e-05      0.0005473
## epsilon[5]  -3.451e-03 9.706e-03 4.341e-05      0.0004507
## epsilon[6]   1.346e-02 9.158e-03 4.096e-05      0.0003753
## epsilon[7]   3.858e-03 8.809e-03 3.940e-05      0.0002913
## epsilon[8]   5.066e-03 8.206e-03 3.670e-05      0.0001705
## epsilon[9]   1.209e-02 8.118e-03 3.630e-05      0.0001483
## epsilon[10]  1.658e-03 8.092e-03 3.619e-05      0.0001341
## epsilon[11]  2.915e-02 8.106e-03 3.625e-05      0.0001335
## epsilon[12]  8.611e-03 8.301e-03 3.712e-05      0.0001450
## epsilon[13]  1.917e-02 8.433e-03 3.771e-05      0.0001729
## epsilon[14]  3.189e-02 8.592e-03 3.843e-05      0.0001929
## epsilon[15]  2.095e-02 8.886e-03 3.974e-05      0.0002275
## epsilon[16]  1.088e-02 9.021e-03 4.034e-05      0.0002691
## epsilon[17] -7.095e-04 9.033e-03 4.039e-05      0.0002790
## epsilon[18] -1.181e-02 9.206e-03 4.117e-05      0.0002868
## epsilon[19] -2.616e-02 9.212e-03 4.120e-05      0.0002980
## epsilon[20] -3.112e-02 9.311e-03 4.164e-05      0.0003030
## epsilon[21] -2.535e-02 9.158e-03 4.096e-05      0.0002874
## epsilon[22] -3.269e-02 9.145e-03 4.090e-05      0.0002893
## tau          2.039e+03 6.642e+02 2.970e+00      8.2479447
## 
## 2. Quantiles for each variable:
## 
##                   2.5%        25%        50%        75%      97.5%
## alpha       -9.885e-02 -6.772e-02 -5.255e-02 -4.012e-02 -1.662e-02
## beta         9.049e-03  2.097e-02  2.704e-02  3.450e-02  5.065e-02
## epsilon[1]  -5.074e-02 -3.512e-02 -2.718e-02 -1.899e-02 -2.129e-03
## epsilon[2]  -3.634e-02 -2.191e-02 -1.438e-02 -6.579e-03  9.774e-03
## epsilon[3]  -2.541e-02 -1.180e-02 -4.660e-03  2.657e-03  1.773e-02
## epsilon[4]   9.577e-04  1.369e-02  2.037e-02  2.721e-02  4.116e-02
## epsilon[5]  -2.240e-02 -9.938e-03 -3.546e-03  2.934e-03  1.591e-02
## epsilon[6]  -4.261e-03  7.315e-03  1.339e-02  1.948e-02  3.193e-02
## epsilon[7]  -1.323e-02 -2.082e-03  3.774e-03  9.677e-03  2.124e-02
## epsilon[8]  -1.098e-02 -4.344e-04  5.043e-03  1.055e-02  2.116e-02
## epsilon[9]  -3.821e-03  6.651e-03  1.205e-02  1.755e-02  2.813e-02
## epsilon[10] -1.418e-02 -3.804e-03  1.673e-03  7.111e-03  1.740e-02
## epsilon[11]  1.340e-02  2.371e-02  2.913e-02  3.457e-02  4.518e-02
## epsilon[12] -7.588e-03  3.043e-03  8.628e-03  1.417e-02  2.493e-02
## epsilon[13]  2.587e-03  1.347e-02  1.914e-02  2.481e-02  3.577e-02
## epsilon[14]  1.525e-02  2.612e-02  3.182e-02  3.757e-02  4.910e-02
## epsilon[15]  3.567e-03  1.500e-02  2.093e-02  2.680e-02  3.845e-02
## epsilon[16] -6.988e-03  4.911e-03  1.091e-02  1.693e-02  2.842e-02
## epsilon[17] -1.867e-02 -6.674e-03 -6.882e-04  5.335e-03  1.698e-02
## epsilon[18] -2.988e-02 -1.794e-02 -1.181e-02 -5.676e-03  6.357e-03
## epsilon[19] -4.451e-02 -3.220e-02 -2.611e-02 -2.002e-02 -8.322e-03
## epsilon[20] -4.976e-02 -3.730e-02 -3.101e-02 -2.486e-02 -1.316e-02
## epsilon[21] -4.354e-02 -3.141e-02 -2.521e-02 -1.921e-02 -7.555e-03
## epsilon[22] -5.087e-02 -3.872e-02 -3.263e-02 -2.655e-02 -1.493e-02
## tau          9.719e+02  1.565e+03  1.957e+03  2.428e+03  3.557e+03

Insbesondere erhalten wir hier einen geschätzten Wert von \(\tau\) von 2046 (Posteriori-Erwartungswert) bzw. 1971 (Posteriori-Median)
Posteriori-Erwartungswert und Posteriori-Median unterscheiden sich hier mehr als vergleichsweise bei alpha und beta: Die Posteriori-Dichte ist nämlich nicht symmetrisch.

Trace Plots und Dichteschätzung von alpha, beta und tau

plot(ziehungen[[1]][,1])

plot(ziehungen[[1]][,2])

plot(ziehungen[[1]][,25])

Geschätzten Überdispersionsparameter

epsilon.sample <- ziehungen[[1]][,3:24]
epsilon.median <- apply(epsilon.sample, 2, median)
epsilon.q <- apply(epsilon.sample, 2, quantile, c(.025,.975))
plot(epsilon.median, ylim=range(epsilon.q), ylab=expression(epsilon))
lines(epsilon.q[1,])
lines(epsilon.q[2,])

Wir sehen wieder eine Art Trend, wenn auch etwas anders als zuvor geschätzt.

Zusammenfassung

JAGS ermöglicht es uns, Bayesianische Modelle einfach zu schätzen.
Im letzten Beispiel hatten wir eine Priori-Verteilung auf einen Parameter in einer Priori (\(\tau\)). Man nennt diese Hyper-Priori
Da die Hyper-Priori auf einer anderen Ebene des Modells arbeitet (nicht direkt auf den Parametern der Datendichte), nennt man diese Art von Modell auch Hierarchisches Modell (dazu später mehr)