# 1章 2章 発表 ## 1章 ## 1.1 ベイジアンデータ分析(BDA)の3段階 1 完全確率モデルの構築 全ての観察可能な変数、不可能な変数についての同時確率を計算する。このモデルは、その分野の専門知識と一致しなければならない 2 観察されたデータを条件づける 適切な事後分布を計算する。$p(\theta|\mathbf{y})$ 3 モデルの当てはまりの良さを検証する BDAの目的は、統計分析の結論を常識的に解釈すること。 ## 2章 ### ベータ分布に従う確率変数$x$の期待値 \begin{align} E(x) &= \int x f(x)dx \\ &= \int \frac{x^\alpha (1-x)^{\beta -1}}{B(\alpha, \beta)} dx \\ &= \frac{\alpha}{\alpha + \beta} \int \frac{x^{\alpha' -1}(1-x)^{\beta-1}}{B(\alpha', \beta)} dx &(\text{$\alpha' = \alpha+1$})\\ &= \frac{\alpha}{\alpha + \beta} \end{align} なお、ほぼ同様に分散ももとまり、 \begin{align} V(x) = \frac{\alpha \beta}{(\alpha + \beta)^2(\alpha + \beta+1)} \end{align} ## 2.1 二項データからの確率の推定 パラメータ$\theta$に対して、コイン$n$個中$y$個表になる確率は \begin{align} p(y|\theta) = Bin(y|n, \theta) = \binom{n}{y}\theta^y (1-\theta)^{n-y} \end{align} ## 2.4 情報事前分布 事前分布の設定には正当化が必要。 population interpretation vs state of knowledge interpretation 前者は、事前分布は可能な$\theta$がそれに含まれるべきという考え方で、後者はより主観的に専門的知見が反映されるべき、という考え方。 データとして$\hat{\theta}$が観察されている場合も、事前分布がその値の近くで集中するように設定する必要は必ずしもない。 ### ベイズと共役性 観察された$y$から事後分布$p(\theta|y)$を求める。その際、$\theta$の係数は無視する。今、事前分布が$Beta(\theta|\alpha, \beta)$に従うとすると、 \begin{align} p(\theta|y) &= \frac{p(y|\theta) p(\theta) }{p(y)} &(\text{ベイズの定理})\\ &\propto p(y|\theta)p(\theta) \\ &= \binom{n}{y} \theta^y (1-\theta)^{n-y} Beta(\theta|\alpha, \beta) \\ &\propto \theta^y (1-\theta)^{n-y}\theta^{\alpha-1}(1-\theta)^{\beta-1} \\ &= Beta(\theta|y + \alpha, n-y + \beta) \end{align} 二項分布に事前分布(ベータ分布)を掛け合わせて事後分布を求めと同じベータ分布になる=共役性 共役になる確率分布を事前分布に用いるメリット = 便利 注意点: あくまで事前分布にその確率分布を用いることが正当化できる場合。できなければ、より現実的な分布を用いる $\theta$の期待値は、$Beta(x|\alpha, \beta)$に従う$x$の期待値が$E(x) = \frac{\alpha}{\alpha +\beta}$であることを用いて、 \begin{align} E(\theta|y) &= \frac{y + \alpha}{y + \alpha + n - y + \beta} \\ &= \frac{y + \alpha}{\alpha + \beta + n} \end{align} 今、$n$と$y$が固定された$\alpha$、$\beta$、に比べて十分大きいとすると、 \begin{align} \lim_{n, y \rightarrow \infty} E(\theta|y) = \frac{y}{n} \end{align} また、$Beta(x|\alpha, \beta)$に従う$x$の分散が$V(x) = \frac{\alpha \beta}{(\alpha + \beta)^2(\alpha + \beta+1)}$を用いて、 \begin{align} Var(\theta|y) &= \frac{(y+ \alpha)(n-y+\beta)}{(y+\alpha + n - y + \beta)^2(y+\alpha + n-y+\beta+1)} \\ &= \frac{\alpha + y}{ \alpha + \beta + n}\frac{n-y+\beta}{\alpha + \beta + n}\frac{1}{\alpha + \beta + n+1} \\ &= \frac{E(\theta|y)\left( 1-E(\theta|y)\right)}{\alpha + \beta + n+1} \end{align} 今、$n$と$y$が固定された$\alpha$、$\beta$、に比べて十分大きいとすると、 \begin{align} \lim_{n, y \rightarrow \infty} Var(\theta|y) = \frac{y}{n}\frac{n-y}{ n}\frac{1}{ n} \end{align} ## 2.2 データと事前分布の妥協としての事後分布 今、$E(\theta|y) = \frac{y + \alpha}{\alpha + \beta + n}$は、事前分布の期待値$E(x) = \frac{\alpha}{\alpha +\beta}$と、観察されたデータの期待値$E(y|\theta) = y/n$との間にあることが分かる。このように事後分布は、事前分布とデータとの妥協である。 ## 2.4 有情報事前分布 ### 指数型分布と共役性 指数型分布において、 \begin{align} p(y_i|\theta) = f(y_i)g(\theta)exp(\mathbf{\phi}(\theta)^T \mathbf{u}(y_i)) \end{align} よって、$n$が複数の指数型分布において、 \begin{align} p(\mathbf{y}|\theta) &= p(y_1, y_2, y_3...|\theta) \\ &= p(y_1|\theta) p(y_1|\theta) p(y_1|\theta) ... \\ &= (\prod_i f(y_i)) g(\theta)^n exp(\mathbf{\phi}(\theta)^T\sum \mathbf{u}(y_i)) \\ &\propto g(\theta)^n exp(\mathbf{\phi}(\theta)^T \mathbf{t}(y)) &(\mathbf{t}(y) = \sum \mathbf{u}(y_i) ) \end{align} また、事前分布について \begin{align} p(\theta) \propto g(\theta)^\eta exp(\mathbf{\phi}(\theta)^T\mathbf{v} )\\ \end{align} とすると、事後分布は、 \begin{align} p(\theta|y) &= p(y|\theta)p(\theta) \\ &\propto g(\theta)^n exp(\mathbf{\phi}(\theta)^T \mathbf{t}(y)) g(\theta)^\eta exp(\mathbf{\phi}(\theta)^T \mathbf{t}(y) \\ &= g(\theta)^{n+\eta} exp(\mathbf{\phi}(\theta)^T(\mathbf{v}+\mathbf{t}(y))) \end{align} となる。よって、指数型分布に対して事前分布(指数型分布)を置くと、事後分布も指数型分布となる。 ### 例 女児の出生率 前置胎盤の元では、女児の出生は男児に比べて若干少ないことが知られ、ドイツでは980人中437人が女児だった(0.445)。では、前置胎盤で出生した場合の女児の割合が0.485以下になるとどの程度言えるか 一様分布を事前分布とし、事後分布は、$Beta(438, 544)$に従うとする。この分布から1000回$\theta$を求めた時の中央値は$0.446$となり、実際の結果と近くなる。また、95%信頼区間は$[0.416, 0.476]$となる。 ## 2.5 分散が既知の正規分布 ### 正規分布と共役性 正規分布において、 \begin{align} p(y|\theta) = \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{1}{2\sigma^2} (y-\theta)^2) \end{align} また、事前分布も正規分布に従うと仮定すると、 \begin{align} p(\theta) &\propto exp(-\frac{1}{2\tau_0^2}(\theta - \mu_0)^2) \end{align} 今、事後分布は、 \begin{align} p(\theta|y) &\propto exp(-\frac{1}{2\sigma^2} (y-\theta)^2)exp(-\frac{1}{2\tau_0^2}(\theta - \mu_0)^2) \\ &= exp(-\frac{1}{2\tau_1^2}(\theta-\mu_1)^2) &(\text{章末問題}) \\ &= N(\theta|\mu_1, \tau_1^2) \end{align} となる、よって事後分布も正規分布に従う。 同様に、$n \geq 2$のデータについて、 \begin{align} p(\theta|\mathbf{y}) &\propto p(\theta)p(y_1, y_2 ...|\theta) \\ &= p(\theta)\prod_i p(y_i|\theta) \\ &\propto exp(-\frac{1}{2\tau_0^2}(\theta - \mu_0)^2) \prod_i exp(-\frac{1}{2\sigma^2} (y_i-\theta)^2) \\ &= exp(-\frac{1}{2}(\frac{1}{\tau_0^2}(\theta - \mu_0)^2 + -\frac{1}{2\sigma^2}\sum_i (y_i-\theta)^2))\\ &\propto exp(-\frac{1}{2}((\frac{1}{\tau_0^2} + \frac{n}{\sigma^2})\theta^2 - 2(\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}\hat{y})\theta) \\ &\propto exp(-\frac{1}{2\tau_n^2}(\theta-\mu_n)^2)\\ &= N(\theta|\mu_n, \tau_n^2) \end{align} よって、$n \geq 2$の場合も、事後分布は正規分布に従う。 ## 2.6 その他の分布 ### 平均が既知で分散が未知の場合 \begin{align} p(\mathbf{y}|\sigma^2) &= \prod_i p(y_i|\sigma^2) \\ &= \prod_i \frac{1}{\sqrt{2\pi \sigma^2}} exp(-\frac{1}{2\sigma^2}(y_i - \theta)^2) \\ &\propto \sigma^{-n} exp(-\frac{1}{2\sigma^2} \sum_i(y_i - \theta)^2) \\ &= (\sigma^2)^{-n/2} exp(-\frac{n}{2\sigma^2}v) \end{align} そして、事前分布を逆カイ2乗分布に従うとする($\sigma^2 \sim Inv-\chi^2 (\upsilon_0, \sigma_0^2)$)とすると、事後分布は、 \begin{align} p(\sigma^2|y) \propto p(\sigma^2)p(y|\sigma^2) &\propto (\frac{\sigma_0^2}{\sigma^2})^{\upsilon_0 /2 +1}exp(-\frac{\upsilon_0 \sigma_0^2 }{2\sigma^2})(\sigma^2)^{-n/2}exp(-\frac{n}{2\sigma^2}v)\\ &\propto (\sigma^2)^{-((n+\upsilon_0)/2 +1)}exp(-\frac{1}{2\sigma^2}(\upsilon_0 \sigma_0^2 + nv)) \end{align} よって、$y|\sigma^2 \sim Inv-\chi^2 (\upsilon_0 + n, \frac{\upsilon_0 \sigma_0^2 + nv}{\upsilon_0 +n})$ ### ポワソン分布 $y$がポワソン分布に従うとすると、 \begin{align} p(y|\theta) = \frac{\theta^y exp(-\theta)}{y!} \end{align} になる。よってデータ全体について、$\mathbf{y}$がポワソン分布に従うとすると、 \begin{align} p(\mathbf{y}|\theta) &= \prod_i \frac{\theta^{y_i} exp(-\theta)}{y_i!} \\ &\propto \theta^{t(y)}exp(-n\theta) \\ &= exp(-n\theta)exp(t(y)log\theta) \end{align} いま、事前分布が$Gamma(\alpha, \beta)$に従う、$p(\theta)\propto exp(-\beta \theta)\theta^{\alpha-1}$とすると、 \begin{align} p(\theta|y) &\propto p(\theta)p(y|\theta) \\ &= exp(-\beta \theta)\theta^{\alpha-1} exp(-n\theta)exp(t(y)log\theta) \\ &= exp(-(\beta + n)\theta)exp(log(\alpha+t(y)-1)) \end{align} よって、$\theta|y \sim Gamma(\alpha + t(y), \beta +n)$になる。 また、説明変数$x$を加え、$y \sim Poisson(x\theta)$とすると、 \begin{align} p(\mathbf{y}|\theta) &= \prod_i p(y_i|\theta, x_i) \\ &\propto \theta^{\sum_i y_i}exp(-\sum_i x_i \theta) \end{align} そして、再び、事前分布が$Gamma(\alpha, \beta)$に従う、$p(\theta)\propto exp(-\beta \theta)\theta^{\alpha-1}$とすると、 \begin{align} p(\theta|y) &\propto exp(-\beta \theta)\theta^{\alpha-1} \theta^{\sum_i y_i}exp(-\sum_i x_i \theta) \\ &=exp(log \theta (\alpha + \sum_i y_i -1)exp(-(\beta + \sum_i x_i)\theta) \end{align} よって、$\theta|y \sim Gamma(\alpha + \sum_i y_i, \beta + \sum_i x_i)$ ## 2.8 無情報事前分布 事前分布は何らかの正当化が必要 (例 Figure 2.10) 正当化の根拠が乏しい場合、事前分布を設定するには困難が伴う。そのような時に設定される事前分布を参照事前分布と呼び、確率密度関数はvague, flat, diffuse or noninformativeなものが選ばれる。一方で、事後分布を正規化したり妥当な範囲に収めるために選ばれる弱い仮定を置いたものをWeakly informative priorと呼ぶ。 ### 適切・不適切な事前分布 $\int p(\theta)d\theta > 1$の場合 分散既知の正規分布において、既に展開したように、 \begin{align} p(\theta|\mathbf{y}) &\propto p(\theta)p(y_1, y_2 ...|\theta) \\ &= exp(-\frac{1}{2}(\frac{1}{\tau_0^2}(\theta - \mu_0)^2 + -\frac{1}{2\sigma^2}\sum_i (y_i-\theta)^2))\\ &\propto exp(-\frac{1}{2}((\frac{1}{\tau_0^2} + \frac{n}{\sigma^2})\theta^2 - 2(\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}\hat{y})\theta) \\ &\propto exp(-\frac{1}{2\tau_n^2}(\theta-\mu_n)^2)\\ &= N(\theta|\mu_n, \tau_n^2) \end{align} なお、$\mu_n = \frac{\frac{\mu_0}{\tau_0^2}+\frac{n\bar{y}}{\sigma^2}}{\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}}$であり、$\tau_n^2 = \frac{1}{\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}}$である。 今、$\tau_0 \rightarrow \infty$か、$n \rightarrow \infty$とすると、 \begin{align} \lim_{\tau_0 \rightarrow \infty} \mu_n = \bar{y} \end{align} \begin{align} \lim_{\tau_0 \rightarrow \infty} \tau_n^2 = \frac{\sigma^2}{n} \end{align} である。よって、$p(\theta|\mathbf{y}) \approx N(\theta|\bar{y}, \sigma^2/n)$と書き直せ、良い近似となる。 この時、$p(\theta)$は$\theta \in (-\infty, \infty)$に対応している \begin{align} p(\theta) = \frac{1}{\sqrt{2\pi \tau_0^2}}\exp(-\frac{1}{2\tau_0^2}(\theta - \mu_0)^2) \end{align} この場合、$\int p(\theta)d\theta > 1$となるので、事前分布は不適切 なぜ$p(\theta)=\infty$? ## Jeffreyの不変原則 事前分布の選択の際の一つのルール。パラメータに影響を受けないことの確認 $J(\phi)^{1/2}=J(\theta)^{1/2}|\frac{d\theta}{d\phi}|$ ## ### 無情報事前分布の困難 1 常に無情報事前分布を使えば良いというわけではない 2 無情報事前分布を決定するのは困難 3 不適切な事前分布をを用いたモデルを組み合わせる際の困難(後の章で) ## 2.9 Weakly informative prior distributions Weakly informative prior: 適切ではあるが、情報を意図的に弱められたもの 事前分布の設定は、正確さと利便性との対立 ### Weakly informative prior distributionを作る Weakly informative prior distributionを作る際の2つの方向性 1 無情報事前分布から始め、推論を適切な範囲に収めるために必要な情報を追加していく 2 より強い仮定を置いた情報分布から始め、仮定を弱めていく いずれもピュアではないが、どちらを使うかはケースバイケース