ベイズ推定の導入

いま、未知の確率分布 $P (X)$ からの $n$ 個のサンプル $x := (x_{1}, x_{2}, \dots, x_{n})^{⊤}$ があるとします。これらを用いて、 $P (X)$ がどのような分布であるかを知るための方法について考えます。

予測分布の展開

いま、手元にサンプル $x$ がありますから、これを用いた 予測分布 $P (X ∣ x)$ を構成し、これを $P (X)$ の予測とすることを考えます。条件付き分布である $P (X ∣ x)$ は次のように分解できるはずです：

$P (X ∣ x) = \frac{P ( X , x )}{P ( x )}$

$P (X, x)$ は同時分布です。ここで、あるパラメータの組 $θ$ を用いて、

$\frac{P ( X , x )}{P ( x )} = \frac{1}{P ( x )} \int P (X, x, θ) d θ$

のようにすることで、パラメータによる周辺化を行います。さらに同時分布の展開：

$P (X, x, θ) = P (X ∣ x, θ) P (x, θ) = P (X ∣ x, θ) P (x ∣ θ) P (θ)$

によって、もとの式は

$\frac{1}{P ( x )} \int P (X, x, θ) d θ = \frac{1}{P ( x )} \int P (X ∣ x, θ) P (x ∣ θ) P (θ) d θ$

と変形できます。

事前分布・事後分布

ベイズ推定では、パラメータ $θ$ を確率変数ととらえ、その分布 $P (θ)$ を前もって決定します。このような $P (θ)$ を 事前分布 といいます。つまり、パラメータ $θ$ を規定して決まる系の確率分布 $P (X ∣ θ)$ はパラメトリックな分布であることになります。

対して、サンプル $x$ を根拠としたパラメータの分布 $P (θ ∣ x)$ を 事後分布 といい、ベイズの定理から、

ベイズ推定：事後分布
$P (θ ∣ x) = \frac{P ( x ∣ θ ) P ( θ )}{P ( x )} = \frac{P ( x ∣ θ ) P ( θ )}{\int P ( x , θ ) d θ} = \frac{P ( x ∣ θ ) P ( θ )}{\int P ( x ∣ θ ) P ( θ ) d θ}$

と展開できます。ここで、分母の正規化定数は 周辺尤度 とよばれます^[1]。

さて、 $P (X ∣ x, θ)$ はパラメトリックモデル $P (X ∣ θ)$ として適当に決めることにすれば、

ベイズ推定：予測分布
$P (X ∣ x) ≃ \int P (X ∣ θ) P (θ ∣ x) d θ$

を得ます。つまり、ベイズ推定における「推定」は、適当に決めたパラメトリックモデルとサンプルからの事後分布によって行うことになります。しかしながら、モデル $P (X ∣ θ)$ は事前に決定しておくため、ベイズ推定は本質的に事後分布 $P (θ ∣ x)$ を求めることで $θ$ を推定する問題に置き換わります。

点推定

$θ$ を推定する方法として、事後分布を求めるほかに点推定を行う場合があります。わかりやすい例として事前分布 $P (θ)$ に対する最尤推定量が挙げられますが、そのほかにも点推定を行う方法があります。

ベイズ推定量

事後分布による期待値：

$\hat{θ} = \int θ \cdot f (θ ∣ x) d θ$

をパラメータ $θ$ の ベイズ推定量 といいます。

MAP推定量

MAP推定量 は、事後分布がベイズの定理によって、

$P (θ ∣ x) = \frac{P ( x ∣ θ ) P ( θ )}{P ( x )} \propto P (x ∣ θ) P (θ)$

と表すことができることを利用します。すなわち、既知であるモデル $P (x ∣ θ)$ および事前確率 $P (θ)$ のみの情報を使って事後分布を表現します。

事前分布

共役事前分布

ベイズ推定の扱いは事前分布 $P (θ)$ の決定に大きく依存します。特に、同様の確率分布を事後分布 $P (θ ∣ x)$ として与えるような事前分布は、扱いを簡便にします。そのような事前分布を 共役事前分布 とよびます。

特に、ベータ分布やガンマ分布はこの用途で非常に有用です。

おもな共役事前分布

尤度 $P (x ∣ θ)$	事前分布 $P (θ)$	事後分布 $P (θ ∣ x)$
正規分布 ( $σ^{2}$ 既知)	正規分布	正規分布
二項分布 $B in (n, p)$	ベータ分布 $B e (a, b)$	ベータ分布 $B e (a + x, b + n - x)$
ポアソン分布 $P o (λ)$	ガンマ分布 $G a (a, 1)$	ガンマ分布 $G a (a + n \overset{x}{ˉ}, n + 1)$

以下では、 $X \sim B in (n, p)$ に対し、未知パラメータ $p$ の事前分布としてベータ分布 $B e (a, b)$ を与える場合について確かめてみます。 $B e (a, b)$ の確率密度関数を $f$ とするとき、

$f (p) = \frac{1}{B ( a , b )} p^{a - 1} (1 - p)^{b - 1}$

は $p$ の事前分布に対応します。ここで $B (a, b)$ はベータ関数：

$B (a, b) := \int_{0}^{1} t^{a - 1} (1 - t)^{b - 1} d t$

です。一方、二項分布の確率質量関数を $π$ とし、所与 $X = x$ を与えるとき、

$π (x ∣ p) = (n x) p^{x} (1 - p)^{n - x}$

ですから、事後分布は

$π (x ∣ p) f (p) = (n x) p^{x} (1 - p)^{n - x} \cdot \frac{1}{B ( a , b )} p^{a - 1} (1 - p)^{b - 1} \propto p^{a + x - 1} (1 - p)^{b + n - x - 1}$

となって、ベータ分布の確率密度関数 $f (p ∣ a + x, b + n - x)$ に比例することがわかります。

参考

書籍

『統計学実践ワークブック』（学術図書出版社, 2020）第31章

サイト

ベイズ推定１：ベイズ推定はどのように予測を構成するのか | Qiita

ベイズ推定３：共役事前分布 | Qiita

共役事前分布を分かりやすく解説 (AVILEN)

脚注

周辺尤度は解析困難な場合も多く、そのような事後分布からのサンプリングにはMCMCなどのアルゴリズムが役に立ちます（このブログにも記事があります：Pythonスクリプトを書きながら理解する「マルコフ連鎖モンテカルロ」入門）。 ↩︎

- Pythonスクリプトを書きながら理解する「マルコフ連鎖モンテカルロ」入門

大学生 | 化学・Webプログラミング・統計学など

ベイズ推定の基本知識まとめ