推定量とは

正規分布 $N (μ, σ^{2})$ やポアソン分布 $P o (λ)$ のように、確率分布はパラメータ（これを $θ$ あるいは $θ$ で表現します）に依存しています。

いま、ある確率分布の未知パラメータ $θ$ を標本 $X_{1}, \dots, X_{n}$ から推測することを考えます：

clipboard:推定量：定義
$\hat{θ} = T (X_{1}, \dots, X_{n})$

この $\hat{θ}$ を 推定量 といいます。上式が表す通り、推定量 $\hat{θ}$ は未知パラメータ $θ$ には依らず標本 $X_{1}, \dots, X_{n}$ のみからなる関数であるので、統計量 の一種です。

最尤推定

未知パラメータ $θ$ で規定された分布の確率密度関数を $f (x ∣ θ)$ とします。このとき、この確率分布からそれぞれ独立に抽出した標本 $X_{i}$ に対応する確率密度関数は $f (x_{i} ∣ θ)$ であり、標本 $X_{1}, \dots, X_{n}$ が実現値 $x_{1}, \dots, x_{n}$ をとるような場合には、

clipboard:尤度関数：定義
$L (θ ∣ x) = i = 1 \prod n f (x_{i} ∣ θ)$

というような $θ$ の関数 $L (θ ∣ x)$ を考えることができます。これをデータ $x := (x_{1}, \dots, x_{n})$ を与えたときの 尤度関数（尤度） といい、パラメータ空間を $Θ$ とするとき、尤度が最大となるような $θ \in Θ$ として推定量 $\hat{θ}$ を定めるやり方は 最尤法 とよばれます：

最尤推定量
$\hat{θ} = θ \in Θ arg max L (θ ∣ x)$

したがって、この $\hat{θ}$ は 最尤推定量 です。最尤推定量は、通常は尤度の対数値（対数尤度）が極大となる条件：

$\frac{\partial}{\partial θ} ln L (θ ∣ x) = 0$

から求められます。

不偏性

バイアス・バリアンス分解

推定量 $\hat{θ}$ が真の値 $θ$ に対してどれだけの誤差をもつか検討したいと思います。直感的には、分散

$V [\hat{θ}] = E [\hat{θ}^{2}] - (E [\hat{θ}])^{2}$

を利用することができそうです。ここで、 $E [\hat{θ}] = θ$ であればゼロになる量として、バイアス：

$b (\hat{θ}) := E [\hat{θ}] - θ$

を導入することによって、

$V [\hat{θ}] = E [(\hat{θ} - θ)^{2}] + (E [\hat{θ}] - θ)^{2}$

と分解することにします。推定量におけるこの分解をバイアス・バリアンス分解といい、このとき出てきた項 $E [(\hat{θ} - θ)^{2}]$ を $θ$ と $\hat{θ}$ の 平均2乗誤差 といいます。

不偏推定量

$E [\hat{θ}] = θ$ であるような推定量 $\hat{θ}$ はバイアスをゼロにします。そのような $\hat{θ}$ をとくに 不偏推定量 とよびます。

一様最小分散不偏推定量

不偏推定量の分散は平均2乗誤差 $E [(\hat{θ} - θ)^{2}]$ に等しくなりますが、これを最小化する（一様最小分散である）ような不偏推定量はとくに 一様最小分散不偏推定量 とよばれます。

線形モデルにおける不偏推定量

最小二乗法による線形モデルのパラメータ推定は不偏性と密接な関係を持ちます。例えば、線形単回帰モデル $y_{i} = β x_{i} + u_{i}$ （ $u_{i}$ は平均がゼロである独立同分布からの誤差項）において、 $β$ の最小二乗推定量 $\hat{β}$ は、

$\frac{\partial}{\partial β} i \sum (y_{i} - β x_{i})^{2} = 0$

として、残差平方和を最小化するような $β$ として求められ、次のように表せます：

$\hat{β} = \frac{i \sum x _{i} y _{i}}{i \sum x _{i} ^{2}}$

これは $y_{i}$ についての線形和で表されており、なおかつ不偏性 $E [\hat{β}] = β$ をもつため、線形不偏推定量 とよばれます。さらに、そのような $\hat{β}$ が一様最小分散であるならば、これを 最良線形不偏推定量（BLUE） とよびます。

有効性

フィッシャー情報量

最尤法では対数尤度の微分 $S (θ) := \partial ln L (θ) / \partial θ$ を用いていました。これをスコア関数といいます。この分散は、

$V [S (θ)] = E [S^{2} (θ)] - (E [S (θ)])^{2} = E [S^{2} (θ)]$

ですから^[1]、必ず2次モーメントに等しいです。このようなスコア関数の分散：

clipboard:フィッシャー情報量
$I_{n} (θ) := V [S (θ)] = E [(\frac{\partial}{\partial θ} ln L (θ))^{2}]$

を $n$ 個の標本からなる フィッシャー情報量 とよびます。適当な条件の下では、

フィッシャー情報量：別の表現
$I_{n} (θ) = E [- \frac{\partial ^{2}}{\partial θ ^{2}} ln L (θ)]$

と表すこともできます。また、独立同分布からの標本 $X_{1}, \dots, X_{n}$ に対しては、単一の標本によるフィッシャー情報量 $I_{1} (θ)$ を用いて、

$I_{n} (θ) = n I_{1} (θ)$

と分解することができます。

クラメール・ラオの不等式

不偏推定量 $\hat{θ}$ とスコア関数 $S = S (θ)$ の共分散：

$C o v [S, \hat{θ}] = E [S \cdot \hat{θ}] - E [S] E [\hat{θ}] = E [S \cdot \hat{θ}]$

を考えます。ここで、スコア関数の期待値がゼロであることを用いました。最右辺の期待値を書き下すために、スコア関数を次のように分解します：

$S = \frac{\partial}{\partial θ} ln L (θ ∣ x) = \frac{\partial}{\partial θ} ln f (x ∣ θ) = \frac{1}{f ( x ∣ θ )} \frac{\partial f ( x ∣ θ )}{\partial θ}$

ここで $f (x ∣ θ)$ は分布の確率密度関数であり、 $L (θ ∣ x) = f (x ∣ θ)$ です。よって、

$E [S \cdot \hat{θ}] = \int_{x \in R} \hat{θ} \cdot (\frac{1}{f ( x ∣ θ )} \frac{\partial f ( x ∣ θ )}{\partial θ}) f (x ∣ θ) d x = \int_{x \in R} \hat{θ} \cdot \frac{\partial f ( x ∣ θ )}{\partial θ} d x$

を得ます。微分と積分の交換を行うと、

$E [S \cdot \hat{θ}] = \int_{x \in R} \hat{θ} \cdot \frac{\partial f ( x ∣ θ )}{\partial θ} d x = \frac{\partial}{\partial θ} \int_{x \in R} \hat{θ} \cdot f (x ∣ θ) d x = \frac{\partial}{\partial θ} E [\hat{θ}] = 1$

となります。ここで $\hat{θ}$ が不偏推定量であることを用いました。結局、 $C o v [S, \hat{θ}]$ は $\hat{θ}$ が不偏推定量である場合には $1$ となります。

ところで、 $S$ と $\hat{θ}$ の相関係数の範囲を考えると、

$∣ ρ [S, \hat{θ}] ∣ = \frac{∣ C o v [ S , θ ^ ] ∣}{V [ S ] V [ θ ^ ]} = \frac{1}{V [ θ ^ ] \cdot I _{n} ( θ )} \leq 1$

であるので、不等式：

クラメール・ラオの不等式
$V [\hat{θ}] \geq \frac{1}{I _{n} ( θ )}$

を得ます。上式の等号をみたすような不偏推定量をとくに 有効推定量 といいます。 $\hat{θ}$ が有効推定量であるとき、

$min (V [\hat{θ}]) = min (E [(\hat{θ} - θ)^{2}]) = \frac{1}{I _{n} ( θ )}$

ですから、有効推定量は一様最小分散不偏推定量です。

漸近有効性・漸近正規性

一致推定量 $\hat{θ}$ が漸近的にクラメール・ラオの不等式の等号を達成する場合、そのような性質を 漸近有効性 といいます：

$n \to \infty lim nV [\hat{θ}] = \frac{1}{I _{1} ( θ )}$

とくに、最尤推定量は多くの場合に漸近有効性をもちますから、最尤推定量は十分なサンプルサイズの下でよい推定量となります。

また、最尤推定量については、推定誤差 $\hat{θ} - θ$ について中心極限定理：

$n (\hat{θ} - θ) \sim N (0, [I_{n} (θ)]^{- 1})$

をみたし、これを 漸近正規性 といいます。

十分統計量

パラメータ $θ$ で規定されるある確率分布からの標本 $X := X_{1}, \dots, X_{n}$ とその実現値に対し、次の性質をみたす統計量 $T = T (X)$ を 十分統計量 といいます：

clipboard:十分統計量
$P (X = x ∣ T = t; θ) = P (X = x ∣ T = t) s.t. T = T (X)$

すなわち、 $T$ が十分統計量であるとは、統計量 $T$ で特徴づけられた分布 $P (X ∣ T)$ がパラメータ $θ$ に依らず、 $T$ で説明できることを表します。

フィッシャー・ネイマンの分解定理

パラメータ $θ$ 、確率密度関数 $f (x ∣ θ)$ をもつ分布の標本 $X := X_{1}, \dots, X_{n}$ に対し、 $θ$ を説明する十分統計量 $T (X)$ を与えます。このとき、適当な関数 $g, h$ が存在して、

$f (x ∣ θ) = g (x) h (T (X), θ)$

と、パラメータ $θ$ に依存する部分としない部分の積に分解できることが知られています。これを フィッシャー・ネイマンの分解定理 といいます。

ジャックナイフ法

推定量 $\hat{θ}$ がバイアスをもつ場合、標本 $X_{1}, \dots, X_{n}$ からの部分標本を用いてバイアスを補正する方法として ジャックナイフ法 があります。

いま、 $i$ 番目の標本 $X_{i}$ を除いた部分標本から同様の方法で求められる推定量を $\hat{θ}_{(i)}$ とします^[2]。ここで、すべての $i$ に対する平均として、

$\overset{ˉ}{\hat{θ}_{(\cdot)}} = \frac{1}{n} i = 1 \sum n \hat{θ}_{(i)}$

を定義すると、バイアス $b (θ)$ の推定量として、

$\hat{b} (θ) = (n - 1) (\overset{ˉ}{\hat{θ}_{(\cdot)}} - \hat{θ})$

を得ます。バイアスの推定量を用いて補正した次の推定量：

$\hat{θ}_{jack} := \hat{θ} - \hat{b} (θ) = n \hat{θ} - (n - 1) \overset{ˉ}{\hat{θ}_{(\cdot)}}$

を ジャックナイフ推定量 といいます。このとき、 $\hat{b} (θ)$ については

$E [\hat{b} (θ)] = \frac{b ( θ )}{n}$

をみたし、スケールしたバイアスの不偏推定量となります。

参考

書籍

『統計学実践ワークブック』（学術図書出版社, 2020）第8章

サイト

クラメール・ラオの限界 | Wikipedia

脚注

$E [S (θ)]$ について微分を陽に表し、期待値と微分の入れ替え： $\partial E [ln L (θ)] / \partial θ$ を行えば、期待値は定数であるためこの値は必ずゼロとなります。 ↩︎
たとえば、正規分布のパラメータ $μ$ の最尤推定量として標本平均 $\overset{μ}{^} = \frac{1}{n} \sum_{j} X_{j}$ が得られます。この場合、 $\overset{μ}{^}_{(i)} = \frac{1}{n - 1} \sum_{j \neq = i} X_{j}$ となります。 ↩︎

記事がありません

大学生 | 化学・Webプログラミング・統計学など

推定量についてのまとめ