重回帰モデル
定義
個の説明変数 で を推定する次のモデル:
を 重回帰モデル といいます。ここで、 はサンプルのインデックス( とする)を表し、 は をみたす独立同分布からの誤差項であるとします。これにより、所与として 番目のサンプル を与えた時の は、 なる確率変数であると考えることができます。
行列表現
サンプルをすべてまとめて表現したい場合、次の行列表現を考えます。
すると、
と表すことができます。
最小二乗法
重回帰モデルの 回帰係数 の推定量 を求める方法として、一般的なものに 最小二乗法 があります。
残差・残差平方和
最小二乗法の要点は、もとのデータ と回帰係数の推定量 を使って得られた の推定値:
の差分 をできるだけ小さくする、という考え方にあります。この量 を 番目の観測値の 残差 といいます。また、残差の2乗和:
を 残差平方和 といいます。
最小二乗推定量
残差平方和 を最小化するような推定量 として、最小二乗推定量 を次の条件のもと定めます:
行列表現
ある回帰係数 を用いて計算される残差 に対し、残差平方和はその内積 と与えることができます。これを で微分することにより、
から、これをみたす を として、
を得ます。これを 正規方程式 といいます。
平方和の分解・決定係数
各平方和(変動)を次のように定義します:
総平方和 | 回帰平方和 | 残差平方和 | |
---|---|---|---|
定義 | |||
自由度 |
各平方和の間には、次の分解:
が成り立ちます。これらを で除せば、 は の分散、 は の分散に相当します。
これらを用いて、
という量を定義すると、これは を満たし、これを 決定係数 といいます。上式から、決定係数は に近いほど が小さく、よい当てはまりを示すモデルであることを表します。重回帰モデルのように説明変数が多い場合には、
として各変動の自由度で除した 自由度調整済み決定係数 を用いる場合が多いです。
最小二乗推定量の性質
期待値と分散
は不偏性をもちます:
しかも、 は最小分散であり、以下を満たします:
ここで は誤差 が独立同一にしたがう正規分布の分散ですが、この推定量 としては、
が不偏推定量となります()。結局、 がしたがう確率分布として、
なる 次元正規分布を得ます。
最尤推定量との関係
誤差 が独立同一に正規分布 にしたがうという仮定のもとでは、
ですから、データ を与えたもとでの尤度関数 は次のように与えることができます:
これより、対数尤度関数は
となりますから、 をみたすようにして決められる最尤推定量 は残差平方和を最小化することに相当し、最小二乗推定量に等しくなります。
回帰の妥当性の検討
回帰係数の有意性検定
回帰係数の推定量 の効果を検定することを考えます。いま、すべての回帰係数について、ゼロか非ゼロを検定するための仮説を次のように設定します:
このとき、次のような 値を検定統計量として用いることで、この仮説を検定することができます:
レバレッジ
最小二乗推定量 に対し、次の行列:
は をみたします。このような行列 において、 番目の対角要素 を 番目の観測値における レバレッジ といい、観測値 が回帰係数 へ及ぼす影響の大きさを表します。
レバレッジの値は を外れ値とみなすかどうかの指標として利用できます。
ペナルティ付き回帰モデル
以上のような重回帰モデルの推定は、訓練データ を与えたもとでモデルを構成する(最適な回帰係数 を決める)教師あり学習の手法と考えることができます。ここで、最小二乗推定の際に最小化する量:
を、機械学習の文脈で 損失関数[1] とよびます。
重回帰モデルでは、一般に説明変数の数 が増えると、用いた訓練データへの適合が大きすぎるために回帰の精度が落ちるという 過学習 の問題が生じます。この問題に対処するために、損失関数にデータへの適合を押さえるための 正則化項(ペナルティ) を加えたモデルが存在します。
Ridge回帰
以下の関数:
を最小化する回帰モデルは Ridge回帰 とよばれます。ここで は正則化の強さを決めるハイパーパラメータです。Ridge回帰では正則化のために -ノルム[2] を用いており、このような形式を -正則化 とよびます。
このとき、正則化項は と書きなおせますから、最小化の条件は
となります( は単位行列)。Ridge回帰モデルは効果の大きい回帰係数にペナルティを課すことで過学習を防ぎます。
LASSO回帰
-ノルムを正則化に用いた以下の関数:
を最小化する回帰モデルは LASSO回帰 とよばれ、このような正則化形式を -正則化 といいます。 を解析的に書くことは難しいですが、このモデルにはペナルティを受けた回帰係数の値をゼロにするという特徴があります。したがって、LASSO回帰モデルでは不要な説明変数を削ることで過学習を防ぐことができます。
LASSO回帰モデルの代表例として、時系列データの平滑化に用いられる Fused LASSO があります。時系列データ に対応する信号を とするとき、ペナルティとして
を課すと、隣接する時刻で は同じ値を取りやすくなり、時系列データのグラフは定数関数をつなぎ合わせたような形になります。
参考
書籍
- 『統計学実践ワークブック』(学術図書出版社, 2020)第16,17章
- 永田靖・棟近雅彦『多変量解析入門』(サイエンス社, 2001)第5章