基本
モデル
p 個の説明変数からなるデータセット i=1,2,…,n に対し、
yi=β0+i=1∑pβixi,p+ϵi,ϵi∼N(0,σ2)
予測値は、
y^i=β^0+i=1∑pβ^ixi,p
ベクトルと行列による表現
n 次元ベクトル y、(n,p+1) 行列 X、(p+1) 次元ベクトル β と n 次元誤差ベクトル ϵ を定義する:
y:=(y1,…,yn)⊤,X:=11⋮1x11−xˉx21−xˉ⋮xn1−xˉ⋯⋯⋱⋯x1p−xˉx2p−xˉ⋮xnp−xˉ
β:=(α0,β1,…,βp)⊤,ϵ:=(ϵ1,…,ϵn)⊤
このとき、
y=Xβ+ϵ,ϵ∼N(0,σ2In)
残差・残差平方和
残差:
ei:=yi−y^i,e:=y−y^
残差平方和:
Se=i=1∑nei2=e⊤e
最小二乗推定の条件(正規方程式):
∂β^i∂Se=0⟺X⊤Xβ^=X⊤y
平方和分解と自由度
回帰平方和:
SR=i=1∑n(y^i−yˉ)2,DF=p
残差平方和:
Se=i=1∑n(yi−y^i)2,DF=n−p−1
全平方和:
ST=i=1∑n(yi−yˉ)2,DF=n−1
平方和分解:
ST=SR+Se,i=1∑n(yi−yˉ)2=i=1∑n(y^i−yˉ)2+i=1∑n(yi−y^i)2
決定係数
決定係数:
R2=STSR=1−STSe
自由度調整済み決定係数:
Rad2=1−ST/(n−1)Se/(n−p−1)
回帰モデルの検討
F 値
ϕ=Se/(n−p−1)SR/p∼F(p, n−p−1)
標準化残差・t 値
標準化残差:
ui=σ^ei,σ^2=n−p−1Se
t 値:
τ=(1−hii)σ^ei∼t(n−p−1)
レバレッジ・マハラノビス距離
レバレッジ:
hii=n1+n−1Di2,y^=(hii)y
マハラノビス距離(2乗):
Di2=(n−1)(xi−xˉ⋅)⊤Σ−1(xi−xˉ⋅)
ただし
xi=(xi1,…,xip)⊤
xˉ⋅=(xˉ⋅1,…,xˉ⋅p)⊤
Σ=S11⋮Sp1⋯⋱⋯S1p⋮Spp,Sjk:=i=1∑n(xij−xˉ⋅j)(xik−xˉ⋅k)
で、x˙⋅j は行列 X の j 列における列平均。
母回帰の推定
y^=β^0+β^1x1+⋯+β^pxp とするとき、
y^∼N(β0+β1x1+⋯+βpxp,(n1+n−1D2)σ2)
D2=(n−1)(x−xˉ)⊤Σ−1(x−xˉ)
参考
永田靖・棟近雅彦『多変量解析入門』(サイエンス社, 2001)第5章