一般化線形モデル

一般化線形モデル (いっぱんかせんけいモデル、英: Generalized linear model、GLM)は、残差を任意の分布とした線形モデル。似たものとして一般線形モデルがあるが、これは残差が多変量正規分布に従うモデル。一般化線形モデルには線形回帰、(ポアソン回帰)、ロジスティック回帰などが含まれる。1972年にネルダーとウェダーバーンによって提唱された^[1]。

概要

確率変数 $Y$ が指数型分布族である、つまり確率密度関数 $f(y)$ は正準 (canonical) パラメーター $\theta$ , 分散 (dispersion) パラメーター $\phi$ とスカラー関数 $a(\theta )$ , $c(y,\,\theta )$ を用いて指数型

$f(y;\theta ,\phi )=\exp \left\{{\frac {y\,\theta -a(\theta )}{\phi }}+c(y,\phi )\right\}$

で表すことができるものとする。

一般化線形モデルでは、指数型分布族の(正準パラメーター) $\theta$ について、リンク関数 (link function) と呼ばれる滑らかな関数 $g(\theta )$ と、別の確率変数 $\mathbf {X}$ の実現値 $\mathbf {x}$ とを用いて、 $g(\theta )=\mathbf {x} ^{T}\,{\boldsymbol {\beta }}$ と表すことができるものとする。

一般化線型モデルは下記の3つの要素から構成される。

1. 指数型分布族の確率分布

2. 線形予測子 (linear predictor)

\eta =\mathbf {x} ^{T}{\boldsymbol {\beta }}

3. リンク関数 (link function)

g

such that

g(\theta )=\eta

指数分布族の性質

下記のように尤度関数を定める。

$L\equiv \log {f(y;\theta ,\phi )}={\frac {y\,\theta -a(\theta )}{\phi }}+c(y,\phi )$

このとき、下記等式が成立する。

$E\left({\frac {\partial L}{\partial \theta }}\right)=0,\;E\left({\frac {\partial ^{2}L}{\partial \theta ^{2}}}\right)=-E\left({\frac {\partial L}{\partial \theta }}\right)^{2}$

この等式を用いて計算すると、確率変数 $Y$ の平均は $a'(\theta )$ 、分散は $\phi \,a''(\theta )$ であることが分かる。

下記の他、多くの確率分布が指数分布族に分類される。

正規分布
ベルヌーイ分布
ポアソン分布
二項分布
ガウス分布

実例

正規分布に従うモデル

既知の値 $\sigma ^{2}$ を用いて $a(\theta )=\theta ^{2}/2$ , $\phi =\sigma ^{2}$ , $c(y,\,\phi )=-\left(y^{2}/\sigma ^{2}+\log {2\pi \sigma ^{2}}\right)/2$ と表されるとき、 $f(y;\theta )={\frac {1}{{\sqrt {2\pi }}\sigma }}\exp {\left(-{\frac {(y-\theta )^{2}}{2\sigma ^{2}}}\right)}$ は平均 $\theta$ , 分散 $\sigma ^{2}$ の正規分布に相当する。

リンク関数として $g(\theta )=\theta$ (正準リンク<canonical link>とよぶ) を取るとき、これは、(正規線型モデル) (通常の線型回帰) に相当する。平均 $\theta$ は $\mathbf {x} ^{T}\,{\boldsymbol {\beta }}$ で与えられる。

ベルヌーイ分布に従うモデル

$p=e^{\theta }/(1+e^{\theta })$ を用いて $a(\theta )=-\log {(1-p)}$ , $\phi =1$ , $c=0$ と表されるとき、 $f(y;\theta )=p^{y}(1-p)^{1-y}$ は生起確率 $p$ のベルヌーイ分布に相当する。

リンク関数として $g(\theta )=\theta$ を取るとき、これは(ロジスティック回帰モデル) (logistic regression model) に相当する。 $Y=1,0$ の確率は、それぞれ、

$P(Y=1\mid \mathbf {x} )={\frac {\exp {(\mathbf {x} ^{T}\,{\boldsymbol {\beta }})}}{1+\exp {(\mathbf {x} ^{T}\,{\boldsymbol {\beta }})}}}$

$P(Y=0\mid \mathbf {x} )={\frac {1}{1+\exp {(\mathbf {x} ^{T}\,{\boldsymbol {\beta }})}}}$

で与えられる。

リンク関数として $g(\theta )=\psi ^{-1}(p)$ (ただし、 $\psi$ は標準正規分布の累積分布関数) を取るとき、これは(プロビット回帰モデル)に相当する。 $p=\psi (\mathbf {x} ^{T}\,{\boldsymbol {\beta }})$ となる。

パラメーターの決定には、ニュートン法を用いた最尤法などがある。

参考文献

^ (Nelder, John); (Wedderburn, Robert) (1972). “Generalized Linear Models”. (Journal of the Royal Statistical Society). Series A (General) (Blackwell Publishing) 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614.

(McCullagh, Peter); (Nelder, John) (1989). Generalized Linear Models, Second Edition. Boca Raton: Chapman and Hall/CRC. ISBN (0-412-31760-5)
Henrik Madsen and Poul Thyregod (2011). Introduction to General and Generalized Linear Models. Chapman & Hall/CRC. ISBN (978-1-4200-9155-7)

ウィキペディア	ランダム
毎日	カテゴリ