逸脱度情報量規準

逸脱度情報量規準（いつだつどじょうほうりょうきじゅん、英: Deviance information criterion、略称: DIC）は、赤池情報量規準（AIC）の階層的モデリング一般化である。特に、統計モデルの事後分布がマルコフ連鎖モンテカルロ（MCMC）シミュレーションによって得られたベイズ(モデル選択)（英語版）において有用である。DICは、AIC（赤池情報量基準）と同様に、(漸近近似)（英語版）である。DICは、事後分布がおおよそ多変量正規分布である時にのみ有効である。

定義

(逸脱度)（英語版）を $D(\theta )=-2\log(p(y|\theta ))+C$ と定義する。 $y$ はデータ、 $\theta$ はモデルの未知のパラメータ、 $p(y|\theta )$ は尤度関数である。 $C$ は異なるモデルを比較する全ての計算で打ち消される定数であり、したがって知る必要はない。

モデルのパラメータの有効な数を計算するために一般的に使われる方法には2種類がある。1つ目の計算法^[1]は $p_{D}={\overline {D(\theta )}}-D({\bar {\theta }})$ （ ${\bar {\theta }}$ は $\theta$ の期待値）である。2つ目^[2]は $p_{D}=p_{V}={\frac {1}{2}}{\overline {\operatorname {var} \left(D(\theta )\right)}}$ である。パラメータの有効な数が大きい程、モデルはデータを当て嵌めるのがより簡単になり、そのため逸脱度はペナルティーを科される必要がある。

逸脱度情報量規準は、

{\mathit {DIC}}=p_{D}+{\overline {D(\theta )}}

あるいは同等に

{\mathit {DIC}}=D({\bar {\theta }})+2p_{D}

として計算される。

この後者の形式から、AICとのつながりがよりはっきりと分かる。

動機

着想は、より小さなDICを持つモデルがより大きなDICを持つモデルよりの好まれるべきだ、というものである。モデルは、よい当て嵌めを好む ${\bar {D}}$ の値と、（AICと同様に）パラメータの有効な数 $p_{D}$ の両方によってペナルティーを科される。 ${\bar {D}}$ はモデル中のパラメータの数が増加するにつれて低下するため、 $p_{D}$ 項はより小さなパラメータ数を持つモデルを好むことによってこの影響を補償する。

ベイズモデル選択の場合における他の規準に対するDICの優位性は、DICがマルコフ連鎖モンテカルロシミュレーションによって生成されたサンプルから容易に計算される点である、AICは $\theta$ の極大点での尤度の計算を必要とするが、これはMCMCシミュレーションから容易に得ることができない。しかしDICを計算するためには、単純に $\theta$ のサンプルにわたる $D(\theta )$ の平均として ${\bar {D}}$ を計算し、 $\theta$ のサンプルの兵器点で評価された $D$ の値として $D({\bar {\theta }})$ を計算する。次に、DICはこれらの近似値から直接得られる。Claeskens and Hjort (2008, Ch. 3.5) は、DICがAICの自然モデル-ロバスト版と(大きなサンプル)（英語版）で同等であることを示している。

仮定

DICの導出において、未来の観察を生成する確率分布の特定のパラメータ付けられた族が真のモデルを包含することが仮定される。この仮定は常に適用できず、このシナリオにおいてモデル検証手続を考慮することが望ましい。

また、観察されたデータは事後分布を構築するためと、推定されたモデルを評価するための両方で使われる。したがって、DICは過剰適合したモデルを選択しがちである。

拡張

最近、上述した問題がAndo (2007)によるベイズ予測情報量基準（Bayesian predictive information criterion; BPIC）で解決された。Ando (2010, Ch. 8) は様々なベイズモデル選択規準の議論を提供している。DICの過剰適合問題を避けるため、Ando (2011) は予測の観点からベイズモデル選択規準を開発した。この規準は

{\mathit {IC}}={\bar {D}}+2p_{D}=-2\mathbf {E} ^{\theta }[\log(p(y|\theta ))]+2p_{D}

として計算される。第一項はモデルがデータにいかに良く当て嵌まっているかの指標であるのに対して、第二項はモデルの複雑さへのペナルティーである。ここで留意すべきは、この式中の $p$ が上述した尤度よりはむしろ予測分布という点である。

出典

^ Spiegelhalter et al. (2002, p. 587)
^ Gelman et al. (2004, p. 182)

参考文献

Ando, Tomohiro (2007). “Bayesian predictive information criterion for the evaluation of hierarchical Bayesian and empirical Bayes models”. Biometrika 94 (2): 443–458. doi:10.1093/biomet/asm017.
Ando, T. (2010). Bayesian Model Selection and Statistical Modeling, CRC Press. Chapter 7.
Ando, Tomohiro (2011). “Predictive Bayesian Model Selection”. American Journal of Mathematical and Management Sciences 31 (1–2): 13–38. doi:10.1080/01966324.2011.10737798.
Claeskens, G, and Hjort, N.L. (2008). Model Selection and Model Averaging, Cambridge. Section 3.5.
Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2004). Bayesian Data Analysis: Second Edition. Texts in Statistical Science. CRC Press. ISBN (978-1-58488-388-3). LCCN 2003-51474. MR2027492
van der Linde, A. (2005). "DIC in variable selection", Statistica Neerlandica, 59: 45-56. doi:10.1111/j.1467-9574.2005.00278.x
Spiegelhalter, David J.; Best, Nicola G.; Carlin, Bradley P.; van der Linde, Angelika (2002). “Bayesian measures of model complexity and fit (with discussion)”. Journal of the Royal Statistical Society, Series B 64 (4): 583–639. doi:10.1111/1467-9868.00353. JSTOR 3088806. MR1979380.
Spiegelhalter, David J.; Best, Nicola G.; Carlin, Bradley P.; van der Linde, Angelika (2014). “The deviance information criterion: 12 years on (with discussion)”. Journal of the Royal Statistical Society, Series B 76 (3): 485–493. doi:10.1111/rssb.12062.

外部リンク

McElreath, Richard (2015年1月29日). Statistical Rethinking Lecture 8 (on DIC and other information criteria)

[1] Spiegelhalter et al. (2002, p. 587)

[2] Gelman et al. (2004, p. 182)

[1]

[2]

ウィキペディア	ランダム
毎日	カテゴリ