仮説検定

仮説検定（かせつけんてい、英: hypothesis testing）あるいは統計的仮説検定 (statistical hypothesis testing)^{[補 1]} とは、母集団分布の母数に関する仮説を標本から検証する統計学的方法の一つ。日本産業規格では、仮説 (statistical hypothesis) を「母数又は確率分布についての宣言。帰無仮説と対立仮説がある。」と定義している^[1]。検定 (statistical test) を「帰無仮説を棄却し対立仮説を支持するか、又は帰無仮説を棄却しないかを観測値に基づいて決めるための統計的手続き。その手続きは、帰無仮説が成立しているにもかかわらず棄却する確率が α 以下になるように決められる。この α を有意水準という。」と定義している^[2]。

統計的仮説検定の方法論は、ネイマン=ピアソン流の頻度主義統計学に基づくもの^{[補 2]}と、ベイズ主義統計学に基づくものとの二つに大きく分けられる^[3]。ただし「仮説検定」という場合、前者だけを指すことがある。本項では前者および日本産業規格での定義を説明する。

統計的仮説検定の手順

統計的仮説検定においては、仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。その確率が十分に（予め決めておいた値より）小さければ、その仮説を棄却する（すなわち仮説は成り立ちそうもないと判断する）。

統計的仮説検定は次のような手順で実施する。

仮説の設定

仮説が正しいと仮定した場合にその標本が観察される確率を算出できるように、仮説を統計学的に表現する。検定は下記の二者択一となり、帰無仮説^{[補 3]}を棄却できるかどうかを調べる。

帰無仮説: 価値がない^[4]、何の関係もない、差異はみられない、仮説などそもそもなかった、などを意味するもの。普通 H₀ と書く^[5]。
対立仮説（英語版）: 帰無仮説に対立するので、対立仮説と呼ばれる。帰無仮説が棄却された際に採択される。普通仮説を意味する [hypothesis] の頭文字を用いて H₁ と書く^[6]。帰無仮説の正しさを求めるように検定を進めるが、成り立つか知りたいのはこちらの方である。

仮説の設定例

例として、プラセボに対する薬の試験（「薬の効果を有意的に主張できるか」を調べる）を例にとれば、

帰無仮説は、「薬の効果を主張できない」に当たり、下記のように仮説を立てる。
- 「薬に対する反応の平均がプラセボに対するそれと等しい。」^{[補 4]}
対立仮説は、「薬の効果を主張できる」に当たり、下記の仮説に相当する。
- 「薬に対する反応の平均がプラセボに対するそれとは異なる。」

統計量の算出

標本データから、仮説に関係した情報を要約する検定統計量を計算する。下記のように十分性を持つ統計量（十分統計量）が存在すればそれを計算する。単純二仮説の場合は、尤度比が仮説検定の十分統計量となる。

母数に対応する十分統計量は、母集団の確率分布が指数型分布族である場合にのみ存在する^[要出典]。例で言えば、指数型分布族で、2つの標本平均の差 m₁ − m₂ は十分統計量である。

統計量の確率分布

帰無仮説に基づき、検定統計量の確率分布を明らかにする。

例では、標本平均の差は正規分布に従い、その標準偏差は母標準偏差に ${\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}$ をかけたもの（ここで n₁ と n₂ は各標本のサイズ）である。

危険域の設定

可能な全ての値の集合の中で、帰無仮説に反する極端な範囲（分布関数をグラフ表示した場合には、裾に当たる部分）を選ぶ。これは検定統計量の(危険域)（英語版）と呼ばれる。帰無仮説が正しい場合に検定統計量が危険域内に入る確率を検定の危険率（有意水準あるいは検定のサイズともいい、ふつうαと表す）と呼ぶ。危険率としては、対象分野によって異なるが、α = 0.05 (5%) か α = 0.01 (1%) を用いることがある^[7]。検定の種類によっては両側検定または片側検定のみということもある。

棄却域

日本産業規格では、critical region を棄却域と訳し、「帰無仮説が棄却される検定統計量の値の集合」と定義している。また、備考には「棄却域の限界値を棄却限界値 (critical value) という」と説明している^[8]。

両側検定

帰無仮説が例のように「平均が等しい」と主張するタイプであれば、分布関数の裾として左右両側を用いる（両側検定）。日本産業規格では、「検定統計量が1次元であり、棄却域がある有限区間の両側となる検定」と定義している^[9]。

片側検定

「……の方が平均が大きい（小さい）ということはない」と主張するタイプであれば、片側の裾だけを用いる（片側検定）。日本産業規格では、「検定統計量が1次元であり、棄却域がある棄却限界値より小さい領域（又は大きい領域）となる検定」と定義している^[10]。

判定

データから算出した検定統計量が危険域内にあるかどうかを判定する。

通常は統計量が仮定した分布の中で、算出した検定統計量と同じかそれよりも極端な（仮説に反する）値となる確率（これをp値という）を数表などにより求め、これと α とを比較し、p < α ならば危険域の内部にあると判断する。検定統計量が危険域内にあれば、結論は

帰無仮説は正しくない。したがって棄却する（これから危険域のことを棄却域 (Rejection region) ともいい、それ以外の範囲は採択域 (Acceptance region) という。）

か、さもなくば

α 以下の確率しかない事象が起こった

のいずれかになる。この場合を α水準で統計学的に有意であるという。例では「薬に対して観察された反応は α水準で統計学的に有意である」といえる。分かりやすくいえば、「帰無仮説の下でこのようなことは偶然に起こりそうもないが、ごく小さい確率 α で起こり得る」ということである。

一方、検定統計量が危険域の外側にあれば、

帰無仮説を棄却するに足る証拠はないというのがただ一つの結論となる。

統計学の目的は（当然であるが）科学的な真理を明らかにすることではなく、数学的な誤謬をできるだけ減らすことにある。

検出力

第一種過誤と第二種過誤の値域における最大検出力線の例

日本産業規格では、検出力 (英: statistical power) を「帰無仮説が正しくないとき，帰無仮説を棄却する確率。すなわち，第2種の誤りをおかさない確率であり，通常 1 − β で表される。」と定義している^[11]。

より高い検出力を、より小さいサンプルサイズで実現することが好ましい。

第1種の誤り

帰無仮説が正しいときに、これを棄却してしまう誤りを第1種の誤り (Type I error) という^[12]。第1種の誤りを犯す確率を α で表す。α を危険率とも呼び、有意水準に等しい。有意水準を 5% とした時、5% 以下の発生確率しかない事象が起きると、帰無仮説が間違っていたと考えられる。これは、仮説が正しいのに誤って否定してしまう確率が 5% 存在することになる。日本産業規格では、「帰無仮説が正しいとき，帰無仮説を棄却する誤り。あわてものの誤りともいう。」と定義している^[13]。なお、ISO では error of the first kind と表記している^[14]。

第2種の誤り

誤った帰無仮説を棄却しない誤りのことを第2種の誤り (Type II error) という^[12]。第2種の誤りを犯す確率を β で表す。1 − β を検定力または検出力 (power) と呼び、誤った帰無仮説を正しく棄却できる確率を表す。βは真の母数に依存し、自分で決めることが出来ない。日本産業規格では、「帰無仮説が正しくないとき，帰無仮説を棄却しない誤り。ぼんやりものの誤りともいう。」と定義している^[15]。なお、ISO では error of the second kind と表記している^[16]。

第1種の誤りと第2種の誤りの関係

第1種の誤りを減らそうとすれば第2種の誤りが増える（またはその逆）という傾向がある。なお第1種の誤り (α) 対検出力 (1 − β) のグラフを、受信者操作特性（ROCカーブ）と呼ぶ。

仮説検定では一般に、あらかじめ指定した十分小さい α に対し、β をなるべく小さく（検出力をなるべく大きく）するように棄却域を選ぶ方針をとる（ネイマン・ピアソンの基準）。

検出力関数

日本産業規格では、検出力関数を「仮説があるパラメータで表現されているとき，パラメータの値によって検出力を与える関数。」と定義している^[17]。

種類

例のように、母集団の分布として正規分布を、あるいは比較する2群間の等分散（標準偏差が等しい）を仮定する（母数＝パラメータを仮定する）検定法をパラメトリック（Parametric）、それらを仮定せず一般の分布に適用できる検定法をノンパラメトリック（Non-parametric）な検定と呼ぶ。具体的な方法の例を挙げる。

パラメトリックな検定手法

ノンパラメトリックな検定手法

(サイン検定)（符号検定）
Wilcoxon検定（順位付符号和検定）
Mann-WhitneyのU検定
カイ二乗検定
フィッシャーの直接確率検定

検定の目的からは、母数の有意性の検定、適合度検定（特定の母集団から抽出されたものか）、均一性検定（2標本が同一母集団によるものか：上の例）、独立性検定（2標本が独立か）などに分けられる。

逐次的仮説検定

逐次的仮説検定（英: sequential hypothesis testing）とは、逐次的に行う仮説検定を指す。すなわちサンプルサイズが固定数とは限らず、停止則を導入し、それが満たされるまでは実際には仮説検定の実施を遅らせ、サンプルの追加を行う。停止則が満たされた段階では、決定則（すなわち仮説検定）を実施する。(逐次的確率比検定)（英語版）（逐次的尤度比検定）も参照。

より小さいサンプルサイズで、より高い検出力を実現することが好ましく、統計学的に最適な停止則および決定則を最適停止則および最適決定則と呼ぶ。

オンライン的な仮説検定として利用可能である。その場合、サンプルサイズはレイテンシとして位置づけられる。

脚注

補足

^ 単に検定法と呼ばれることもある。
^ 1920-30年代にかけてイェジ・ネイマン、エゴン・ピアソンによって体系化された。
^ 棄却（すなわち不採択）できるかを調べるものなので、帰無仮説と呼ぶ。
^ この場合、両者の反応は標準偏差がともに等しい正規分布に従うが、さらに平均にも差が無いかを問題としている。

出典

^ JIS Z 8101-1 : 1999, 2.46 仮説.
^ JIS Z 8101-1 : 1999, 2.49 検定.
^ 村尾(2014)
^ https://gakkai.univcoop.or.jp/pcc/2014/papers/pdf/pcc057.pdf
^ JIS Z 8101-1 : 1999, 2.47 帰無仮説.
^ JIS Z 8101-1 : 1999, 2.48 対立仮説.
^ 脇本 1973, pp. 93, 114.
^ JIS Z 8101-1 : 1999, 2.50 棄却域.
^ JIS Z 8101-1 : 1999, 2.57 両側検定.
^ JIS Z 8101-1 : 1999, 2.56 片側検定.
^ JIS Z 8101-1 : 1999, 2.54 検出力.
^ ^a ^b 脇本 1973, p. 93.
^ JIS Z 8101-1 : 1999, 2.51 第 1 種の誤り.
^ 3534-1:2006, 2.51 error of the first kind.
^ JIS Z 8101-1 : 1999, 2.52 第 2 種の誤り.
^ 3534-1:2006, 2.51 error of the second kind.
^ JIS Z 8101-1 : 1999, 2.55 検出力関数.

参考文献

蓑谷千凰彦『推定と検定のはなし』東京図書、1988年。
村尾博 (2014), 仮説検定
脇本和昌「第5章統計的仮説検定の考え方と方法」（PDF）『身近なデータによる統計解析入門』森北出版、1973年。ISBN (4627090307)。
西岡康夫『数学チュートリアルやさしく語る確率統計』オーム社、2013年。ISBN (9784274214073)。
伏見康治『確率論及統計論』河出書房、1942年。ISBN (9784874720127)。
日本数学会『数学辞典』岩波書店、2007年。ISBN (9784000803090)。
日本規格協会, JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語
片谷教孝「環境統計学入門―環境データの見方・まとめ方」『松藤敏彦』オーム社、2019年
上田拓治「44の例題で学ぶ統計的検定と推定の解き方」オーム社、2009年
統計学が最強の学問である日本経済新聞 2013年4月9日
統計学のきほん毎日新聞 2020年10月2日閲覧
ISO, ISO 3534-1:2006, Statistics−Vocabulary and symbols−Part1 : Probability and general statistical terms

ウィキペディア	ランダム
毎日	カテゴリ