二項分布

数学において、二項分布（にこうぶんぷ、英: binomial distribution）は、結果が成功か失敗のいずれかである試行（ベルヌーイ試行と呼ばれる）を独立に $n$ 回行ったときの成功回数を確率変数とする離散確率分布である。ただし、各試行における成功確率 $p$ は一定とする。二項分布に基づく統計的有意性の検定は、二項検定と呼ばれている。

二項分布
確率質量関数
累積分布関数色は上図と同じ
母数	$n\geq 0$ 試行回数（整数） $0\leq p\leq 1$ 成功確率（実数）
台	$\{0,\cdots ,n\}$
確率質量関数	${n \choose k}p^{k}(1-p)^{n-k}$
累積分布関数	$I_{1-p}(n-\lfloor k\rfloor ,1+\lfloor k\rfloor )$ （ただし $I_{(-)}(-,-)$ は正則化不完全ベータ関数）
期待値	$np$
最頻値	${\begin{cases}\{(n+1)p-1,(n+1)p\}\\\qquad \cap \{0,\cdots ,n\}&{\text{((n+1)p が整数の時 )}}\\\lfloor (n+1)p\rfloor &{\text{(それ以外 )}}\end{cases}}$
分散	$np(1-p)$
歪度	${\frac {1-2p}{\sqrt {np(1-p)}}}$
尖度	${\frac {1-6p(1-p)}{np(1-p)}}$
モーメント母関数	$(1-p+p\,e^{t})^{n}$
特性関数	$(1-p+p\,e^{it})^{n}$
(テンプレートを表示)

例

二項分布の典型例を次に示す。全住民の5%がある感染症に罹患しており、その全住民の中から無作為に500人を抽出する。ただし住民は500人よりずっと多いとする。このとき、抽出された集団の中に罹患者が30人以上いる確率はどれくらいだろうか。

500人のうちの感染症患者の分布は、大抵の場合は全住民のうちの患者の分布（真の分布）とおおよそ似通っていると考えられる。しかし、低確率ではあるが、選んだ500人の中に1人も患者が含まれないような真の分布とかけ離れた分布が得られる場合もある。直観的には、真の分布に近い分布が得られる確率は、真の分布から遠い分布が得られる確率より大きい。たとえば、500人中の患者の数が500×0.05=25人である確率は、24人や26人である確率より大きいだろうと思われる。しかし、その確率は定量的にどれほどだろうか。これを定量的に表すことのできる分布が二項分布である。

抽出された集団の中に含まれる罹患者数を確率変数 $X$ で表すとき、 $X$ は $n = 500, p = 0.05$ の二項分布に近似的に従う。ここで、罹患者が30人以上いる確率は $Pr[X \geq 30]$ である。

定義

2つの母数 $p$ ( $0 \leq p \leq 1$ ), $n$ （ $n$ は自然数）に対して、 $0$ 以上の整数を値としてとる確率変数 $X$ の確率質量関数が

P[X=k]={n \choose k}p^{k}(1-p)^{n-k}\quad {\mbox{for}}\ k=0,1,2,\dots ,n

で与えられるとき、確率変数 $X$ は母数 $(n, p)$ の二項分布 $B(n, p)$ に従うという。これを $X ~ B(n, p)$ と表記する^[1]。

ここで、

{n \choose k}={}_{n}\!\mathrm {C} _{k}={\frac {n!}{k!(n-k)!}}

は $n$ 個から $k$ 個を選ぶ組合せの数、すなわち二項係数を表す。二項分布という名前は、この二項係数に由来している。 $n = 1$ の場合を特に、ベルヌーイ分布と呼ぶ。

この公式は、次のように解釈することができる。1回の試行において成功する確率が $p$ であるとき、 $p k$ は $k$ 回成功する確率を表し、 $(1 - p) n - k$ は $n - k$ 回失敗する確率を表している。ただし、 $k$ 回の成功は $n$ 回の試行の中のどこかで発生したものであるから、 $n C k$ 通りの発生順序がある。したがって、 $n$ 回の独立な試行を行ったときの成功回数が $k$ となる確率を意味する。

性質

期待値・分散

二項分布 $B(n, p)$ に従う確率変数 $X$ に対し、 $X$ の期待値 $E [X]$ は

E[X]=np

であり、分散 $V [X]$ は

V[X]=np(1-p)

となる^[2]。

$X$ の最頻値は、 $(n + 1) p$ 以下の最大の整数となる。ただし、 $m = (n + 1) p$ が整数となるときは、 $m - 1$ と $m$ の双方が最頻値となる。

モーメント

二項分布 $B(n, p)$ に従う確率変数 $X$ の $r$ 次モーメント $E [X r]$ は

E[X^{r}]=\sum _{j=0}^{r}S(r,j){\frac {n!}{(n-j)!}}p^{j}

というやや複雑な表示をもつ^[3]。ここで $S (r, j)$ は第二種スターリング数。低次から

E[X^{1}]=np,\quad E[X^{2}]=np+n(n-1)p^{2},\dotsc

となる。一方 $X$ の $r$ 次(階乗モーメント)（英語版） $E [(X) r]$ は

E[(X)_{r}]=(n)_{r}p^{r}={\frac {n!}{(n-r)!}}p^{r}

という単純な表示をもつ^[4]。ここで $(n) r = n!/(n - r)!$ はポッホハマー記号。低次から

E[(X)_{1}]=np,\quad E[(X)_{2}]=n(n-1)p^{2},\dotsc

となる。

再生性

二項分布は再生性を有する。すなわち $B(n, p)$ に従う確率変数 $X$ と $B(m, p)$ に従う確率変数 $Y$ が互いに独立であるとき、確率変数の和 $X + Y$ は二項分布 $B(n + m, p)$ に従う。

近似

二項分布の近似として、以下の小節に挙げる分布などが知られている。近似を用いることで計算の労力を削減できるという利点がある一方、各近似にはそれを適用可能とするための条件が存在する。そのため、それらの条件や近似を用いることで生じる誤差が許容可能な範囲内に収まっていることの確認が必要となる。特に、二項分布の母比率の信頼区間を求める際には、用いる近似と変数の値の組み合わせにより、厳密に求められた信頼区間との間に近似誤差が生じることになるため注意が必要である^[5]。

正規分布

二項分布が正規分布に近づく様子

期待値 $np$ および分散 $np (1 - p)$ が $5$ よりも大きい場合、二項分布 $B(n, p)$ に対する良好な近似として正規分布がある。ただし、この近似を適用するにあたっては、変数のスケールに注意し、連続な分布への適切な処理がなされる必要がある。より厳密に述べれば、 $n$ が十分大きくかつ、期待値 $np$ および分散 $np (1 - p)$ も十分大きい場合、期待値 $np$ , 分散 $np (1 - p)$ の正規分布 $N(np, np (1 - p))$ で近似することができ、期待値からの差 $| k - np |$ が標準偏差 $\sqrt np (1 - p)$ と同程度となる $k$ に対して

P[X=k]\simeq {\frac {1}{\sqrt {2\pi np(1-p)}}}\exp {\left(-{\frac {(k-np)^{2}}{2np(1-p)}}\right)}

が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者アブラーム・ド・モアブルが1733年に著書 The Doctrine of Chances の中で紹介したのが最初であり、ド・モアブル=ラプラスの極限定理またはラプラスの定理と呼ぶことがある^[6]。これは、今日でいうところの中心極限定理の特別な場合に相当する。この正規分布への近似と標準正規分布表により、計算の労力を大きく削減することができる。

例えば、多数の住民の中から $n$ 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。 $n$ 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合 $p$ とほぼ等しい平均を持ち、標準偏差 $σ = \sqrt p (1 - p)/ n$ である正規分布に近似される。未知の変数 $p$ は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数 $n$ は多い方が好ましい。

95%信頼区間ならば、正規分布で近似すると、その範囲は

p-1.959964{\sqrt {\frac {p(1-p)}{n}}}\sim p+1.959964{\sqrt {\frac {p(1-p)}{n}}}

となる。たとえば、 $p = 50$ % の場合、 $n = 100$ なら40%〜60%、 $n = 1,000$ ならば47%〜53%、 $n = 10,000$ ならば49%〜51%となる。 $n = 10$ の場合、正規分布近似ではなく、本来の定義に従って計算すると、89%信頼区間で、30%〜70%となる^[7]。

ポアソン分布

$n$ が大きく $p$ が十分小さい場合、 $np$ は適度な大きさとなるため、 $λ = np$ を母数とするポアソン分布が二項分布 $B(n, p)$ の良好な近似を与える。すなわち、 $n$ が十分大きいとき、期待値 $λ = np$ とおくと、

P[X=k]\simeq {\frac {\lambda ^{k}e^{-\lambda }}{k!}}

が成り立つ（詳細はポアソン分布の項を参照）。この結果は数学者シメオン・ドニ・ポアソンが1837年に著書 Recherches sur la probabilite des jugements (Researches on the Probabilities) の中で与えており、ポアソンの極限定理と呼ばれる。

脚注

[脚注の使い方]

^ 藪 2012, p. 144.
^ 藪 2012, pp. 144–145.
^ Johnson, Kotz & Kemp 2005, p. 110, (3.6).
^ Johnson, Kotz & Kemp 2005, p. 109.
^ "EBCIC: Exact Binomial Confidence Interval Calculator" https://kazkobara.github.io/ebcic/README-jp.html
^ 伏見康治「(確率論及統計論)」第IV章　独立偶然量の和　27節 Bernoulliの定理, Laplaceの定理 p.452 (ISBN 9784874720127) http://ebsa.ism.ac.jp/ebooks/ebook/204
^ prob 3 <= x <= 7 for x binomial with n=10 and p=0.5 - Wolfram Alpha

参考文献

藪友良『入門実践する統計学』東洋経済新報社、2012年。ISBN (978-4-492-47085-5)。
Johnson, N. L.; Kotz, A. W.; Kemp, S. (2005). Univariate Discrete Distributions (Third ed.). Wiley. ISBN (0-471-27246-9). MR2163227. Zbl 1092.62010

ウィキペディア	ランダム
毎日	カテゴリ