2項分布の話 - 鋼のE判術師のブログ

　2項分布は数学か賭博が好きな方ならお馴染みの分布でしょう。気長に聞いてください。

　2項分布について説明する為に、まずベルヌーイ分布(試行)について知っておくと理解が円滑に進むでしょう。ベルヌーイ分布とは成功と失敗の2項から成る分布で、仮に成功する確率をp,失敗する確率を1-pとし、成功時の確率変数Ｘは１、失敗時の確率変数Xは０とすると、この分布の確率密度関数は

f:id:nashuto:20190312231228p:plain

　となります。仰々しいですが、これはただ成功（X=1)は確率pで、失敗(X=0)は確率1-pで起こると言っている事を数式にしただけです。これをベルヌーイ分布(試行)といいます。

　期待値と分散はそれぞれ

f:id:nashuto:20190312232840p:plain

　で与えられますね。

　ではこのベルヌーイ試行をn回繰り返したとき、成功した回数(確率変数=Yとする)はどのようになるでしょうか？一般化したY=k(k=0,1,2,,,,,,n)を言い換えると、n回の施行のうちk回は成功してn-k回は失敗したときの確率を求めればよい訳です。これはつまり

f:id:nashuto:20190312234512p:plain

で与えられます。次に期待値と分散を求めたいのですが、確率密度関数から直接求めるのは大変そうです。そこでベルヌーイ試行の話を持ってきます。

　ベルヌーイ分布の確率変数Xは成功時に1,失敗時に0をとります。従ってn回試行して計で成功した回数Yは

f:id:nashuto:20190313001618p:plain

　で与えられます。Xの各試行が互いに独立だとすると期待値と分散は加法性により

f:id:nashuto:20190313002312p:plain

　となります。

　あ、要らないなって気づいたのも後の祭りでグラフを作ってしまったので一応書きます。2項分布もnが大きければ中心極限定理によって正規分布に近似できるって話です。

成功率pは0.3にしました。

　まずはベルヌーイ試行を1回行って成功した回数を確率変数とし、この試行を1000回繰り返すと

f:id:nashuto:20190313131022j:plain

　となります。1000＊0.3＝300　なので成功した回数(a=1)は約300回になりそうだという推測通りです。

　次にベルヌーイ試行を10回繰り返して成功した回数を求める試行を1000回行うと

f:id:nashuto:20190313175309j:plain

　こんな感じ。やっぱり右に長くなりがち。

　次はベルヌーイ試行を100回繰り返して成功した回数を求める試行を1000回行うと

f:id:nashuto:20190313175452j:plain

　綺麗。

　ベルヌーイ試行を1000回繰り返して成功した回数を求める試行を1000回行うと

f:id:nashuto:20190313175556j:plain

　ベルヌーイ試行を10000回繰り返して成功した回数を求める試行を1000回やって

f:id:nashuto:20190313175627j:plain 　

　正規分布っぽい。実際に理論的に導き出される正規分布(期待値3000,分散2100)を重ねると

f:id:nashuto:20190313175757j:plain

　まあなんということでしょう。初めはあんなに質素だったヒストグラムが匠の技により正規分布に従う様相を呈しています。

　Rのコードは以下の通りでした。