2項分布の話

 2項分布は数学か賭博が好きな方ならお馴染みの分布でしょう。気長に聞いてください。

 ベルヌーイ分布

 2項分布について説明する為に、まずベルヌーイ分布(試行)について知っておくと理解が円滑に進むでしょう。ベルヌーイ分布とは成功と失敗の2項から成る分布で、仮に成功する確率をp,失敗する確率を1-pとし、成功時の確率変数Xは1、失敗時の確率変数Xは0とすると、この分布の確率密度関数

f:id:nashuto:20190312231228p:plain

 となります。仰々しいですが、これはただ成功(X=1)は確率pで、失敗(X=0)は確率1-pで起こると言っている事を数式にしただけです。これをベルヌーイ分布(試行)といいます。

 期待値と分散はそれぞれ

f:id:nashuto:20190312232840p:plain

 で与えられますね。

 

 2項分布 

 ではこのベルヌーイ試行をn回繰り返したとき、成功した回数(確率変数=Yとする)はどのようになるでしょうか?一般化したY=k(k=0,1,2,,,,,,n)を言い換えると、n回の施行のうちk回は成功してn-k回は失敗したときの確率を求めればよい訳です。これはつまり

f:id:nashuto:20190312234512p:plain

 で与えられます。次に期待値と分散を求めたいのですが、確率密度関数から直接求めるのは大変そうです。そこでベルヌーイ試行の話を持ってきます。

 

 ベルヌーイ分布の確率変数Xは成功時に1,失敗時に0をとります。従ってn回試行して計で成功した回数Yは

f:id:nashuto:20190313001618p:plain

 で与えられます。Xの各試行が互いに独立だとすると期待値と分散は加法性により

f:id:nashuto:20190313002312p:plain

 となります。

 

 中心極限定理

 あ、要らないなって気づいたのも後の祭りでグラフを作ってしまったので一応書きます。2項分布もnが大きければ中心極限定理によって正規分布に近似できるって話です。

成功率pは0.3にしました。

 

 まずはベルヌーイ試行を1回行って成功した回数を確率変数とし、この試行を1000回繰り返すと

f:id:nashuto:20190313131022j:plain

 となります。1000*0.3=300 なので成功した回数(a=1)は約300回になりそうだという推測通りです。

 

 次にベルヌーイ試行を10回繰り返して成功した回数を求める試行を1000回行うと

  

f:id:nashuto:20190313175309j:plain

 こんな感じ。やっぱり右に長くなりがち。

 

 次はベルヌーイ試行を100回繰り返して成功した回数を求める試行を1000回行うと

f:id:nashuto:20190313175452j:plain

 

 綺麗。

 ベルヌーイ試行を1000回繰り返して成功した回数を求める試行を1000回行うと

f:id:nashuto:20190313175556j:plain

 ベルヌーイ試行を10000回繰り返して成功した回数を求める試行を1000回やって

f:id:nashuto:20190313175627j:plain 

 正規分布っぽい。実際に理論的に導き出される正規分布(期待値3000,分散2100)を重ねると

f:id:nashuto:20190313175757j:plain

 まあなんということでしょう。初めはあんなに質素だったヒストグラムが匠の技により正規分布に従う様相を呈しています。

 

 Rのコードは以下の通りでした。

binomial distribution per different amount of tria ...

rbinom(1000,10000,0.3) hist added dnorm(x,E(x),sqr ...