正規分布と中心極限定理について

to 正規分布は統計を学んでいく上で最も重要な連続分布であると結論付けられるでしょう。なぜならば、中心極限定理という定理によって正規分布以外の分布でも標本数nが大きければ標本の平均値の分布は正規分布に近似できるという側面を正規分布は抱えているからです。今回はそんな正規分布について考えていきたいと思います。

 

正規分布ってどんなもの?

 みなさんは数学の授業で1次関数や2次関数を習いませんでしたか?1次関数は直線で、2次関数は放物線を描きます。傾きや曲がり度は係数に依存しています。正規分布はどのような形を描くのでしょうか?正規分布は左右対称で山なりの曲線を描きます。また、1次関数や2次関数の形は係数に依存するように、正規分布の形は期待値と分散に依存します。傾きがp,切片がqの1次関数は

f:id:nashuto:20190312120704p:plain

で与えられます。同様に、期待値がµ,分散がσ²の正規分布確率密度関数

f:id:nashuto:20190312120141p:plain

で与えられます。うえっ。なので一般にはN(µ,σ²)で省略します。正規は英語でnormalだからNなのでしょう。

 

f:id:nashuto:20190312103302j:plain

 

上のグラフはN(0,1),N(2,1),N(0,2)の正規分布関数をRでグラフにしたものです。

 

Normal distribution+text

 

 ソースコードはこんな感じ

 

 N(0,1),N(2,1)を比較するとN(2,1)はx軸に2だけ動かしたものとなっています。正規分布確率密度関数をみてみるとxとµは(x-µ)²で与えられている事から納得でしょう。

 

 N(0,1),N(0,2)の違いは分散の大きさです。期待値は等しいので対称軸は同じになっています。分散と言うのは分布の散らばり具合なので、大きければ平たくなります。確率密度関数なので面積は1になることから必然的に背丈も低くなることが予想できるでしょう。

 

サイコロで考える正規分布中心極限定理

 これだとただの数学なので実際の例で考えていきます。

 

 サイコロを投げる試行を何度か繰り返し、その平均を求めます。

 

 まずはサイコロを1回投げて出た目を数える施行を1000回繰り返すと

f:id:nashuto:20190312172353j:plain


 このようになります。左から1,2,3,4,5,6が出た回数です。どれも160回前後で均一になっています。これを正規分布だとは政治家でも言えないでしょう。

 コードはこんな感じ

 

1dice sum

 

 次に、サイコロを10回振って出た目の和の平均を数える試行を1000回繰り返すと

  f:id:nashuto:20190312152925j:plain

 となります。少し山なりになりましたが、まだ凸凹しています。

 こちらのコードは

 

10 dice mean

 

 次に、サイコロを100回投げて出た目の平均を数える試行を1000回繰り返すと

f:id:nashuto:20190312153205j:plain

 が得られました。許容範囲内の綺麗な山なりじゃないでしょうか?

 コードは

 

100 dice mean

 

 この調子でサイコロを1000回投げて出た目の平均を数える試行を1000回繰り返すと

f:id:nashuto:20190312153708j:plain

 いいですね~

 コードは

 

1000 dice mean

 

 最後にサイコロを1万回投げて出た目の平均を数える試行を1000回行うと

f:id:nashuto:20190312154001j:plain

 ヤバイ、美しE超えて美しFやんけ!

 

10000 dice mean

 

 このように、標本サイズnが大きくなるほど正規分布に近づくのです!これが中心極限定理です。

 実際に、サイコロを1000回投げて出た目の平均を1000回繰り返したヒストグラムに 期待値 3.5 , 分散 35/120000 (何故こうなるかはそのうち) の正規分布を重ね合わせると

f:id:nashuto:20190312181048j:plain

 ピッタリ当てはまりますね! 

 

1000dice mean histgram added dnorm curve

このように、サイコロの目がそれぞれ出る確率は1/6で等しいのに標本サイズnが大きくなるほど正規分布に近似できることがわかります。

 

 ですので、正規分布はよくみかける&使いやすい分布なのです。