鋼のE判術師のブログ

正規分布と中心極限定理について

数理統計 R

to　正規分布は統計を学んでいく上で最も重要な連続分布であると結論付けられるでしょう。なぜならば、中心極限定理という定理によって正規分布以外の分布でも標本数nが大きければ標本の平均値の分布は正規分布に近似できるという側面を正規分布は抱えているからです。今回はそんな正規分布について考えていきたいと思います。

正規分布ってどんなもの？
サイコロで考える正規分布と中心極限定理

正規分布ってどんなもの？

　みなさんは数学の授業で1次関数や2次関数を習いませんでしたか？1次関数は直線で、2次関数は放物線を描きます。傾きや曲がり度は係数に依存しています。正規分布はどのような形を描くのでしょうか？正規分布は左右対称で山なりの曲線を描きます。また、1次関数や2次関数の形は係数に依存するように、正規分布の形は期待値と分散に依存します。傾きがp,切片がqの1次関数は

f:id:nashuto:20190312120704p:plain

で与えられます。同様に、期待値がµ,分散がσ²の正規分布の確率密度関数は

f:id:nashuto:20190312120141p:plain

で与えられます。うえっ。なので一般にはN(µ,σ²)で省略します。正規は英語でnormalだからNなのでしょう。

f:id:nashuto:20190312103302j:plain

上のグラフはN(0,1),N(2,1),N(0,2)の正規分布関数をRでグラフにしたものです。

　

Normal distribution+text

ソースコードはこんな感じ

　N(0,1),N(2,1)を比較するとN(2,1)はx軸に2だけ動かしたものとなっています。正規分布の確率密度関数をみてみるとxとµは(x-µ)²で与えられている事から納得でしょう。

　N(0,1),N(0,2)の違いは分散の大きさです。期待値は等しいので対称軸は同じになっています。分散と言うのは分布の散らばり具合なので、大きければ平たくなります。確率密度関数なので面積は１になることから必然的に背丈も低くなることが予想できるでしょう。

サイコロで考える正規分布と中心極限定理

　これだとただの数学なので実際の例で考えていきます。

　

　サイコロを投げる試行を何度か繰り返し、その平均を求めます。

　まずはサイコロを1回投げて出た目を数える施行を1000回繰り返すと

f:id:nashuto:20190312172353j:plain

　このようになります。左から1，2，3，4，5，6が出た回数です。どれも160回前後で均一になっています。これを正規分布だとは政治家でも言えないでしょう。

　コードはこんな感じ

　

　

　次に、サイコロを10回振って出た目の和の平均を数える試行を1000回繰り返すと

　　 f:id:nashuto:20190312152925j:plain

　となります。少し山なりになりましたが、まだ凸凹しています。

　こちらのコードは

　

　次に、サイコロを100回投げて出た目の平均を数える試行を1000回繰り返すと

f:id:nashuto:20190312153205j:plain

　が得られました。許容範囲内の綺麗な山なりじゃないでしょうか？

　コードは

　

　この調子でサイコロを1000回投げて出た目の平均を数える試行を1000回繰り返すと

f:id:nashuto:20190312153708j:plain

　いいですね～

　コードは

　

　

　最後にサイコロを1万回投げて出た目の平均を数える試行を1000回行うと

f:id:nashuto:20190312154001j:plain

　ヤバイ、美しE超えて美しFやんけ!

　

10000 dice mean

　

　このように、標本サイズnが大きくなるほど正規分布に近づくのです！これが中心極限定理です。

　実際に、サイコロを1000回投げて出た目の平均を1000回繰り返したヒストグラムに　期待値 3.5 , 分散 35/120000　(何故こうなるかはそのうち)　の正規分布を重ね合わせると

f:id:nashuto:20190312181048j:plain

　ピッタリ当てはまりますね！　

　

1000dice mean histgram added dnorm curve

このように、サイコロの目がそれぞれ出る確率は1/6で等しいのに標本サイズnが大きくなるほど正規分布に近似できることがわかります。

　

　ですので、正規分布はよくみかける＆使いやすい分布なのです。