鋼のE判術師のブログ

中心極限定理による標本平均の分布が正規分布として推定できるサンプルサイズについての検討

中心極限定理とは

　ある程度統計を勉強していると中心極限定理という言葉を耳にします。

定義としては、

　「標本を抽出する母集団の分布が正規布分布に従っても従わなくても、サンプルサイズnが十分に大きくなれば、標本平均の分布は正規分布に近づいていく」

じゃあ正規分布に従うとみなせる程のサンプルサイズとは、ってなるんでしょうか。

正規分布に近似できるなら近似したいですよね。その方が結果を解釈しやすいし。

巷だとn≧20~30程度が目安と言われていますが、エビデンスってないと思うんですよ。

Rを使って実践的に調べてみましょう。

中心極限定理の原理

実際に実験して適切なサンプルサイズを考える

サンプルサイズについて実験する前に、中心極限定理という都合のいい定理がなぜ生じるのか考えます。

まずは正規分布N(0,1)から10個のサンプルを抽出し、その平均の分布について

ヒストグラムとして可視化するために、1000回繰り返しています。

1000回繰り返せば十分だと思っています、、

コード

するとヒストグラムは下図になりました。

当然正規分布っぽくなります。

手抜きで両軸のグラフ名を整えてないけど許して

データが正規分布しているかどうかの検定で、今回はshapiro-wilk test を使用しました。

余談ですがこの検定は

H0(帰無仮説)：データが正規分布に従う

H1(対立仮説)：データが正規分布に従わない

で検定しています。

巷だと、この検定でパラかノンパラどっちの手法が使えるか分かる

（p>0.05だと正規分布を示すからパラメトリック検定、p<0.05だと正規分布を示さないからノンパラメトリック検定）

と言っている人が多いのですが、

確かにp<0.05でH0が棄却されたら正規分布を示さないとみなせますが、

p>0.05の場合は正規分布に従わないとは言えない、って解釈だから正規分布に従っているとは言えないとおもうんですよね。

余談が長いと嫌いな上司みたいになっちゃうのでここまでにします。

二項分布で、probability=0.5,試行回数10回の確率変数を求める行為を10回(サンプルサイズ)繰り返し、その平均について調べます。

ヒストグラムにするために平均値を求める行為を1000回してます。

コード

ヒストグラム

正規分布とは言えないらしいです。

QQplotを見ると

正規分布っぽいけどね。

じゃあサンプルサイズを20にすると

正規分布にならないらしいです。

ヒストグラムやQQplotだと綺麗だけどね

サンプルサイズを30にすると

帰無仮説が棄却されませんでした。

次に確率を変えてみましょう。

probabilityを0.01に鬼下げしました。

サンプルサイズを10にすると

正規分布の面影すらないですね。

サンプルサイズを100にしても

みてられないです。

probabilityを0.001まで下げちゃうと、

まあそうなるよね。

サンプルサイズを1000まで増やすと

ましにはなるけど正規分布にはならないみたいです。

サンプルサイズを10000にしても

正規分布にはならない。

以上より、標本平均の分布はサンプルサイズが大きくなれば中心極限定理により必ず正規分布として扱えるが、必要なサンプルサイズの量は元の分布に依存することがわかります。

必要なサンプル量は？

上の実験より、正規分布として推定できるサンプルサイズは母集団の分布に依存することがわかります。

とはいえ母分散なんて知る由がない上に、正規分布として推定できるかを検定する客観的な方法はなく、ヒストグラムやQQplotから自分で判断するという主観的な物に頼らざるを得ません。

医療統計で用いる母集団ってそんなに汚い分布じゃないと思うんですよね。

わりかし左右対称の分布だけど個人差が大きいから標準偏差が大きい、みたいな。

便宜上だけど一様分布で試しました。

runif(10,0,100)

runif(20,0,100)

runif(30,0,100)

より正規分布との比較ができるようにbreaksを多めにして表示しました。

つまり、

サンプルサイズを多くして大まかな分布を把握し、母分布をR等でモデル化する。

そのモデルを元に得た標本平均のヒストグラムやQQplotの結果を主観的に読み取って、適切な

サンプルサイズを検討する。

となるんでしょうか。

ただ、こうせざるを得ない感が半端なくて　こんなの非現実的というか無理だと思います。

上で示し続けたグラフから分かるように、よほど母分布が変でない限りはサンプルサイズが30程度あればなんとなく正規分布っぽくなるんで、それも利用してt検定とか使っているんでしょうね。

やはり論文を読み解く際はp値だけを見るのではなく、こうした背景にも目を向ける必要があります。

だからこそ論文を読む際は統計学の理解を深めていないと適切な解釈が得られませんねって話です。