MLB2018の安打数は正規分布を描いているのかQ-Qplotで考察する

　今回はRを用いてQ-Qplotに関する話をしたいと思います。Q-Qplotは準一級の範囲だと思います。統計好きの人が問題にしたそうな内容ですよね。知りませんが。

Q-Qplotとは？
Q-Qplotの実例
Q-Qplotの正確な理解(未)

Q-Qplotとは？

　q-qplotとは簡単に言うと２つの分布（多くは得られた分布と理想的な分布）の類似の程度を視覚的に把握するplot図の事です。右肩上がりの直線に成る程良いとされています。使う機会を見かけるのは「この得られた分布は正規分布と言っていいのだろうか？」知りたい時とかですかね。

Q-Qplotの実例

　今回はQ-Qplotの中でも得られたデータが正規分布を示しているのかを検証します。

こぼ場合はqqnormを使います。

得られたデータが正規分布している時のイメージ

step1 得られた分布を累積密度関数に

　標準正規分布(mean=0,sd=1)に従う分布から100個の乱数を抽出し、得られた分布がきちんと正規分布に従っているかを確認しましょう。

　まずはN(0,1)に従う分布から100個の乱数を抽出します。

　それをx軸に並べ、y軸は累積密度にしたグラフが以下です。今回のサンプルサイズは100なので、1値毎に累積密度は0.01だけ上がっていくので階段状になっています。

f:id:nashuto:20190319224651j:plain

　負と正が綺麗に50-50に分かれているのが怖いですが抽出された100個の乱数を昇順に並べると以下の通りです。x=-2.36が最も小さい値で1つ目なのでy軸の累積密度関数は0.01の値をとります。x=-2.09では0.02、x=-1.96では0.03…のようにplotしていき、最大値x=2.06で累積密度関数は1をとります。

f:id:nashuto:20190319230033p:plain

step2 比較する関数を累積密度関数に

　今回は正規分布と比較するので、正規分布の累積密度関数を準備します。

f:id:nashuto:20190319231725j:plain 　

　見たことある図だと思います。例えば、標準正規分布表によるとZ=1.96の面積は0.475ですよね。正規分布は対称なのでx=-1.96での累積密度関数は0.025を取っています。

step3 2つの累積密度関数において各分位数（同じ累積密度関数の値)における各xの値をプロット

　言葉ではわかりずらいので実際に視覚的に見てみましょう。

f:id:nashuto:20190320012413j:plain

　左から順にstep1で得た100個の乱数の累積密度分布、step2で得た累積密度分布、そしてq-qplotです。

　q-qplotは同じ分位数当たりの値をカウントしていく訳です。例えば40個目の乱数、今回は乱数を100個抽出したのでつまり累積密度関数が0.4の時の各xの値は何でしょう？

　左のstep1においてｙ＝0.4と交わる点のxは-0.243です（図では小さくて分かりにくいですが、上図の乱数の昇順で40個目の値と同値なので⁾。

　真ん中のstep2でy=0.4と交わる点のx値といえば、標準正規分布表で面積が0.1になるZ値を負にしたものです。標準正規分布表を開くとZ=0.25で面積は0.0987, Z=0.26で面積は0.1026となっています。今回はZ=0.25を採用することにします。

　右のQ-Qplotでは縦軸にはstep1で得られた値で今回は-0.24が与えられます。横軸にはstep2で得た値で今回は-0.25が与えられます。この縦軸-0.24と横軸-0.25で与えられる点をplotします。

　もう1つやってみましょう。累積密度関数の値=0.05の時を考えます。step1の乱数側では昇順で5番目の値なので-1.62です。step2の正規分布の累積密度分布ではp=0.05でよく使うZ=1.64なので与えられる値は-1.64です。Q-Qplotで左から5番目の点を読み取ると座標は(-1.64,-1.62)です。

　これを累積密度関数値=,0.050.4だけでなく0.01から0.02,0.03…0.98,0.99,1.00の100個分でプロットすることでQ-Qplotが完成します。

Q-Qplot for rnorm(100) and normal distribution

Q-Qplotの見方

　しつこいようですがQ-Qplotでは同じ分位数(累積密度関数の値)において求められる各数値を取ってplotしたものです。

　今回は同じ正規分布から得たので数値のスケールは同じですが、普段は異なる機会が多いでしょう。ですがQ-Qplotでみたいのは2つの分布が類似しているかどうかだけ。重要なのは散らばり具合の類似度な訳です。同じ分位毎にplotしているので、どちらの値も尺度は違えど全体のスケールからみて同程度の値を取っていればy=xに近づきそうですよね。またy=xからの解離・ゆがみ具合でどのように分布が歪んでいるかを把握することが出来ますし、問題として作り易そうです。

（暇な時に問題作りたい)

MLB選手の安打数は正規分布を示しているかをQ-Qplotで検証

　2018年に出場したMLB選手の安打数は正規分布を示しているのかを検証したいと思います(してないと思うので失敗例として扱う事を前提にしています)。本当はNPBにしようとしたけどMLBの方が人数多いしデータ揃ってそうなので。ここから引用しました。選手の抽出や.CSVでdataを得られたり本当に便利。すごい。

www.baseball-reference.com