青木宣親から学ぶ 野球は統計学で説明できるのか?~2項分布編~

 みなさんは青木宣親選手をご存知でしょうか?

 

 Noriこと青木宣親選手は日本だけでなくMLBでも活躍できた日本の野球史に名を残す現役の名選手です。

 

 青木選手は1982年に宮崎県日向市で産声を上げました。

 

 それからというものの、早稲田時代ではリーグ4連覇を果たし、ヤクルトに入団後も順調に成績を重ね首位打者最多安打盗塁王といったタイトルを総なめにし、アナウンサーと結婚。そしてMLBに移籍しました。福留孝介選手や松井稼頭央選手など多くの名選手はMLBの成績が不安定で大幅に落としていた中で青木選手はMLBでも着実に成績を残していきました。その成績は

 

 2012  151試合 打率.288
 2013  155試合 打率.286
 2014  132試合 打率.285
 2015  93試合   打率.287
 2016  118試合 打率.283
 2017  110試合 打率.277 

 

    通算打率.285

 

 ヒトは青木をこう呼びます

 

 ミスター2割8分

 

 2割8分に収束する男

 

 アヘアへ0.280マン

 

 

 青木宣親選手はシーズン中に波はありました。

 

 今年は無理だろうと巷で交わされていた時も数知れず。

 

 なのに終わってみると必ず2割8分台に乗せているのです。

 

 こんなことできるでしょうか?

 

 多くの選手は毎年少なからず成績が変動します。成績は体調面だけでなく私生活やモチベーション、相手チームの分析など多岐に依存するからでしょう。

 

 この異端な成績を統計学の側面から考えるとどのように評価できるのでしょうか?というのが今回の議題です。

 

  野球と統計学

 ここに野球と統計の歴史を書こうと思ったのですが(マネーボールとか)、まあ要らないかなと思うので

 工事中(着工日未定)

 打率を統計学で考える

 今回は青木選手が毎年同じような打率で安打を重ねる事は統計学的にどういう意味を持つのかを考えます。ですが複雑に考えると大変になるので状況は簡潔にします。青木選手はどのような投手・状況・場面でも0.285の確率(打率)で安打を打つと仮定します。野球が好きな人ほど抵抗がある理論だと思いますが、打数が多くなれば案外イイ感じになるんです。

 

 この仮定において今回は、1年間の打率を2項分布で考えることが出来ます。

 

 この青木選手が1年間で1打席だけ立ったシーズンを1000回繰り返した(1000年間シーズンを過ごす)場合、1000シーズン分の打率はどうなるでしょうか?

f:id:nashuto:20190315182431j:plain

このplotだけでは正確な数字は分かりませんが、1000×0.285=285年は打率が10割で715年は打率が0割と言う期待値に近いことは読み取れます。

 

※ table(a)で正確な数字を求めたところそれぞれ740と260でした。

 

 

では1シーズンで10打席に立った青木選手の年間打率を求める事象を1000回繰り返した場合、各シーズンの打率の値はどうなるでしょうか?

f:id:nashuto:20190315194123j:plain

打率 シーズン数
0 34
0.1 142
0.2 280
0.3 242
0.4 175
0.5 96
0.6 26
0.7 2
0.8 3

 こんな感じです。

 

aoki_10bats added way to make table for html style ...

10打席しかないので打率も0から1まで0.1刻みですが流石に9割打者と10割打者は居ませんね。

 

次は、青木選手が1シーズンで100打席に立ったシーズンの打率を求める試行を1000回繰り返す(1000シーズン分)った時の分布は

f:id:nashuto:20190316220014j:plain

打率 0.16 0.17 0.19 0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.4 0.41 0.42 0.43 0.44 0.46
シーズン数 1 2 2 8 11 28 31 34 45 62 79 80 70 83 85 72 68 53 45 41 27 19 14 17 14 2 4 2 1

 

  打率0.31が85シーズンで最頻値となっています。一応、中心極限定理正規分布を示していますが。

 

aoki_100bats added ways to change rows and comns

 

 では今回のメインです。1年間怪我無く無事に送った場合に立つ打席数は500打席程度でしょう。ですので、青木選手が1シーズンで500打席に立ったシーズンの打率を求める試行を1000回繰り返す(1000シーズン送)った時の分布は

 

f:id:nashuto:20190316222542j:plain

 

 

  0.22 0.222 0.226 0.23 0.232 0.234 0.236 0.238 0.24 0.242 0.244 0.246 0.248 0.25 0.252 0.254 0.256 0.258 0.26 0.262 0.264 0.266 0.268 0.27 0.272 0.274 0.276 0.278 0.28 0.282 0.284 0.286 0.288 0.29 0.292 0.294 0.296 0.298 0.3 0.302 0.304 0.306 0.308 0.31 0.312 0.314 0.316 0.318 0.32 0.322 0.324 0.326 0.328 0.33 0.332 0.334 0.336 0.34 0.348
1 1 1 1 1 3 3 2 3 3 2 7 7 7 4 9 12 4 19 17 19 15 22 31 34 29 38 42 30 56 43 44 43 35 34 35 40 31 29 37 21 26 18 20 19 15 16 13 11 10 6 5 10 8 2 1 2 2 1 1

  期待値となる打率の0.282 , 0.284になるシーズン数はそれぞれ43,44シーズンで、2割8分台に収束しているシーズン数は221シーズンでした。

 

aoki_500bats

 

 つまり本来の打率が0.285の選手でもせいぜい500打席程度では選手の真の能力を測るには不十分であり、ぶれが生じるという話です。試しに両側95%信頼区間を計算してみると0.244≦打率≦0.326 であります。このように500打席程度では本来の能力とはかけ離れた数値を叩き出すことも容易に起こるのです。

 

 この結果から打率を2項分布で考えるのがナンセンスだ、確率論は野球に応用できないという旨の反論も当然あると思います。

 

 

 

 一方で、特定の季節・相手投手・球場 etcで調子が悪いというのも実はこのような2項分布の偶然のぶれに起因するものであるという考えもできます。

 

 最終年だけ活躍するおかわり君や夏に強いゴジラも偶然に起因した結果なのかもしれません。また、2軍の数十打席の数字だけで1軍に上げるかどうかを判断する事にも疑問符が呈されるでしょう。

 

 というように、この打率の考え方では1シーズン当たりの打率にぶれは欠かさないので、より選手の能力を測れる変数を探すことになりました。その結果OPSなどが作られて現在ではそれらにスポットライトが当てられている訳なのですが、青木選手はこの自然の摂理の予想に反した結果を残している訳です。

 

 500打席あれば本来の力の打率付近に収束する確率は高いし今の言動は大袈裟かもしれませんが、少なくとも青木選手のアヘアへ0.280マンは2項分布の野球への応用に改善の余地がある可能性を示すものとなっているでしょう。

 

 ※まだ不十分なのは承知なので、今後も暇な時に野球と統計の話を追加していきます。