2018年のMLB打者を主成分分析してみた。

主成分分析とは

 主成分分析とは多くのデータのまとめる分析方法です。難しい言葉でいうと、複数の変数を1次式のデータに収縮させる事です。

 本当は自学自習の為に簡単な説明を書きたいのですがそんな技力も暇力もないので工事中(施工日未定)

2018年MLBの打者データを主成分分析

 G~SOまでの13変数のデータを主成分分析にかけて1つの式に説明していきます。

 

www.baseball-reference.com

 試合数・打席数・打数・得点・安打・2塁打・3塁打・本塁打・打点・盗塁・盗塁死・四球・三振の13変数で主成分分析をかけると

 

f:id:nashuto:20190330211540p:plain

 こんな感じに。

第一主成分=-0.33*G+(-0.32)*PA+(-0.32)*AB+・・・・・+(-0.27)*SO

第二主成分=(-0.01)*G+・・・・・+0.43*X3B+・・・・+  (-0.10)*SO

 

summary()関数で

f:id:nashuto:20190330214212p:plain

こんな感じに。

上から順に標準偏差・寄与率・累積寄与率となります。(空いた時間でこの説明もしたい所)

第二主成分までで82%が表現できているので今回は第二主成分まで考えます。

全部の係数が負なのですがこれは負荷量の絶対値が重要なわけで、全部負なのであれば逆転して考えればいいはず。

第一主成分では値が高い程良い変数も悪い変数も全て同程度に考えられています。良い意味でも悪い意味でも1年間を通してどれ程目立ったかを示す打者の総合値でしょう。

第二主成分のうち係数の絶対値が大きくて重要そうなのは

X3B(3塁打)の0.43,HRの-0.29,RBI(打点)の-0.23,SB(盗塁成功)の0.55,CS(盗塁死)の0.56です。これより第2主成分は1年を通して足の速さを印象づける指標といえるでしょう。

 

そこで、各選手の得点をplotしていくと

f:id:nashuto:20190331202747j:plain

 

 選手が多すぎて汚い。特定の選手を抽出する方法も知らないし。なんとなく目に留まったのが1291番と316番だったので調べてみるとそれぞれマレックス・スミス選手とクリス・デービス選手で、マレックス・スミス選手の10本の三塁打と12個の盗塁死はリーグ最高で、40盗塁を決めているスピード選手です。クリス・デービス選手は48本の本塁打王で123打点を打つ強打者で、盗塁盗塁死は0で典型的なパワーヒッターで有る事が分かります。

 

もう少し見やすく有ってほしいので

規定打席に到達した選手で再び主成分分析

をかけてみると

f:id:nashuto:20190331205615p:plain

 

f:id:nashuto:20190331205635p:plain

第一主成分と第二主成分の係数は変れど意味は同じでしょう。第一は総合値で第二は走力。

各選手のplotは

f:id:nashuto:20190331210036j:plain

となりました。今回でも第2主成分に関しては1291(マレックス・スミス)と316(クリス・デービス)が目立ってます。PC1で最高得点を取っているのは791番の選手です。こちらはフランシスコ・リンドーア選手でリーグ最多の129得点と打率.277、38本塁打、92打点、25盗塁を記録しています。総合値が高くてめっちゃいい選手ですね。ただし第2主成分まででは60.4%までしか説明できない所をつかれると痛いですね。

 

Principal Component Analysis for MLB2018 batter