BBANALY プロ野球データ分析

NPBのデータから、野球に関する議論や迷信を検証していくブログです。

ある試合の打撃成績を予測するには?(3)

更新時のみ呟くtwitterアカウントがあるので、よければフォローお願いします。

twitter.com

 

この記事はある試合の打撃成績を予測するには?(2)の続きです。

 

これまでの流れ

前々回、改善案として、

  • 「シーズン通算の成績」と「直近n試合の成績」が大きくかけ離れているときだけを対象にして調べれば、もっと相関があるかも
  • 直近5試合⇒未来の1試合ではなく、直近5試合⇒未来の5試合とするなど、成績を予測したい試合を増やせば、もっと相関があるかも(成績が収束してくるから)

の2つを挙げました。

 

前回、その改善案のうち、2つ目を反映させてみました。

少しだけ相関係数が大きくなりましたが、依然として予測するレベルには程遠いです。

 

今回は、改善案の1つ目も反映させます。

 

 

実装

簡単のため、「直近5試合⇒その後の5試合」の予測のみを考えることにします。

まず、

『「シーズン通算の成績」と「直近5試合の成績」が大きくかけ離れているとき』

の定義をする必要があります。要するに「調子が良い(悪い)」の定義です。

 

シーズンを通したそれぞれの選手の「直近5試合の成績」を取得します。1シーズン143試合なので、要素数が高々143 - 5 = 128の、「直近5試合の成績」リストが得られます。

例)「直近5試合の成績」リスト =  [.300, .345, .444, .472, ..., 322]

 

このリストを大きい順に並び替えたときに、上位10%にくるものを「調子が良い」、下位10%にくるものを「調子が悪い」と定義します

要は今までの計算では、このリスト全てに対しての相関係数を求めていましたが、今回は上位10%と、下位10%に対してのみ、相関係数を求めるということになります。

 

結果

①「調子が良いとき」、「その後5試合」の相関

f:id:hihrois_1104o:20181129222222p:plain

 

ようやく、ほんのりと相関が出てきました。相関係数はタイトルに示すように、0.39となりました。

調子の良い悪いを区別せずに、全てを対象とした際の「5試合⇒5試合」の相関係数が0.14だったため、

          0.39 > 0.14

から、

   調子が良いときに絞ったときの相関係数 > 条件を設定せずに求めた相関係数

が成り立ちます。

 

 

 ②「調子が悪いとき」、「その後5試合」の相関

f:id:hihrois_1104o:20181129222300p:plain

 

こちらは「調子が良いとき」と比べると、相関係数が小さくなりました。

 

 

考察・まとめ

結果からざっくり分かることとして、

  1. 「条件を設定しないとき」よりも、「『調子が良いとき』という条件を設定したとき」の方が、「直近5試合」と「その後5試合」の相関が少し強めに出る
  2. 「調子が悪いとき」という条件下では、「直近5試合」と「その後5試合」の相関はほとんどない

この2つが挙げられます。

元々の趣旨であった「成績を予測する」にはかなり物足りない相関係数の大きさになってしまいました。失敗です。

しかし、これらの結果から新しい発見もありました。

 

 

「調子が良いとき」の状態を生み出す原因としては、

  • 単純に運がよかった
  • パフォーマンス能力が(一時的に)向上した

この2つが挙げられるかと思います。

もし、「調子が良いとき」が100%前者(運)によるものだとしたら、

「調子が良いとき」の相関係数 と「条件を絞らなかったとき」の相関係数は近い数字をとる必要があります。

しかしながら、上記の値は0.39と0.14であるため、近いとはいえません。

「調子が良いとき」に限って、明らかに「直後の5試合」の成績が良くなっているため、「パフォーマンス能力が向上」していることが説明できるかと思います。

TV中継等で使用される「直近5試合の成績」ですが、その数字がシーズン成績とかけ離れて良いものなら、今後のパフォーマンスを示す指標として機能しているのかもしれません。

 

 

また、「調子が良いとき」の相関係数 > 「調子が悪いとき」の相関係数 となっている理由ですが、調子が悪いときは出場機会が減るため、「その後の5試合」が存在せず、計算の対象外となっている可能性があります。

 

 

かなりごちゃごちゃした文章になってしまい申し訳ありません。以上が検証で分かったことになります。