今回は難しそうで簡単なお話、競馬における「多重共線性」の話をしたいと思います。この「多重共線性」という言葉は競馬用語ではないですが、データ解析をする方にとっては時々聞く言葉なので、データ解析で回収率を上げる方法を模索したり、レースタイム予測をする方にとっては、知っておいて損はないと思います。
多重共線性とは
少し専門的な言葉になりますが、多重共線性とは説明変数同士の相関係数が高い組み合わせが存在していることを言い、この状態でこれらの説明変数を使った予測式(多重回帰)などを作成したとしても、精度が安定しない、もしくは精度が下がる現象が見られます。各用語の簡単な補足は以下のようになります。
【説明変数】
競馬に例えるならば、レースの着順を予測するために使用する要素(ファクター)になります。例えば、前走の着順、オッズ、種牡馬、馬体重といった要素が考えられます。
【相関係数】
相関係数は説明変数同士が互いにどの程度影響しあっているかを示す指標になります。相関係数が高い例として「単勝人気」と「複勝人気」があります。単勝人気が1位の馬は複勝人気が1位の可能性が高く、逆に単勝人気が10位の馬は複勝人気も10位前後の可能性が高いです。相関係数が高いと、このように一方の説明変数が分かれば、もう一方の説明変数の予測精度も高い状態になります。
逆に相関係数が低い例として、「前走の距離」と「単勝オッズ」が考えられます。考えれば分かることですが、単勝オッズは前走の距離で決まるわけではありません。具体的には前走2000mを走った馬よりも、前走1800mを走った馬の方が単勝オッズが高いという傾向はありません。当然、特定のレースの一部のデータを取り出すとこのような条件に当てはまるケースは出てきますが、あくまで相関係数は十分にサンプル数を多くしたときの傾向のことを言います。
【予測式】
予測式とは説明変数の値を用いて、目的となる数値を予測する計算式のことを言います。例えばレースの走破タイム予測式は
予測走破タイム=(前走3Fタイム/6)×(今回距離)/100
これは前走3Fタイムのペースで今回の距離を走ったと仮定した場合の予想走破タイムになります。予測式は様々なものが考えら特に決められたルールはありませんが、予測式を考える人のセンスで精度が異なってきます。
競馬における多重共線性
それでは、競馬ではどんな多重共線性(相関係数が高い関係)があるか見ていきたいと思います。
単勝オッズと単勝人気
まず、先ほど説明した例と似ていますが、単勝オッズと単勝人気の関係があります。1番人気と聞くと大体2.0倍ぐらいの単勝オッズを想像するのではないでしょうか?また、単勝オッズが15倍~20倍と聞くと6番人気~9番人気あたりをイメージします。
単勝人気と騎手
単勝人気と単勝オッズとほどの強い相関係数があるわけではありませんが、単勝人気と騎手に関しても多重共線性が認められるでしょう。というのも競馬の場合、強い馬には上手い騎手が騎乗するケースが多いです。また、上手い騎手が騎乗するから馬の評価も高くなるとも言えます。
ラスト3F順位と走破順位
基本的に競馬は最後の直線で勝負が決まるので、最後の3Fを速く走った馬ほど、着順も上位になります。つまり、最後のラスト3Fの順位と、そのレースの順位はおおよそ同じ傾向にあり、相関係数が強いと言えます。
その他
ここで紹介した組み合わせ以外にも、相関係数が高い組み合わせはあります。競馬の性質から考えれば分かるものもありますし、データを解析していくと分かってくるものもあります。
多重共線性の問題点
それでは多重共線性があると何が問題なのでしょうか?これは回収率が高い馬券を抽出するルールを作成したり、レースの走破タイムを予測しようとするときに問題になります。2つのケースで説明したいと思います。
ケース1
例えば、以下のような事実があったとします。
- 種牡馬Aの馬は雨の日の単勝回収率が85%
- 種牡馬Aの馬は不良馬場の単勝回収率が85%
単勝回収率の平均は80%ですから、①も②も通常よりも高い回収率を狙える条件になります。そこで、①かつ②の時の単勝馬券を購入すれば単勝回収率は85%を超えるでしょうか?
答えはNoになりますね。よく考えれば、雨の日であるならば、ほぼ確実に不良馬場となっているので、①と②は結局同じことを言っています。つまり、①と②は相関係数が高いルールであるため、複合して考えることができません。
ケース2
それでは、以下のルールだとどうでしょうか?
- 種牡馬Aの馬は不良馬場の単勝回収率が85%
- 種牡馬Aの馬は馬体重が500kg以上の時単勝回収率が85%
不良馬場であるのと、馬体重は相関がないですよね?不良馬場ほど馬体重が軽くなるといった不思議な現象は起こりません。よって、この場合①かつ②の時の単勝馬券を購入すれば単勝回収率が85%を超える見込みがあります。
このように、相関係数を意識した要素(ファクター)を用いることで、予測式の精度は大きく変わってきます。
多重共線性の回避方法
多重共線性の回避方法を説明したいと思います。ここでは、単勝人気と単勝オッズの2つの相関係数が高い要素があった場合の対応について説明します。基本的には以下の2つの方法で解析を行うとよいでしょう。
- どちらかの要素を除外する
- 2つの要素を1つの要素と考える
どちらかの要素を除外する
まずメジャーな対応方法として、どちらかの要素を除外する方法があります。単勝オッズと単勝人気どちらを除外するかですが、これは目的に応じて影響が大きいものを残すようにします。
例えば、単勝オッズで走破タイムを予測した場合と単勝人気で走破タイムを予測した場合を考えます。このとき、単勝オッズで走破タイムを予測した方が精度が良ければ、単勝人気の説明変数は諦め、単勝オッズで走破タイムを予測することになります。
2つの要素を1つの要素と考える
次の方法は、単勝オッズと単勝人気の関係を調べ、一つの指標としてしまうことです。例えば単勝オッズ20倍、単勝人気7人気なら、指標は60にするというように、単勝オッズと単勝人気の変数を上手く紐づけする関係式を導き出すことです。
もしくは、複数の場合に場合分けする方法も考えられます。例えば単勝オッズ15倍~20倍かつ単勝人気6人気のケース、単勝オッズ15倍~20倍かつ単勝人気7人気といった具合です。この方法だと解析するサンプル数が減ることが難点ですが、こういったアイデアでも解析可能かと思います。
どちらにしろ、2つの要素を1つの要素として考える方法は少し難しめの手法になります。うまくいかないと予測式の精度を向上させることはできません。まず基本的には最初に紹介した、どちらかの要素を除外する方法を試してみる方が良いように思います。
まとめ
この記事では多重共線性のお話をしました。レースタイム予測や回収率が高いパターンを見つけ出すには、多重共線性を意識する必要があります。これを意識するかしないかで予測精度は大きく変わってきます。
今まで予想に多重共線性の考え方を取り入れてなかった方は、ぜひこの機会に試してみてはいかがでしょうか?