# 競馬EDA 2023年のデータを用いてEDAを行う ## 1. 馬の個体特性 ### 1.1 年齢 #### (仮説)高齢の馬は、長距離レースで若い馬よりも良い成績を示す。 年齢別着順の箱ひげ図をプロットした 左がオープン以上、右が条件戦でのレース <img src="https://hackmd.io/_uploads/HkB8Mt9O6.png" alt="オープン以上の年齢と性別の箱ひげ図" style="width: 50%;"/><img src="https://hackmd.io/_uploads/BkLizt9uT.png" alt="条件戦の年齢と性別の箱ひげ図" style="width: 50%;"/> * 基本的に高齢馬の方が成績が悪い * 2400はあまり年齢差が大きく見られない * 1800~2000付近が年齢の影響が大きい * オープン以上の方が年齢の影響が出ている #### (仮説)瞬発力はある年齢以降減退する 年齢別上がり3Fタイムの箱ひげ図をプロットした 上がオープン以上、下が条件戦でのレース <img src="https://hackmd.io/_uploads/By3FPFqu6.png" alt="オープン以上の年齢と性別の箱ひげ図" style="width: 1000%;"/> <img src="https://hackmd.io/_uploads/Hy9aPY5up.png" alt="条件戦の年齢と性別の箱ひげ図" style="width: 100%;"/> * オープン以上では4歳前後で上がり3Fにピークがあるように思える * 2200を超えると若いほど上がり3Fが速い * 条件戦では年齢が上がるにつれ、平均タイムが下がっているように見える * オープン以上は振れ幅が少ない。2400mの3歳の振れ幅が大きい。初めての距離延長で適正不足やペース配分ミスがあったのだろうか * オープン以上の1800の振れ幅が大きいのはG1がなく、比較的レベルの低いレースがあるからと思われる * 条件戦の若い奴らブレすぎだろ ### 1.2 性別 #### (仮説)牡馬は雨下で優れたパフォーマンスを示す。 <img src="https://hackmd.io/_uploads/rJo-z25uT.png" alt="条件戦の年齢と性別の箱ひげ図" style="width: 100%;"/> * あんま関係なさそう #### (仮説)牝馬牡馬混合レースだと牡馬の方が成績が良い <img src="https://hackmd.io/_uploads/HkxTNnqd6.png" alt="条件戦の年齢と性別の箱ひげ図" style="width: 100%;"/> * あんま関係なさそう ### 1.3 血統情報 #### (仮説)血統と適正距離に関係がある 血統ベクトルと平均連対距離をプロットした  * 関係が見えない ### 1.4 年齢とキャリア段階 #### (仮説)キャリア初期の馬は、経験豊富な馬に比べて天候の変化に敏感である。 良馬場以外、晴れ以外の着順と通算試合数の関係をプロットした  * 0,1戦の馬は若干平均順位が低いが、若干 * 全体的に大きな傾向は見られない * データ上91戦している馬もいた。魔境 ## 2. 環境・コンディション ## 3. レース関連 ### 3.1 競馬場 #### (仮説)特定の競馬場の経験がある馬は、 経験がない馬に比べて良い結果を残す #### (仮説)各競馬場・各距離に枠順による有利不利が存在する      * いくつか枠順が有利不利に関係ありそうなクソコースが存在 * 京都2000 * 新潟2000 * 中京2000 * 中山1600 * 東京2000 * 坂、最終直線の距離、コーナーの数が影響している可能性 * 現在データにないためこれを加える必要はありそう #### (仮説)勝利馬の第4コーナー通過順位は競馬場・距離に関係がある   * 関係ある #### (仮説)2,3着馬の第4コーナー通過順位は競馬場・距離に関係がある  * 関係ある ### 3.2 レースのグレード #### (仮説)高グレードレースの経験が豊富な馬は、G3レベルのレースで良好なパフォーマンスを発揮する。 G1複勝数別のG3の着順分布をプロットした  * 傾向のようなものは見られない #### (仮説)高グレードレースの経験が豊富な馬は、G1レベルのレースで良好なパフォーマンスを発揮する。 G1複勝数別のG1の着順分布をプロットした  * 流石に0回の馬は成績が良くないが、1着も75%タイルには乗っている ## 4. ジョッキー関連 ### 4.1 ジョッキー #### (仮説)経験豊富なジョッキーは、不利な天候条件下で優れた戦略を取る。 #### (仮説)ジョッキーと競馬場には愛称が存在する ### 4.2 ジョッキーレーティング #### (仮説)高レーティングのジョッキーは、経験の少ない馬のパフォーマンスを向上させる。 ジョッキーレーティングと着順の関係は以下  それぞれ決定係数は下記のようになった |グレード|決定係数| |-|-| |新馬|0.101| |未勝利|0.077| |1勝クラス|0.046| |2勝クラス|0.064| |3勝クラス|0.042| |オープン|0.054| |G3|0.039| |G2|0.098| |G1|0.099| * 新馬の決定係数が最も高く、レーティングが高いと新馬戦の成績が良いことがわかる * 良い馬を選んでいるのかどんな馬でも戦えるのか * 1勝2勝だと変わらなくなり、グレードレースだとレーティングと差が出る * やはり良い馬が回ってくるのが大きい? ### 4.3 主戦騎手の有無 #### (仮説)主戦騎手がいる馬は、他の騎手よりも優れたパフォーマンスを発揮することがある。 1が主戦騎手が騎乗したレース  * 一応差はある ## 5. トレーニング・準備 ### 5.2 休養期間 #### (仮説)適切な休養期間を経た馬は、長期間休養していない馬に比べて良好なパフォーマンスを示す。 出走間隔と着順の関係をプロットした。 出走間隔の単位は月  * 半月~1月の馬が多く、その付近の成績が良いように見える * 出走間隔と着順の相関は見られない G3以上だと傾向がかわる  ## 6. 過去のレースデータ ## 7. タイム関連 ### 競馬場とタイム #### (仮説)競馬場とタイムは関係がある  * ある ### タイムと上がり3F #### (仮説)上がり3Fとタイムは関係がある 1200m,1600m,2000m,2400mの掲示板内の馬の上がり3Fとタイムをプロットした  * 早いタイムだと上がり3Fも早い * 逆だと思っていた * 途中経過タイムと比べるべきか 2000mに限定した時  ## 8. 特徴量抽出 ### 競馬場特徴抽出 競馬場のデータをPCAを用いて低次元化することで特徴を抽出する スタートからゴールまでを50mごと区分して、その区間に坂が何mあるのか、坂の度数は幾つなのか、第何Cなのかという情報をベクトルの形で表した。 そのベクトルをPCAを用いて6次元に圧縮した。(データの特徴を95%以上保持できる最小の次元が6だった) 結果は以下のようになった。           それぞれ、各軸は元の特徴量と下記のような関係があった * PCA0 * 1400-2400m付近の坂距離と正の相関 * 1700-1800,1900-2000mの坂距離、坂度数、コーナー有無と正の相関 * PCA1 * 坂度数と全体的に負の相関 * 1200-1400mの坂距離、坂度数、コーナー有無と負の相関 * 1300-1500mの坂距離、コーナー有無と負の相関 * 2400-3000mの坂距離、コーナー有無と負の相関 * PCA2 * 1000mまでの坂度数と正の相関 * 1000mまでのコーナー有無と負の相関 * PCA3 * 100-200mの坂度数と正の相関 * 200-500mの坂度数と負の相関 * 1000-1200mの坂度数と負の相関 * PCA4 * 1700-2000mのコーナー有無と正の相関 * 2600m以降のコーナー有無と坂距離と負の相関
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up