颱風數據分析

第三次會議

1. 資料清理

  • X(22)
    • Object
      • 侵臺路徑分類
      • 近臺強度
      • 穿過臺灣
      • 進入/出方向or影響範圍
    • Float
      • 近臺最低氣壓(hPa)
      • 近臺最大風速(m/s)
      • 近臺7級風暴風半徑(km)
      • 近臺10級風暴風半徑(km)
      • 警報發布報數
      • 死亡
      • 失蹤
      • 受傷
      • 房屋全倒(棟)
      • 房屋全倒(戶)
      • 房屋半倒(棟)
      • 房屋半倒(戶)
      • 最大總雨量(總量/有資料的測站)
      • 24小時總雨量(總量/有資料的測站)
      • 總面積(平方公里)
      • 登陸面積(平方公里)
      • 平均最大暴潮偏差
      • 平均最大負暴潮偏差
  • y(3)
    • 農業災害產物估計損失(單位:千元)
    • 農業災害民間設施估計損失(單位:千元)
    • 農產損失+民間損失(單位:千元)
    • 公共損失(單位:千元)(半數NA)

1.1 類別型特徵

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

  • 侵臺路徑分類[11]
    • 分類0(24)
    • 分類1(7)
    • 分類2(9)
    • 分類3(13)
    • 分類4(9)
    • 分類5(5)
    • 分類6(9)
    • 分類7(4)
    • 分類8(2)
    • 分類9(7)
    • 分類特殊(6)
  • 近臺強度[3]
    • 輕度(30)
    • 中度(45)
    • 強烈(20)
  • 穿過臺灣[2]
    • O(43)
    • X(52)
  • 進入/出方向or影響範圍[24]
    • ['X' '全臺' '西北/北' '南' '金門' '東北' '北' '南/西' '東北/西北' '東/西' '南/金門' '東南/西南' '東'
      '西' '南/西南' '東/西南' '東/西北' '東北/北' '南/外島' '西北/東北' '西南/東' '東南/西' '東北/西南'
      '西南部及外島地區']

1.2 數值型特徵

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

XGBoost 模型

[實驗一] y 有取 log

透過 Kfold 將預測結果透過 expm1 還原成原本的 scale。以下為五個 fold 在測試集的 R2 score。

  • Fold1: 0.5195063543362759
  • Fold2: 0.44107168013178266
  • Fold3: 0.3900615768722049
  • Fold4: 0.3712196210847235
  • Fold5: 0.5357587378785766
  • 平均 0.4515235940607127

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

預測95筆絕對誤差為:

  • mean: 1393292.0750377537
  • median: 240698.71875

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

刪除 1.5 倍標準差離群值後,剩下 88 筆有效資料。

  • mean: 487568.76804019976
  • median: 160614.759765625

[實驗二] y 原始資料下去訓練

  • Fold1: 0.8409902617599812
  • Fold2: 0.7499123021876299
  • Fold3: 0.6709524439729329
  • Fold4: 0.5679120068057697
  • Fold5: 0.31889693917215145
  • 平均 0.629732790779693

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

預測95筆絕對誤差為:

  • mean: 1220146.2613941613
  • median: 378011.0

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

刪除 1.5 倍標準差離群值後,剩下 89 筆有效資料。

  • mean: 759920.4919937674
  • median: 263446.96660000004

全部X訓練

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

  • mean: 330933.77436927974
  • median: 28172.15625