# 颱風數據分析 > 第三次會議 ## 1. 資料清理 - X(22) - Object - 侵臺路徑分類 - 近臺強度 - 穿過臺灣 - 進入/出方向or影響範圍 - Float - 近臺最低氣壓(hPa) - 近臺最大風速(m/s) - 近臺7級風暴風半徑(km) - 近臺10級風暴風半徑(km) - 警報發布報數 - 死亡 - 失蹤 - 受傷 - 房屋全倒(棟) - 房屋全倒(戶) - 房屋半倒(棟) - 房屋半倒(戶) - 最大總雨量(總量/有資料的測站) - 24小時總雨量(總量/有資料的測站) - 總面積(平方公里) - 登陸面積(平方公里) - 平均最大暴潮偏差 - 平均最大負暴潮偏差 - y(3) - 農業災害產物估計損失(單位:千元) - 農業災害民間設施估計損失(單位:千元) - 農產損失+民間損失(單位:千元) - ~~公共損失(單位:千元)~~(半數NA) #### 1.1 類別型特徵 ![](https://i.imgur.com/uThd7Ir.png) - 侵臺路徑分類[11] - 分類0(24) - 分類1(7) - 分類2(9) - 分類3(13) - 分類4(9) - 分類5(5) - 分類6(9) - 分類7(4) - 分類8(2) - 分類9(7) - 分類特殊(6) - 近臺強度[3] - 輕度(30) - 中度(45) - 強烈(20) - 穿過臺灣[2] - O(43) - X(52) - 進入/出方向or影響範圍[24] - ['X' '全臺' '西北/北' '南' '金門' '東北' '北' '南/西' '東北/西北' '東/西' '南/金門' '東南/西南' '東' '西' '南/西南' '東/西南' '東/西北' '東北/北' '南/外島' '西北/東北' '西南/東' '東南/西' '東北/西南' '西南部及外島地區'] #### 1.2 數值型特徵 ![](https://i.imgur.com/IRlKWB0.png) ## XGBoost 模型 ### [實驗一] y 有取 log 透過 Kfold 將預測結果透過 expm1 還原成原本的 scale。以下為五個 fold 在測試集的 R2 score。 - Fold1: 0.5195063543362759 - Fold2: 0.44107168013178266 - Fold3: 0.3900615768722049 - Fold4: 0.3712196210847235 - Fold5: 0.5357587378785766 - 平均 0.4515235940607127 ![](https://i.imgur.com/GBhOjzR.png) 預測95筆絕對誤差為: - mean: 1393292.0750377537 - median: 240698.71875 ![](https://i.imgur.com/H5lYNYb.png) 刪除 1.5 倍標準差離群值後,剩下 88 筆有效資料。 - mean: 487568.76804019976 - median: 160614.759765625 ### [實驗二] y 原始資料下去訓練 - Fold1: 0.8409902617599812 - Fold2: 0.7499123021876299 - Fold3: 0.6709524439729329 - Fold4: 0.5679120068057697 - Fold5: 0.31889693917215145 - 平均 0.629732790779693 ![](https://i.imgur.com/B4ppaGc.png) 預測95筆絕對誤差為: - mean: 1220146.2613941613 - median: 378011.0 ![](https://i.imgur.com/sCvFGtp.png) 刪除 1.5 倍標準差離群值後,剩下 89 筆有效資料。 - mean: 759920.4919937674 - median: 263446.96660000004 ### 全部X訓練 ![](https://i.imgur.com/4Drj48C.png) - mean: 330933.77436927974 - median: 28172.15625