###### tags: `lab.22` `進捗` # LightGBMによる傷害予測(ドラレコで取得可能な特徴量) 交差検証見直し前(検証用データは全体の20%のみ) ※参考 - 特徴量分類 https://hackmd.io/uFH0TXGXR8CFm7p4aG4mxw - ベイジアンネットワークの結果 https://hackmd.io/aOG9BxJiQvysnz6tqCoZ-Q?view ## 初期条件 - データベース:アメリカのNASSーCDS(2010-2015),CISS(2017-2019) - 絞り込み条件:ドライバー絞り - 目的変数:MAIS3+ ## 流れ 前期に行った特徴量の分類をもとに,すべての特徴量を含めて学習,現在取得可能な特徴量のみで学習,将来的に取得が見もまれる特徴量も含めて学習を行い結果を比較した.(1~4章) またハイパーパラメータ探索に木の本数を入れた時と,入れなかった時の結果を比較した(5章) ## 1. すべての特徴量により学習したとき ### 結果     ### 重要度   ## 2. 現在ドラレコで取得可能な特徴量のみで学習したとき ### 結果     ### 重要度   ## 3. 将来的に取得可能な特徴量も含めて学習を行ったとき ### 結果     ### 重要度   ## 4. ベイジアンネットワークとの比較  - US_testdata_DR1 VWEIGHT MODELYR BODYG MALE AGE BAGAVLF BAGAVLO BELTUSE - US_testdata_DR2 追加した特徴量 DV GAD OGAD PDOF12 OPDOF12 OVWEIGHT WRATIO OBODYG HEIGHT WEIGHT BMI - US_testdata_all 追加した特徴量 CRASHG GADH GADV INTMAG EXTENT - ROC-AUCなどの結果を見てもわかるようにLightGBMでは,将来的に取得可能な特徴量も含めて学習を行ったときの精度が上がった ## 5.ハイパーパラメータ探索について 1~3章のハイパーパラメータ探索は以下のように設定した - Num_leaves : 葉の枚数 - Eta : 学習率 - Max_depth : 木の深さ - N_estimators : 木の本数 - Early_stopping : 損失関数に改善が見られない場合、学習を終了させる 木の本数を探索しなかった時の結果↓ 終了させる ### (将来的に取得が見込めないものも含めた)すべての特徴量で学習したとき - 結果     - 重要度   ## 現在取得可能な特徴量で学習したとき - 結果     - 重要度   # 将来的に取得が見込まれる特徴量で学習したとき - 結果     - 重要度   - 評価関数まとめ  - ハイパーパラメータ探索から木の本数を除外したとき,全体的に少し精度が落ちてしまった - また,閾値を変化させたときのグラフを見てもわかるように,閾値0.2以下と0.8以上は良い精度が得られなかった - ただ処理にかかった時間は短縮されていたと思う --- 疑問点 重要度の2つのグラフはそれぞれどういう意味…? →無印は決定木の枝分かれにその特徴量が使われた回数、gainの方はその特徴量がコスト関数をどれだけ減らしたか 今後やること プログラムの理解 結果の考察を深める
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up