scikit-learn再再入門 === [群馬大学電子計算機研究会 IGGG Advent Calendar 2018](https://adventar.org/calendars/3217) 21日目です! なんかみんな機械学習やってるのでやってみる.Python初心者なのでコードは汚いのは勘弁. 2年前にsckit-learn使ったきりになっていたので,もう一回やってみる. ## KDD Cup 99をscikit-learnで遊ぶ - [本家](https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/datasets/kddcup99.py)にあるので,これでデータセット取って来れます.便利. - Google Colaboratoryをはじめて使ったんですが,便利. - [gist](https://gist.github.com/atpons/1cde80e10e90e07f8bf18c101e94c437)です. - `sklearn.preprocessing`を卒業してCategory Encodersを使ってみました. - えっ...私の次元,多すぎ?ってことでランダムフォレストにした.SVMだと終わんない... - データセットが悪いのかやり方の問題なのか,これじゃ遊んだというかやってみただけになっている...orz - あとなんか結果おかしい気がする. - Pythonあまり触らないので,lambdaとかmapとかの再復習って感じになった. ## 結論 機械学習教えてくださいお願いします ## 参考文献 - [KDD Cup 99 Dataおぼえがき | 一生あとで読んでろ](http://ntddk.github.io/2016/11/23/kdd-cup-99-data/) - [Category Encodersでカテゴリ特徴量をストレスなく変換する](https://qiita.com/Hyperion13fleet/items/afa49a84bd5db65ffc31)