# ml2019fall-hw2 Logistic Regression ## Data Preprocessing 1. One-Hot Encoding 2. Normalization * index list => These columns are continuous. ![](https://i.imgur.com/nqJ3vTv.png) --- * Other Data Preprocessing: * Accuracy 皆未上升: * Oversample * Smote * ADASYN * Undersample * ClusterCentroids * OneSidedSelection * TomekLinks * Combination * SMOTEENN * SMOTETomek ## Model 我試過的方法,有以下:(分數由低至高) 1. Generative Model 2. Logistic Model 3. Keras NN (隨便搭的) 4. GradientBoostingClassifier (Hyperparams Tune) 5. lightLGBM (Hyperparams Tune) 其中,GBC 可以在 Kaggle 中拿到 Public/Private (Rank 5/6)。但若使用 lightGBM 則可以做到 (Rank 2/1)。實際了解之後,會發現 lightGBM 的確可以增進非常多。此外,由於它擁有 GPU 版本也大幅減少訓練的時間。 補充:有人提及[TPOT](https://www.itread01.com/content/1545271766.html)的方法,但我並未去嘗試效果如何。