資料探勘 Team Report

# 資料探勘 Team Report ## Team 10 組員名單&分工 - 40847011S 高子翔 - KNN classifier，整合結果 - 40847015S 紀軒宇 - Decision Tree classifier，前處理 - 40847024S 連庭萱 - Random Forest classifier，前處理 - 40847041S 朱自宇 - Naïve Bayes classifier ## 系統目的從 Kaggle 的 Competitions 中，選擇一個看起來較為有趣的資料集作為本次期末專案的主題。最終目的即為在 Kaggle 的 Leaderboard 盡可能的以所用的分類器取得較高的分數。 ## 資料集 https://www.kaggle.com/competitions/spaceship-titanic ## 評估標準以預測準確度作為評估對所有人的預測結果作分析 ## 整合報告將四人分別寫的Decision Tree、Random Forest、KNN、貝氏分類器的預測結果以多數決結合，以取得更好的準確率。 ## 統整觀察 #### 測試集與訓練集的準確率在此表格的訓練資料統一使用 `train_test_split(train_8[col_8_name], train_8["Transported"], test_size = 0.1, random_state = 0)`拆分 | 分類器 | 訓練資料的訓練集正確率 | 訓練資料的測試集正確率 | 上傳 Kaggle 的測試集正確率 | | ------------- | ---------------------- | ---------------------- | -------------------------- | | Decision Tree | 0.79509 | 0.79425 | 0.78232 | | Random Forest | 0.88764 | 0.80345 | 0.78302 | | KNN | 0.78256 | 0.80575 | 0.79050 | | 貝氏分類器 | 0.74895 | 0.73793 | 0.74631 | ### 結論以 KNN 方式得出的預測結果可以取得最高的正確率，在 Kaggle Spaceship Titanic 中截至 12/27 共有 2793 個隊伍，我們以 0.7905 的準確率達到 1752 名。與此同時第一名的成績為 0.87795。在四個分類器中 Naive Bayes 的結果較差，KNN 的結果較好，甚至將四個分類器的結果進行多數決結合後，依然沒有比 KNN 獨自預測的成績好。以下是我們推測的原因： - decision tree 和 random forest都會因為過多的 noise 而造成 overfitting。 - Naive Bayes 較不會 Overfitting，但對過多屬性的資料有可能對特定類別產生邊際效應因此或許較不適合應用在這個資料集上。 - 而 KNN 較不會受到 noise 的影響，我們懷疑這個資料集可能有不少的 noise 資料，而造成了 KNN 的結果優於其他三個分類器。