# 資料探勘 Team Report ## Team 10 組員名單&分工 - 40847011S 高子翔 - KNN classifier,整合結果 - 40847015S 紀軒宇 - Decision Tree classifier,前處理 - 40847024S 連庭萱 - Random Forest classifier,前處理 - 40847041S 朱自宇 - Naïve Bayes classifier ## 系統目的 從 Kaggle 的 Competitions 中,選擇一個看起來較為有趣的資料集作為本次期末專案的主題。 最終目的即為在 Kaggle 的 Leaderboard 盡可能的以所用的分類器取得較高的分數。 ## 資料集 https://www.kaggle.com/competitions/spaceship-titanic ## 評估標準 以預測準確度作為評估對所有人的預測結果作分析 ## 整合報告 將四人分別寫的Decision Tree、Random Forest、KNN、貝氏分類器的預測結果以多數決結合,以取得更好的準確率。 ## 統整觀察 #### 測試集與訓練集的準確率 在此表格的訓練資料統一使用 `train_test_split(train_8[col_8_name], train_8["Transported"], test_size = 0.1, random_state = 0)`拆分 | 分類器 | 訓練資料的訓練集正確率 | 訓練資料的測試集正確率 | 上傳 Kaggle 的測試集正確率 | | ------------- | ---------------------- | ---------------------- | -------------------------- | | Decision Tree | 0.79509 | 0.79425 | 0.78232 | | Random Forest | 0.88764 | 0.80345 | 0.78302 | | KNN | 0.78256 | 0.80575 | 0.79050 | | 貝氏分類器 | 0.74895 | 0.73793 | 0.74631 | ### 結論 以 KNN 方式得出的預測結果可以取得最高的正確率,在 Kaggle Spaceship Titanic 中截至 12/27 共有 2793 個隊伍,我們以 0.7905 的準確率達到 1752 名。與此同時第一名的成績為 0.87795。 在四個分類器中 Naive Bayes 的結果較差,KNN 的結果較好,甚至將四個分類器的結果進行多數決結合後,依然沒有比 KNN 獨自預測的成績好。 以下是我們推測的原因: - decision tree 和 random forest都會因為過多的 noise 而造成 overfitting。 - Naive Bayes 較不會 Overfitting,但對過多屬性的資料有可能對特定類別產生邊際效應 因此或許較不適合應用在這個資料集上。 - 而 KNN 較不會受到 noise 的影響,我們懷疑這個資料集可能有不少的 noise 資料,而造成了 KNN 的結果優於其他三個分類器。