# 資料探勘 - 期中報告 組員: B063020025 曾凰嘉、B065040034 王譽鈞、B071020028 陳孟稼 ## 摘要 [內容] (暫定) 遊戲app的豐富性建立在其中資訊量的複雜性與多面向上。然而大量的玩家已經不滿足於只是進行遊戲,而期望能系統性分析他們所取得的資料和意義,以更進一步地享受遊戲。此報告將以手機遊戲pokemon go中玩家回傳的數據,如,與遊戲角色的相遇場所、時間,以及相遇時的環境條件等資料,以K-近鄰演算法 (k-nearest neighbors algorithm; KNN),將資料分類(classification),以便檢閱相似屬性角色的相關數據。由於在KNN model中,待分類資料屬性係由幾筆鄰近的資料以多數決投票決定,我們首先需要考量多維度的資料在距離計算上可能帶來的負擔。因此,在資料前處理時我們將先刪去不相關的向度,並在交叉比對過各項對於資料分類的影響力後,再次剔除對於準確性不太造成影響者。除此之外,由於各資料對於分類的影響度可能不盡相同,我們將採取曼哈頓距離計算式,提高更鄰近需分類資料者的權重(weight),以免因簡單多數決造成錯誤分類。最後,由於k的具體數值,亦即將由幾個數據共同決定一個資料的去處,將大幅影響分類,(如,分類器會否向數據中最大多數者傾斜,或者會否因樣本數過少,對於雜訊(noise)敏感),k的選擇亦是此次報告的課題。 ## 簡介 [內容] (暫定) 在現今資料充斥,乃至於氾濫的大數據時代,人們已經逐漸無法自行分類資料,更遑論對其分析並做出預測。然而,資料的篩選,以及以更精簡、有系統的方式去呈現我們所需要的部分,使工作效率與準確度提升,並最終得以更有意義地活用數據,卻一直是不變的需求。Knn model的分類原理簡單直觀,執行不複雜,且同時在如手寫系統的辨識、圖片的分類(classification),以及在建立分類器後,更進一步對於房價、天氣等等數據,進行回歸(regression)預測上,都有其有效應用性。Pokemon go遊戲中,玩家可捕捉的角色眾多,而角色本身的屬性又影響著後續遊戲進行的策略與安排,因此,對於角色簡單的分類,以及根據與角色相遇時的環境(地形、氣溫、與補給點的距離、環境能見度等等)去預測角色屬性,將使遊戲模式顯得有跡可循,幫助玩家對遊戲做出模擬以及攻略,不至於在進行遊戲時亂無章法。若能大幅提升玩家的遊戲感受,遊戲將能提高玩家的參與度,並可能藉由遊戲活躍度的延長,拉長產品壽命。 ## 相關研究 [內容] ## 研究方法 KNN ( K Nearest Neighbor) 3.1資料前處理 ID: 我們認為寶可夢的ID編號跟結果無關,所以在資料處理時把此欄位刪除掉。 appearedTimeOfDay: ![](https://i.imgur.com/FmAHg0Z.png) 根據這張表,我們發現不同類別的寶可夢,分布在不同時段的比例也都不一樣,所以保留此欄位,採用one-hot encoding的方式。 appearedHour,appearedMinute:我們認為寶可夢出現哪種類別跟幾點幾分沒有太大的關係,所以drop這2個欄位。 terrainType:從圖中可以看出每一類寶可夢經常出現的地形都不太一樣,認為這是有用的欄位,採用one hot encoding編碼。 ![](https://i.imgur.com/GxLBRJk.png) closeToWater: 我們發現第1.3.4類的寶可夢是比較常在水邊出現的,0.2.5類寶可夢比較不靠水,可能是跟寶可夢的屬性有相關,所以認為這欄位有參考價值,故True的設為1,False的設為0。 ![](https://i.imgur.com/mz4GpCp.png) city: 將各個城市one-hot encoding,再標準化。 continent: 大部分的寶可夢都分布在歐洲和美洲,而第0類和第5類寶可夢大多分布在美洲,其他類在美洲和歐洲的比例是差不多的,把資料用one-hot encoding的方式編碼,再去做標準化。 weather: 0~5的寶可夢都是在晴空萬里(clear)時出現的機率較高,多雲的天氣是第二高,其他天氣出現的機率都很低,故保留此欄位,也是採用one-hot encoding的方式編碼再做標準化。 temperature,windspeed,pressure,population,gymDistanceKm,pokestopDistanceKm:對全體標準化 weatherIcon:這欄位跟weather滿相近的,我們選擇採用weather,drop weatherIcon。 其他:True設為1,False設為0 ## 實驗結果 [內容] ## 總結 [內容] --- ### 參考資料 <https://www.kaggle.com/c/aia-dnn-classification-pokemongo-tpe-5/overview>