UDID帳號分群-提升資料量測試

# UDID帳號分群-提升資料量測試 ### 實驗步驟 - 採用 udid_log.csv 中的UDID欄位 (總共有263034筆) - shuffle後取10000筆 - 執行 account_clustering.py - Kmeans 群心數設定為 200 (100-500皆嘗試過，但觀察過8開頭的UDID大多會集中在某一群，因此差異不大，最後選擇200) - 選擇群成員最多的群做Hierachical clustering - 觀察樹狀圖結果 ### 實驗結果 - Kmeans 群分布 (集中在第二群) ![](https://i.imgur.com/0sdQ75w.png) - 第二群成員總數(2968) [Google sheet](https://docs.google.com/spreadsheets/d/1720BkqghxpyAyvnk7eGwMcrd5H1zRHIVCP1tZSKxVxk/edit?usp=sharing) ![](https://i.imgur.com/5NJDks8.png) - Minimum edit distance 矩陣計算總時間 (**1:55:43**) 其中第二群即耗時1:22:07 ![](https://i.imgur.com/mSSEeXR.png) - 第二群 Hierachical clustering 結果 ![](https://i.imgur.com/l4xvTAL.png) ![](https://i.imgur.com/Ns21BJp.png) - 放大結果 (資料量大時，即使放大圖形也較難看出之間的關係) ![](https://i.imgur.com/x3yKkkw.png) ### 總結 - 目前模型的作法是用 Minimum edit distance 的結果做 Hierachical clustering，在MED的計算上會花大部分的時間，且群成員越多運算量越龐大，由目前的實驗結果，3000筆所需時間接近一個半小時，且繪製出來的樹狀圖，較難去觀察到成員間更細部的關係。 - 因此目前如果要透過 Hierachical clustering 去觀察成員間進一步的關係，我認為在資料量上做刪減會是較好的方式，不僅可以減少運算時間成本，在圖形上也能觀察到更細部的關係。