# UDID帳號分群-提升資料量測試 ### 實驗步驟 - 採用 udid_log.csv 中的UDID欄位 (總共有263034筆) - shuffle後取10000筆 - 執行 account_clustering.py - Kmeans 群心數設定為 200 (100-500皆嘗試過,但觀察過8開頭的UDID大多會集中在某一群,因此差異不大,最後選擇200) - 選擇群成員最多的群做Hierachical clustering - 觀察樹狀圖結果 ### 實驗結果 - Kmeans 群分布 (集中在第二群)  - 第二群成員總數(2968) [Google sheet](https://docs.google.com/spreadsheets/d/1720BkqghxpyAyvnk7eGwMcrd5H1zRHIVCP1tZSKxVxk/edit?usp=sharing)  - Minimum edit distance 矩陣計算總時間 (**1:55:43**) 其中第二群即耗時1:22:07  - 第二群 Hierachical clustering 結果   - 放大結果 (資料量大時,即使放大圖形也較難看出之間的關係)  ### 總結 - 目前模型的作法是用 Minimum edit distance 的結果做 Hierachical clustering,在MED的計算上會花大部分的時間,且群成員越多運算量越龐大,由目前的實驗結果,3000筆所需時間接近一個半小時,且繪製出來的樹狀圖,較難去觀察到成員間更細部的關係。 - 因此目前如果要透過 Hierachical clustering 去觀察成員間進一步的關係,我認為在資料量上做刪減會是較好的方式,不僅可以減少運算時間成本,在圖形上也能觀察到更細部的關係。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up