# 帳號分析 hash string clustering 210222 --- ## 本週實驗 針對UID帳號做完MED後,hierarchical分群後的結果(特別是同樣開頭的UDID,公司特別提到8開頭的) ### 實驗方法 - 為觀察方便只取了20筆純數字的帳號做出樹狀圖 - 由於之前的實驗確認過純數字帳號會經過Kmeans分至相同群,因此在Kmeans步驟只做一個群心 - 另外還有加入5筆原始帳號,總計20筆觀察結果 ### 實驗結果 由於UID帳號的長度皆為15,因此觀察到即便是前2、3位數字完全相同,但後幾位幾乎不相同時,做出來MED(最小編輯距離)可能還是很大,以至於在做Hierachical分群時不會分到相鄰的位置。 #### 分群結果 ##### 20筆純數字帳號 - 分群正常  - 開頭不像但相鄰者  - [MED matrix](https://docs.google.com/spreadsheets/d/1mIT40rV3hHlccFoxKYrjFTCLITyraEzyj1zJ-prA6d8/edit#gid=1670218855) ##### 15筆純數字帳號+5筆原始帳號 - 同一群的分群結果  #### 結論 由於我們的模型透過Kmeans做完初步分群後,是利用萊文斯坦距離此演算法來比對字串的相似度,因此將UID帳號放入此模型,還是會因為字串的長度去影響到MED的數值,進而影響到Hierachical的分群,不確定這樣能否完全達到公司預期。 ###### tags: `Progress Report`
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up