# 帳號分析 hash string clustering 210127 --- ## 本週實驗 加入UID帳號資料,測試純數字帳號用原來的分群方式會不會被分到不同群,並記錄Kmeans & Hierachy clustering 的執行時間 ### 實驗方法 #### 與上週不變步驟 - 原始資料取8000筆作為 test data - 將過濾後的帳號透過hash function轉成數值,並將此hash value與帳號長度做為Kmeans feature - 用Kmeans做分群並將結果匯出觀察 - 觀察各群數量分布與分群後是否有overfitting的情況 - 初步分群後,將各群再做minimum edit distance matrix - 確認分群後產生MED矩陣所需時間 #### 新增步驟 - test data 新增UID帳號2000筆(shuffle),總計10000筆資料 ### 實驗結果 此次採用的2000筆UID帳號中僅有1922筆為純數字,其餘78筆因含heximal,因此做字串比對與純數字不同。 純數字的分群結果依然是正確的,沒有被拆散,且原來含流水號的帳號,也能正確的分群。 #### 分群結果 (K = 200) - [Google sheet](https://docs.google.com/spreadsheets/d/1Ez0CJIIAYwm3JAMyyzyfaPI5R4onLD-9en5VDb4m15Q/edit?usp=sharing) - UID帳號(純數字)   - 部分UID帳號(含hex)  - 原資料中純數字帳號  - 原資料中流水號帳號  #### 執行時間 - Kmeans: 4.16 sec  - Hierachy: 5 min 54 sec  ###### tags: `Progress Report`
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up