帳號分析 hash string clustering 210127

# 帳號分析 hash string clustering 210127 --- ## 本週實驗加入UID帳號資料，測試純數字帳號用原來的分群方式會不會被分到不同群，並記錄Kmeans & Hierachy clustering 的執行時間 ### 實驗方法 #### 與上週不變步驟 - 原始資料取8000筆作為 test data - 將過濾後的帳號透過hash function轉成數值，並將此hash value與帳號長度做為Kmeans feature - 用Kmeans做分群並將結果匯出觀察 - 觀察各群數量分布與分群後是否有overfitting的情況 - 初步分群後，將各群再做minimum edit distance matrix - 確認分群後產生MED矩陣所需時間 #### 新增步驟 - test data 新增UID帳號2000筆(shuffle)，總計10000筆資料 ### 實驗結果此次採用的2000筆UID帳號中僅有1922筆為純數字，其餘78筆因含heximal，因此做字串比對與純數字不同。純數字的分群結果依然是正確的，沒有被拆散，且原來含流水號的帳號，也能正確的分群。 #### 分群結果 (K = 200) - [Google sheet](https://docs.google.com/spreadsheets/d/1Ez0CJIIAYwm3JAMyyzyfaPI5R4onLD-9en5VDb4m15Q/edit?usp=sharing) - UID帳號(純數字) ![](https://i.imgur.com/LifI2lJ.png =400x) ![](https://i.imgur.com/9MMex0f.png =400x) - 部分UID帳號(含hex) ![](https://i.imgur.com/K5Jugwi.png =400x) - 原資料中純數字帳號 ![](https://i.imgur.com/MWr9IjY.png =400x) - 原資料中流水號帳號 ![](https://i.imgur.com/XueKOp8.png =400x) #### 執行時間 - Kmeans: 4.16 sec ![](https://i.imgur.com/Xe8c1tc.png) - Hierachy: 5 min 54 sec ![](https://i.imgur.com/bonowUv.png) ###### tags: `Progress Report`