# 帳號分析 hash string clustering 210121 --- ## 本週實驗 移除手動新增的流水號帳號,將原始資料做相同的實驗,判斷原始資料中含流水號的帳號會不會被分到不同群。 ### 實驗方法 #### 與上週不變步驟 - 原始資料取10000筆,並用正則表示式過濾掉含特殊字元的帳號 - 過濾後剩餘9560筆 - 將原始資料 9560 筆帳號作為 test data - 將過濾後的帳號透過hash function轉成數值,並將此hash value與帳號長度做為Kmeans feature - 用Kmeans做分群並將結果匯出觀察 - 觀察各群數量分布與分群後是否有overfitting的情況 - 初步分群後,將各群再做minimum edit distance matrix - 確認分群後產生MED矩陣所需時間 ### 實驗結果 可證實在原始資料上套用同樣的作法,效果是相同的 #### 分群結果 (K = 200) - [Google sheet](https://docs.google.com/spreadsheets/d/15Ge0xuu45j5PvusTCVyYAyD9gCHDWACNelQNHkgAF5I/edit?usp=sharing) ![](https://i.imgur.com/uCnUJzG.png =400x) - ![](https://i.imgur.com/LfDvxbs.png =400x) - ![](https://i.imgur.com/Qpdczn6.png =400x) - ![](https://i.imgur.com/CSVJdoA.png =400x) - ![](https://i.imgur.com/5mGqc3v.png =400x) - ![](https://i.imgur.com/SdwktZq.png =400x) ###### tags: `Progress Report`