帳號分析 hash string clustering 210121

# 帳號分析 hash string clustering 210121 --- ## 本週實驗移除手動新增的流水號帳號，將原始資料做相同的實驗，判斷原始資料中含流水號的帳號會不會被分到不同群。 ### 實驗方法 #### 與上週不變步驟 - 原始資料取10000筆，並用正則表示式過濾掉含特殊字元的帳號 - 過濾後剩餘9560筆 - 將原始資料 9560 筆帳號作為 test data - 將過濾後的帳號透過hash function轉成數值，並將此hash value與帳號長度做為Kmeans feature - 用Kmeans做分群並將結果匯出觀察 - 觀察各群數量分布與分群後是否有overfitting的情況 - 初步分群後，將各群再做minimum edit distance matrix - 確認分群後產生MED矩陣所需時間 ### 實驗結果可證實在原始資料上套用同樣的作法，效果是相同的 #### 分群結果 (K = 200) - [Google sheet](https://docs.google.com/spreadsheets/d/15Ge0xuu45j5PvusTCVyYAyD9gCHDWACNelQNHkgAF5I/edit?usp=sharing) ![](https://i.imgur.com/uCnUJzG.png =400x) - ![](https://i.imgur.com/LfDvxbs.png =400x) - ![](https://i.imgur.com/Qpdczn6.png =400x) - ![](https://i.imgur.com/CSVJdoA.png =400x) - ![](https://i.imgur.com/5mGqc3v.png =400x) - ![](https://i.imgur.com/SdwktZq.png =400x) ###### tags: `Progress Report`