# 帳號分析 hash string clustering 201228 --- ## 本週實驗 將資料量增至9710筆,透過上週測試方式觀察Kmeans的分群結果,選擇較適合的群心數後,對各群做MED,並觀察時間。 ### 實驗方法 - 原始資料取10000筆,並用正則表示式過濾掉含特殊字元的帳號 - 過濾後剩餘9560筆 - 建立三種帳號,每種帳號各 50 個,總計 150 筆,規則如下。 1. 'hm0000'+流水號 2. 'ssu'+流水號+'ssu' 3. 'asd'+流水號+'asd' - (流水號範圍 0~50) - 將原始資料 9560 筆與流水號帳號串接,共 9710 筆帳號作為 test data - 將過濾後的帳號透過hash function轉成數值,並將此hash value與帳號長度做為Kmeans feature - 用Kmeans做分群並將結果匯出觀察 - 觀察各群數量分布與分群後是否有overfitting的情況 - 初步分群後,將各群再做minimum edit distance matrix - 確認分群後產生MED矩陣所需時間 ### 實驗結果 - 實驗後群心數設10群是此資料量分群結果較佳 #### Kmeans 分群 (10群) - 群分佈 ![](https://i.imgur.com/MQnQQUK.png =300x) - 十群做MED的時間 ![](https://i.imgur.com/IQbWrHx.png) - 切成1000筆 單群所需時間 ![](https://i.imgur.com/Qf7mBuG.png) - 原資料含流水號的部分 ![](https://i.imgur.com/AiTlfdF.png =400x) #### 10群 vs 15群 & 10群 vs 20群 - 20群 ![](https://i.imgur.com/DiGQR5p.png =400x) - 10群 ![](https://i.imgur.com/qcuS9Oo.png =400x) --- - 15群 ![](https://i.imgur.com/4d09BJe.png =400x) - 10群 ![](https://i.imgur.com/4eLftRH.png =400x) ## 下週計畫 ###### tags: `Progress Report`