帳號分析 hash string clustering 201218

# 帳號分析 hash string clustering 201218 --- ## 本週實驗 + 將 Hash function 的 Value 放進 KMeans 比較 ### 實驗方法建立三種帳號，每種帳號各 50 個，規則如下。 1. 'hm0000'+流水號 2. 'ssu'+流水號+'ssu' 3. 'asd'+流水號+'asd' + (流水號範圍 0~50) 上述150個帳號會被分別丟進 AgglomerativeClustering 與 Hash function。 Hash function 會得到 hash_odd_value, hash_even_value, hash_all_value，以這三個value當作feature丟進 KMeans(K=3) ### 實驗結果 > 紅框為 Hash function 的 Label，右側樹狀圖為 AgglomerativeClustering 結果，藉此比對兩者差異 > ![](https://i.imgur.com/bftySYt.png) Hash funtion整體表現不差，但有可能受到文字長度而影響，Hash 出來的 Value 可能要處理一下。 1. **'hm0000'+流水號** : + AgglomerativeClustering: 皆被分到同一群 + Hash function: 皆被分到同一群 2. **'ssu'+流水號+'ssu'** : + AgglomerativeClustering: 皆被分到同一群 + Hash function: =='ssu'+(0~9)+'ssu'會被分到第3群==，也許是受到長度影響 3. **'asd'+流水號+'asd'** : + AgglomerativeClustering: 皆被分到同一群 + Hash function: 皆被分到同一群 ![](https://i.imgur.com/aAtrkhi.png) ### 下週進度 + KMeans features 調整 (可先改用hash all) + 把流水號跟 nickname 一起跑，分群先分3群 + 分群完後，每一群再用最小距離跑 ###### tags: `Progress Report`