# 帳號分析 hash string clustering 201218 --- ## 本週實驗 + 將 Hash function 的 Value 放進 KMeans 比較 ### 實驗方法 建立三種帳號,每種帳號各 50 個,規則如下。 1. 'hm0000'+流水號 2. 'ssu'+流水號+'ssu' 3. 'asd'+流水號+'asd' + (流水號範圍 0~50) 上述150個帳號會被分別丟進 AgglomerativeClustering 與 Hash function。 Hash function 會得到 hash_odd_value, hash_even_value, hash_all_value,以這三個value當作feature丟進 KMeans(K=3) ### 實驗結果 > 紅框為 Hash function 的 Label,右側樹狀圖為 AgglomerativeClustering 結果,藉此比對兩者差異 > ![](https://i.imgur.com/bftySYt.png) Hash funtion整體表現不差,但有可能受到文字長度而影響,Hash 出來的 Value 可能要處理一下。 1. **'hm0000'+流水號** : + AgglomerativeClustering: 皆被分到同一群 + Hash function: 皆被分到同一群 2. **'ssu'+流水號+'ssu'** : + AgglomerativeClustering: 皆被分到同一群 + Hash function: =='ssu'+(0~9)+'ssu'會被分到第3群==,也許是受到長度影響 3. **'asd'+流水號+'asd'** : + AgglomerativeClustering: 皆被分到同一群 + Hash function: 皆被分到同一群 ![](https://i.imgur.com/aAtrkhi.png) ### 下週進度 + KMeans features 調整 (可先改用hash all) + 把流水號跟 nickname 一起跑,分群先分3群 + 分群完後,每一群再用最小距離跑 ###### tags: `Progress Report`