# 帳號分析 hash string clustering ## 前情提要 https://hackmd.io/@2020-csf/B1JdozNiP --- ## 本週實驗 #### 實驗三種hash function - 目的: - 觀察三種hash function 分類差異,並觀察分群結果有沒有很像的詞被分到不同群 - 作法: - 為觀察結果便利,僅使用過濾後的150筆nickname - 將三種hash function算出來的編碼總和做分群 - 目前是分三群較容易觀察 - 建dataframe觀察結果 - Hash function: - 奇數位轉換編碼後加總 hash_odd - 偶數位轉換編碼後加總 hash_even - 所有位元轉換編碼後加總 hash_all - 觀察結果: - 大部分的詞三種hash的結果為同群 ![](https://i.imgur.com/oEc8YGB.png =350x500) - 較直觀的相似詞透過此方式初步分群,不會有相似卻分到不同群的結果 ![](https://i.imgur.com/K2rkPZX.png =350x) ![](https://i.imgur.com/Sw5uwjB.png =350x) ![](https://i.imgur.com/pjNTgr8.png =350x) - 後續可做: - 若要採用hash function作為初步分群的方式,可以依據三種function的分群結果,取最多的label作為該詞的group,也可以只取hash_all的結果分群 - 再將分群結果做MED,預期能減少大量的資料同時在MED運算的負荷 ###### tags: `Progress Report`