帳號分析 Minimum Edit Distance w/ hash string

# 帳號分析 Minimum Edit Distance w/ hash string ## 前情提要 https://hackmd.io/@2020-csf/Bkh7jGEov --- ## 本週實驗 #### 將distance matrix用hierarchical clustering畫出圖形 - 可以稍微看出相連的詞是依據最短距離相連的 ![](https://i.imgur.com/kJfZkk2.png =400x360) - 參雜數字過多的或是字數過長的會和一般的詞分到不同群 ![](https://i.imgur.com/BnvOT2z.png =400x360) #### 嘗試hash nickname - 目的： - 將hash後的分數作為初步分群，以節省MED計算大型矩陣所需的時間 - 作法： - 將過濾後的43881個nickname全部經過hash function處理得到分數 - hash function：將奇數位字元轉換Ascii碼並加總 - 觀察分數的分佈 - 細看相同分數區間的詞相似度是否符合預期 - 結果： - 43881筆資料做hash轉換的時間不到1秒，效率是ok的 - 從分佈與細看的結果不太符合預期 - 分佈 ![](https://i.imgur.com/OZnABK3.png =200x) - 要分得清楚可能得切非常細(預設可能就會分幾十群) - 細看 (分數介在800-900，有的差距不到10，但長得完全不一樣) ![](https://i.imgur.com/xaoNSZM.png =300x) ![](https://i.imgur.com/clBU6sq.png =300x) ![](https://i.imgur.com/aWQjfrQ.png =300x) ![](https://i.imgur.com/xkEyK2W.png =300x) ![](https://i.imgur.com/k33amqN.png =300x) - 原本是估計奇數位字元編碼後如果分數相同或是接近，詞之間應該會很像，但大部分分數接近或相同的還是有差異過大的存在 - 可能的改善方式： - 也許是這種編碼方式不是最適當的，或是編碼後的結果不能用加總，可能要回歸到字串比對或是set比對 ###### tags: `Progress Report`