# 帳號分析 Minimum Edit Distance w/ hash string ## 前情提要 https://hackmd.io/@2020-csf/Bkh7jGEov --- ## 本週實驗 #### 將distance matrix用hierarchical clustering畫出圖形 - 可以稍微看出相連的詞是依據最短距離相連的  - 參雜數字過多的或是字數過長的會和一般的詞分到不同群  #### 嘗試hash nickname - 目的: - 將hash後的分數作為初步分群,以節省MED計算大型矩陣所需的時間 - 作法: - 將過濾後的43881個nickname全部經過hash function處理得到分數 - hash function:將奇數位字元轉換Ascii碼並加總 - 觀察分數的分佈 - 細看相同分數區間的詞相似度是否符合預期 - 結果: - 43881筆資料做hash轉換的時間不到1秒,效率是ok的 - 從分佈與細看的結果不太符合預期 - 分佈  - 要分得清楚可能得切非常細(預設可能就會分幾十群) - 細看 (分數介在800-900,有的差距不到10,但長得完全不一樣)      - 原本是估計奇數位字元編碼後如果分數相同或是接近,詞之間應該會很像,但大部分分數接近或相同的還是有差異過大的存在 - 可能的改善方式: - 也許是這種編碼方式不是最適當的,或是編碼後的結果不能用加總,可能要回歸到字串比對或是set比對 ###### tags: `Progress Report`
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up