# 帳號分析 hash string clustering ## 前情提要 https://hackmd.io/@2020-csf/B1JdozNiP --- ## 本週實驗 #### 實驗三種hash function - 目的: - 觀察三種hash function 分類差異,並觀察分群結果有沒有很像的詞被分到不同群 - 作法: - 為觀察結果便利,僅使用過濾後的150筆nickname - 將三種hash function算出來的編碼總和做分群 - 目前是分三群較容易觀察 - 建dataframe觀察結果 - Hash function: - 奇數位轉換編碼後加總 hash_odd - 偶數位轉換編碼後加總 hash_even - 所有位元轉換編碼後加總 hash_all - 觀察結果: - 大部分的詞三種hash的結果為同群  - 較直觀的相似詞透過此方式初步分群,不會有相似卻分到不同群的結果    - 後續可做: - 若要採用hash function作為初步分群的方式,可以依據三種function的分群結果,取最多的label作為該詞的group,也可以只取hash_all的結果分群 - 再將分群結果做MED,預期能減少大量的資料同時在MED運算的負荷 ###### tags: `Progress Report`
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up