# 帳號分析 hash string clustering 210121 --- ## 本週實驗 移除手動新增的流水號帳號,將原始資料做相同的實驗,判斷原始資料中含流水號的帳號會不會被分到不同群。 ### 實驗方法 #### 與上週不變步驟 - 原始資料取10000筆,並用正則表示式過濾掉含特殊字元的帳號 - 過濾後剩餘9560筆 - 將原始資料 9560 筆帳號作為 test data - 將過濾後的帳號透過hash function轉成數值,並將此hash value與帳號長度做為Kmeans feature - 用Kmeans做分群並將結果匯出觀察 - 觀察各群數量分布與分群後是否有overfitting的情況 - 初步分群後,將各群再做minimum edit distance matrix - 確認分群後產生MED矩陣所需時間 ### 實驗結果 可證實在原始資料上套用同樣的作法,效果是相同的 #### 分群結果 (K = 200) - [Google sheet](https://docs.google.com/spreadsheets/d/15Ge0xuu45j5PvusTCVyYAyD9gCHDWACNelQNHkgAF5I/edit?usp=sharing)  -  -  -  -  -  ###### tags: `Progress Report`
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up