# 帳號分析 hash string clustering 201228 --- ## 本週實驗 將資料量增至9710筆,透過上週測試方式觀察Kmeans的分群結果,選擇較適合的群心數後,對各群做MED,並觀察時間。 ### 實驗方法 - 原始資料取10000筆,並用正則表示式過濾掉含特殊字元的帳號 - 過濾後剩餘9560筆 - 建立三種帳號,每種帳號各 50 個,總計 150 筆,規則如下。 1. 'hm0000'+流水號 2. 'ssu'+流水號+'ssu' 3. 'asd'+流水號+'asd' - (流水號範圍 0~50) - 將原始資料 9560 筆與流水號帳號串接,共 9710 筆帳號作為 test data - 將過濾後的帳號透過hash function轉成數值,並將此hash value與帳號長度做為Kmeans feature - 用Kmeans做分群並將結果匯出觀察 - 觀察各群數量分布與分群後是否有overfitting的情況 - 初步分群後,將各群再做minimum edit distance matrix - 確認分群後產生MED矩陣所需時間 ### 實驗結果 - 實驗後群心數設10群是此資料量分群結果較佳 #### Kmeans 分群 (10群) - 群分佈  - 十群做MED的時間  - 切成1000筆 單群所需時間  - 原資料含流水號的部分  #### 10群 vs 15群 & 10群 vs 20群 - 20群  - 10群  --- - 15群  - 10群  ## 下週計畫 ###### tags: `Progress Report`
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up