Message Predict Label ReadMe

# Message Predict Label ReadMe ## 環境需求 * numpy * pandas * pytorch * jieba * transformers * tqdm * langid * opencc ## 使用方式在程式碼中的第 2 格，有五個變數可以自由調整： * `msg_filename`: 要檢視的訊息檔案（需為 csv 檔，但不用打上副檔名） * `msg_folder_path`：訊息檔案存放資料夾路徑 * `save_folder_path`：預測結果存訪資料夾路徑 * `zh_model_path`：中文訊息 textcnn model 路徑 * `en_model_path`英文訊息 textcnn model 路徑 ```python # Path setting msg_filename = '2019_Nov_Data' # please without .csv msg_folder_path = 'message/' save_folder_path = 'message_predict_result/' zh_model_path = 'model/zh_model_201021' en_model_path = 'model/en_model_201021' ``` 在程式碼中的第 15 格，`rule` list 變數，可自行新增需要特別偵測的字詞： ```python rule = ['=', '＝', ' 诚信', '上分', '下分', '上下', '收售', '收红', '卖家', '售币', '服务', '芬微', '買幣', '收幣', '收', '价格', 'coin', 'coins','RM', 'pay', 'account', 'sell', 'buy'] ``` 這版的程式碼只檢查中文和英文訊息，若不需要檢查英文訊息，直接將程式碼中的第 19 格（367-449 行）註解掉即可。這些確認沒問題後，直接執行程式碼即可。 ``` $ python final_version_201021.py ``` ## 結果查看方式程式完成後會輸出結果存放路徑及檔名： ``` result save at: message_predict_result/2019_Nov_Data_201029_2306.csv ``` ## 輸出結果欄位說明 ![](https://i.imgur.com/JoPoq8o.png) * `Message`：為原來聊天室訊息 * `Language`：由 langid 所判別的訊息語系 * `RuleBase`：自訂的禁詞出現次數統計 * `Account`：偵測到的帳號數量 * `0-6`：六大類單詞次數統計 * `Result`：訊息切詞及預測的詳細結果 * `Ban`：`True` 為需要阻擋的訊息，`False` 為正常的訊息 --- ###### tags: `Progress Report`