# Message Predict Label ReadMe ## 環境需求 * numpy * pandas * pytorch * jieba * transformers * tqdm * langid * opencc ## 使用方式 在程式碼中的第 2 格,有五個變數可以自由調整: * `msg_filename`: 要檢視的訊息檔案(需為 csv 檔,但不用打上副檔名) * `msg_folder_path`:訊息檔案存放資料夾路徑 * `save_folder_path`:預測結果存訪資料夾路徑 * `zh_model_path`:中文訊息 textcnn model 路徑 * `en_model_path`英文訊息 textcnn model 路徑 ```python # Path setting msg_filename = '2019_Nov_Data' # please without .csv msg_folder_path = 'message/' save_folder_path = 'message_predict_result/' zh_model_path = 'model/zh_model_201021' en_model_path = 'model/en_model_201021' ``` 在程式碼中的第 15 格,`rule` list 變數,可自行新增需要特別偵測的字詞: ```python rule = ['=', '=', ' 诚信', '上分', '下分', '上下', '收售', '收红', '卖家', '售币', '服务', '芬微', '買幣', '收幣', '收', '价格', 'coin', 'coins','RM', 'pay', 'account', 'sell', 'buy'] ``` 這版的程式碼只檢查中文和英文訊息,若不需要檢查英文訊息,直接將程式碼中的第 19 格(367-449 行)註解掉即可。 這些確認沒問題後,直接執行程式碼即可。 ``` $ python final_version_201021.py ``` ## 結果查看方式 程式完成後會輸出結果存放路徑及檔名: ``` result save at: message_predict_result/2019_Nov_Data_201029_2306.csv ``` ## 輸出結果欄位說明 ![](https://i.imgur.com/JoPoq8o.png) * `Message`:為原來聊天室訊息 * `Language`:由 langid 所判別的訊息語系 * `RuleBase`:自訂的禁詞出現次數統計 * `Account`:偵測到的帳號數量 * `0-6`:六大類單詞次數統計 * `Result`:訊息切詞及預測的詳細結果 * `Ban`:`True` 為需要阻擋的訊息,`False` 為正常的訊息 --- ###### tags: `Progress Report`