# Message Predict Label ReadMe
## 環境需求
* numpy
* pandas
* pytorch
* jieba
* transformers
* tqdm
* langid
* opencc
## 使用方式
在程式碼中的第 2 格,有五個變數可以自由調整:
* `msg_filename`: 要檢視的訊息檔案(需為 csv 檔,但不用打上副檔名)
* `msg_folder_path`:訊息檔案存放資料夾路徑
* `save_folder_path`:預測結果存訪資料夾路徑
* `zh_model_path`:中文訊息 textcnn model 路徑
* `en_model_path`英文訊息 textcnn model 路徑
```python
# Path setting
msg_filename = '2019_Nov_Data' # please without .csv
msg_folder_path = 'message/'
save_folder_path = 'message_predict_result/'
zh_model_path = 'model/zh_model_201021'
en_model_path = 'model/en_model_201021'
```
在程式碼中的第 15 格,`rule` list 變數,可自行新增需要特別偵測的字詞:
```python
rule = ['=', '=', ' 诚信', '上分', '下分', '上下', '收售', '收红', '卖家', '售币', '服务', '芬微', '買幣', '收幣', '收', '价格', 'coin', 'coins','RM', 'pay', 'account', 'sell', 'buy']
```
這版的程式碼只檢查中文和英文訊息,若不需要檢查英文訊息,直接將程式碼中的第 19 格(367-449 行)註解掉即可。
這些確認沒問題後,直接執行程式碼即可。
```
$ python final_version_201021.py
```
## 結果查看方式
程式完成後會輸出結果存放路徑及檔名:
```
result save at: message_predict_result/2019_Nov_Data_201029_2306.csv
```
## 輸出結果欄位說明

* `Message`:為原來聊天室訊息
* `Language`:由 langid 所判別的訊息語系
* `RuleBase`:自訂的禁詞出現次數統計
* `Account`:偵測到的帳號數量
* `0-6`:六大類單詞次數統計
* `Result`:訊息切詞及預測的詳細結果
* `Ban`:`True` 為需要阻擋的訊息,`False` 為正常的訊息
---
###### tags: `Progress Report`