Update 2021.06.13
new model
- model:
text_cnn_best_99.93606557377049_LR0.001_BATCH100_EPOCH100
- Train data:
new word dataset_add label_normal name_default_Ground truth_Corrected_prohibit_fixed_0611_remove long word.csv
result
類別 |
筆數 |
new model |
Old model |
涉政 |
1736 |
0.960 |
0.942 |
辱罵 |
299 |
0.903 |
0.903 |
違禁 |
1181 |
0.980 |
0.959 |
色情 |
415 |
0.918 |
0.884 |
廣告 |
5786 |
0.997 |
0.997 |
小幅上升原因
- 新 model 修正
- rule base 不區分(之前可能把
逼
操
之類的詞在 2 or 4 預測錯誤)
nomal article_jieba
- file: nomal article_jieba.csv
- 組成: 數篇報導給 jieba 切詞(使用自訂字典)
result
https://docs.google.com/spreadsheets/d/1BvfvIo3h3BwOWMN7_sxTNujYIBJsFo11D_4-AkoxLX8/edit?usp=sharing
Analysis
- model predict 比數美嚴
- 數美標違規 ; Model 判正常的很少(三個)
日:2
周舵:1
武汉肺炎:1
- 整句正常但含有違規詞 ex:
('台湾', 1), ('境内', 0)
('独立', 1), ('门户', 0)
Example
數美:違規 ; Model: 正常
日:2
周舵:1
武汉肺炎:1
數美:正常 ; Model: 違規
[('中国', 1)]
[('中央', 1)]
[('两国', 1)]
[('北京', 1)]
[('台湾', 1)]
[('和谐', 1)]
[('国家', 1)]
[('坦克', 1)]
[('封锁', 1)]
[('改革', 1)]
[('政府', 1)]
[('政治', 1)]
[('日本', 1)]
[('民主', 1)]
[('民意', 1)]
[('独立', 1)]
[('当局', 1)]
[('绝食', 1)]
[('总统', 1)]
[('肃杀', 1)]
[('自由', 1)]
[('军方', 1)]
[('镇压', 1)]
[('关枪', 1)]
[('香港', 1)]
[('陈建仁', 1)]
[('法西斯', 1)]
[('斗争', 1)]
[('乱射', 4)]
[('交易', 5)]
[('代价', 3)]
[('供货', 5)]
[('充分', 5)]
[('出售', 5)]
[('出卖', 5)]
[('啪啪', 4)]
[('子弹', 3)]
[('枪口', 3)]
[('枪声', 3)]
[('机枪', 3)]
[('武器', 3)]
[('病毒', 3)]
[('赌注', 3)]
[('开枪', 3)]
[('机枪', 3), ('声', 0)]
[('杀人狂', 3)]
[('监控', 3)]
[('空', 0), ('鸣枪', 3)]
數美:正常 ; Model: 違規 (Model 太嚴)