# Model 優化 ## 時間 ### 原本條件 * Training data: **word_label_data_remove_long_word_210222_add normal name_and_Label.csv**(40910 筆) * Testing data: NicknameLabelCheck.csv(1720筆) * GPU State: cuda * Embedding 維度: 13 #### 各步驟時間 | Step | Time | | -------- | -------- | | Import time | 3.62 (s) | | Embedding (train) | 14 (m) 27.9(s) | | Embedding (test) | 21.2 (s) | | Load .npy time | 2.32 (s) | | Training model | 6 (m) 50 (s) | | Predit time | 0.17 (s) | ### 調整 Embedding 維度 word_label_data_remove_long_word_210222_add normal name_and_Label.csv** (40910 筆) ``` Embedding 實際分布 3 21498 2 10608 4 6769 5 1372 6 344 1 247 7 68 8 2 ``` #### 將 Embedding 維度調整至 8 | Step | Time | | -------- | -------- | | Import time | 3.62 (s) | | Embedding (train) | 10 (m) 55(s) | | Embedding (test) | 24.88 (s) | | Load .npy time | 1.62 (s) | | Training model | 6 (m) 34 (s) | | Predit time | 0.14 (s) | * Embedding (test) 執行時間些微大於 Embedding train 上升 #### Test data (1720 -> 1696 筆) 其他超過的 => RunTimeError ![](https://i.imgur.com/McrJvNd.png) ## Update 2021/03/17 ### Embedding 後維度超過6 ``` Embedding 實際分布 5 1372 6 344 7 68 8 2 ``` #### 將維度 5~8 print 出來: https://docs.google.com/spreadsheets/d/18kqBkiwT5e-3PkWEMeG48Iw-hHrzqE2N_M8q_XnfD1w/edit?usp=sharing ### 分析 無意義的英文字將會刪掉,使 Training data 更乾淨 #### 維度5仍有保存必要 * 4~5個字 * 成語 * 日本人名 ```python= [dim] [word] 5 一国两制 5 一党专制 5 一党专治 5 一党专政 5 人民之声论坛 5 人民内情真相 5 人肉腊肠 5 人间蒸发 5 八九风波 5 八九民运 5 八九学运 5 八九学潮 5 万维读者论坛 5 大纪元新闻网 5 广场上的热血 5 广场上的鲜血 5 氵去车仑 5 中共独裁暴政 5 中华人民正邪 5 中朝翻脸 5 仁吉旺姆 5 六四学运 ``` #### 維度 6 以上可以不加入訓練 * 5~6 個字 * 太長的詞語會被斷字,沒有訓練意義 ```python= [dim] [word] 6 政治局常委内幕 6 两会翻白眼 6 zhouyongkang 6 苦难的行军 6 修改hosts文件 6 令和前31年 6 热站政论网 6 华通时事论坛 6 华岳时事论坛 6 你说我说论坛 6 红太阳的陨落 6 梦萦未名湖 6 宇都宫紫苑 6 桃乃木香奈 6 战地风云4 7 挡不住的风情 7 操你八辈祖宗 7 氵去车仑工力 7 斗士哈夫拉苏 7 牛头不对马嘴 7 可爱古锥气质 7 外遇的好日子 7 吃人不吐骨头 7 有色心没色胆 7 没玩大八万八 7 宝马车撞人案 7 泰奴桥掠夺者 7 苏特勤护卫兵 7 梦幻西游私服 7 矫健的马努尔 7 虚无的饱食者 7 塞北云中鹤1 7 满清禁宫秘史 7 暴躁的马杜克 7 镜花风月春降 7 国语·晋语四 7 信女愿一生吃素 8 F.I.R飞儿乐团 8 一寸山河一寸血 ```