# 拼音檢查結果整理 ### 使用的label表 all_word_labeled_merge_201030.csv,即上週進度整合的label表 包含以下: - all_word_simple_labeled_change - 1016審查詞彙列表_labeled ### 檢查的訊息量 - 2019 Aug - Nov - 總計約13萬筆訊息 ### 檢查結果 拼音搜尋後與模型predict結果不同的數量為 156筆 #### 正確 - 114筆 ![](https://i.imgur.com/2cH1RmM.png) ![](https://i.imgur.com/ZKcsQun.png) ![](https://i.imgur.com/KbFKdhT.png) ![](https://i.imgur.com/90cr3aF.png) #### 錯誤 - 42筆 ![](https://i.imgur.com/VfKF6tk.png) ![](https://i.imgur.com/sYaXxOU.png) ### 總結 - 成功修正模型的比重很高 - 拼音檢查後有誤的,主要為同音異字與label標錯的 - 可以針對這個拼音搜尋的結果去修正我們的label表 - 簡體繁體與字相同label不同的部分都可以去label表做統一 - 較麻煩的還是同音異字的部分,如下圖 - ![](https://i.imgur.com/ndrtgDT.png =400x300) - 除了這種單一一個字的同音異字比較難偵錯以外,從上面正確的結果還是能看出字多的情況,同音異字抓對的機率還是很大的 - 預計接下來透過拼音找出的label錯誤逐一更新我們的label表,這樣一來除了模型可以train的更優秀,拼音檢查的錯誤率也會相對減少 --- ###### tags: `Progress Report`