---
# System prepended metadata

title: 拼音檢查結果整理
tags: [Progress Report]

---

# 拼音檢查結果整理

### 使用的label表

all_word_labeled_merge_201030.csv，即上週進度整合的label表
包含以下：
- all_word_simple_labeled_change
- 1016審查詞彙列表_labeled

### 檢查的訊息量
- 2019 Aug - Nov
- 總計約13萬筆訊息

### 檢查結果

拼音搜尋後與模型predict結果不同的數量為 156筆

#### 正確 - 114筆
![](https://i.imgur.com/2cH1RmM.png)
![](https://i.imgur.com/ZKcsQun.png)
![](https://i.imgur.com/KbFKdhT.png)
![](https://i.imgur.com/90cr3aF.png)


#### 錯誤 - 42筆
![](https://i.imgur.com/VfKF6tk.png)
![](https://i.imgur.com/sYaXxOU.png)



### 總結
- 成功修正模型的比重很高
- 拼音檢查後有誤的，主要為同音異字與label標錯的
- 可以針對這個拼音搜尋的結果去修正我們的label表
- 簡體繁體與字相同label不同的部分都可以去label表做統一
- 較麻煩的還是同音異字的部分，如下圖
    - ![](https://i.imgur.com/ndrtgDT.png =400x300)
    - 除了這種單一一個字的同音異字比較難偵錯以外，從上面正確的結果還是能看出字多的情況，同音異字抓對的機率還是很大的
- 預計接下來透過拼音找出的label錯誤逐一更新我們的label表，這樣一來除了模型可以train的更優秀，拼音檢查的錯誤率也會相對減少





---
###### tags: `Progress Report`