# Tesseract-OCR 圖片標記指南 ## 運行環境 * Windows 10 * Java Runtime Environment([下載](https://www.java.com/zh-TW/download/ie_manual.jsp?locale=zh_TW)) * jTessBoxEditorFX 2.3.1([下載](https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/jTessBoxEditorFX-2.3.1.zip/download)) ## 預備檔案 - 欲標記圖片 - 空的`.box`檔 #### [此處](https://drive.google.com/drive/folders/1zf8WBT0qdnYPptypqXuAN07_DFpeAVB0?usp=sharing)下載檔案 ## 目標產出 - 正確標註關鍵字的`.box`檔 ## 標註步驟 ### Step. 1 匯入圖片 打開`jTessBoxEditorFX.jar`程式,點擊`Box Editor`,並且匯入`.tif`圖片 ![](https://i.imgur.com/YfXSpnI.png) ### Step. 2 建立標記框 按下`Insert`可以新增一個標記框 ![](https://i.imgur.com/2MGIyTI.png) ### Step. 3 編輯標記框 在char的欄位快速點兩下可以編輯,至於其餘資訊需按住方向鍵↑↓進行調整,無法直接輸入數值進行編輯,其中X、Y代表的是標記框左上角的位置。 ![](https://i.imgur.com/gYzo8Nq.png) #### 加速方法 如果覺得按方向鍵太慢,也可以直接用文字編輯工具(推薦使用[Sublime text 3](https://www.sublimetext.com/3))直接編輯`.box`檔,但需要注意的事情是`.box`檔內部所記錄的格式與`jTessBoxEditorFX`上所呈現的並不相同。 若以上圖為例,轉換成`.box`文件所儲存的格式,點開`Box Data`標籤如下所示: ![](https://i.imgur.com/XXiNv52.png) 可以看到`.box`文件所使用的座標系是以圖片底部為原點,而`jTessBoxEditorFX`則是以圖片頂部為原點,這點需特別留意,另外,圖中所謂的右下角座標就是左上角的X加上Width與Y加上Height,至於最後的頁數指的是這個字位在tif中的哪張圖片中。 了解上述原理後,如果圖片很長不想一直按著方向鍵浪費時間,也可以直接編輯`.box`檔裡面的數值,就能先快速得到一個差不多的初始點,存檔再接著回到`jTessBoxEditorFX`中用方向鍵微調。 #### 更多功能 ##### 分割標註框(Split) ![](https://i.imgur.com/6WW5l6D.png) ##### 合併標註框(Merge) ![](https://i.imgur.com/l5PKncX.png) ### Step. 4 標記目標 請找到發票中的下列資訊進行標框: * 發票號碼 * 發票日期 * 賣家統編 * 買家統編 * 發票格式 * 小計(銷售額合計...) * 稅額(應稅、營業稅...) * 總計(現金、含稅、總額、應付金額、應收金額...) 舉例: ![](https://i.imgur.com/689JfbF.png) #### 注意事項: 1. 除了電子發票照上圖的位置框,其餘只要看到數字就是全部個別框出來,包含手寫數字,但要注意若字與字之間靠太近有交疊的狀況就不需要框。 2. 遇到中文字原則上就是找上述七個目標的中文字去框,並且需逐個框出每個中文字。 3. 框字的時候要注意,**不要留太多空白,但也不要讓標記框貼字太近吃到字**,下圖為標準示例。 ![](https://i.imgur.com/ZvhYot6.png) 4. 字「不清楚」的界定方式是假設你是第一次看到這個字,你能清楚知道這個字的筆順怎麼寫,因此就要把字框起來。 5. 字「不完整」的界定方式是假設你是第一次看到這個字,過多的空白或殘缺可能導致你無法確定這個字怎麼寫,那麼就不框這個字。 ### Step. 5 存檔上傳 按下`Ctrl`+`S`將檔案存檔後,請更新`.box`檔至[此處](https://drive.google.com/drive/folders/1zf8WBT0qdnYPptypqXuAN07_DFpeAVB0?usp=sharing)。 ###### tags: `發票`