# Tesseract-OCR 圖片標記指南
## 運行環境
* Windows 10
* Java Runtime Environment([下載](https://www.java.com/zh-TW/download/ie_manual.jsp?locale=zh_TW))
* jTessBoxEditorFX 2.3.1([下載](https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/jTessBoxEditorFX-2.3.1.zip/download))
## 預備檔案
- 欲標記圖片
- 空的`.box`檔
#### [此處](https://drive.google.com/drive/folders/1zf8WBT0qdnYPptypqXuAN07_DFpeAVB0?usp=sharing)下載檔案
## 目標產出
- 正確標註關鍵字的`.box`檔
## 標註步驟
### Step. 1 匯入圖片
打開`jTessBoxEditorFX.jar`程式,點擊`Box Editor`,並且匯入`.tif`圖片

### Step. 2 建立標記框
按下`Insert`可以新增一個標記框

### Step. 3 編輯標記框
在char的欄位快速點兩下可以編輯,至於其餘資訊需按住方向鍵↑↓進行調整,無法直接輸入數值進行編輯,其中X、Y代表的是標記框左上角的位置。

#### 加速方法
如果覺得按方向鍵太慢,也可以直接用文字編輯工具(推薦使用[Sublime text 3](https://www.sublimetext.com/3))直接編輯`.box`檔,但需要注意的事情是`.box`檔內部所記錄的格式與`jTessBoxEditorFX`上所呈現的並不相同。
若以上圖為例,轉換成`.box`文件所儲存的格式,點開`Box Data`標籤如下所示:

可以看到`.box`文件所使用的座標系是以圖片底部為原點,而`jTessBoxEditorFX`則是以圖片頂部為原點,這點需特別留意,另外,圖中所謂的右下角座標就是左上角的X加上Width與Y加上Height,至於最後的頁數指的是這個字位在tif中的哪張圖片中。
了解上述原理後,如果圖片很長不想一直按著方向鍵浪費時間,也可以直接編輯`.box`檔裡面的數值,就能先快速得到一個差不多的初始點,存檔再接著回到`jTessBoxEditorFX`中用方向鍵微調。
#### 更多功能
##### 分割標註框(Split)

##### 合併標註框(Merge)

### Step. 4 標記目標
請找到發票中的下列資訊進行標框:
* 發票號碼
* 發票日期
* 賣家統編
* 買家統編
* 發票格式
* 小計(銷售額合計...)
* 稅額(應稅、營業稅...)
* 總計(現金、含稅、總額、應付金額、應收金額...)
舉例:

#### 注意事項:
1. 除了電子發票照上圖的位置框,其餘只要看到數字就是全部個別框出來,包含手寫數字,但要注意若字與字之間靠太近有交疊的狀況就不需要框。
2. 遇到中文字原則上就是找上述七個目標的中文字去框,並且需逐個框出每個中文字。
3. 框字的時候要注意,**不要留太多空白,但也不要讓標記框貼字太近吃到字**,下圖為標準示例。

4. 字「不清楚」的界定方式是假設你是第一次看到這個字,你能清楚知道這個字的筆順怎麼寫,因此就要把字框起來。
5. 字「不完整」的界定方式是假設你是第一次看到這個字,過多的空白或殘缺可能導致你無法確定這個字怎麼寫,那麼就不框這個字。
### Step. 5 存檔上傳
按下`Ctrl`+`S`將檔案存檔後,請更新`.box`檔至[此處](https://drive.google.com/drive/folders/1zf8WBT0qdnYPptypqXuAN07_DFpeAVB0?usp=sharing)。
###### tags: `發票`