李文丁

@garyli-wd

Joined on May 18, 2017

  • 前言 技術歷史 Tesseract-OCR在第3版以前用的是傳統的辨識引擎(legacy engine),從第4版開始,Tesseract-OCR引入LSTM這種以深度學習為基礎的辨識引擎(LSTM engine),使得辨識的準確度能進一步獲得提升,因此本指南將針對LSTM訓練相關的知識與技巧進行說明。 模型訓練成本、辨識速度與準確度間的權衡 中文屬於表意文字,因此中文系統中有著數以萬計的中文字用以表意,從模型訓練的角度來看這意味著一件事,若要建構「全中文字通用的OCR辨識模型」,將會有數萬個類別(label值),從手寫數字數據集-MNIST類別與訓練資料的比例為10:60000來看,這表示訓練通用模型至少需要上千萬筆的訓練資料,因此不可能也不需要訓練這樣一個全中文字通用的模型,即便有這樣一個模型,辨識速度也可能因為模型過於龐大而變慢。 實務操作 從實務上來講,官方已有提供相對較通用且準確的辨識模型,只要以該辨識模型做為基礎,接著對模型進行微調(Fine tune)的動作,就能針對特定辨識錯誤的字詞加強訓練,切記,只需對關鍵字進行訓練,訓練過多的冗餘字,只會造成模型肥大效能下降,官方目前已經針對不同應用情境訓練對應的模型,如下表所示:
     Like 3 Bookmark
  • 運行環境 Windows 10 Java Runtime Environment(下載) jTessBoxEditorFX 2.3.1(下載) 預備檔案 欲標記圖片 空的.box檔
     Like  Bookmark
  • 課程規劃 課程架構 課程架構 課程大綱 課程規劃如下 等級 依難易度可再細分成L4、L5、L6三個階段。
     Like  Bookmark
  • # SQL Script Example 本範例預計以學生資料為例,針對資料進行CRUD的操作 ## 第一部分-Create操作 ### 建立一個名為Class_Student的資料表,其中有student_id、student_name、student_age三個欄位。 ```sql CREATE TABLE Class_Student( student_id INT NOT NULL AUTO_INCREMENT, student_name VARCHAR(100) NOT NULL, student_age INT NOT NULL, submission_date DATE, PRIMARY KEY ( student_id ) ); ``` #### 結果: | student_id | student_name | student_age | | -------- | -------- | -------- | | None | None | None | ### 插入三筆學生資料。 ```sql INSERT IN
     Like  Bookmark