--- title: 第一次提案 tags: 專題提案 disqus: hackmd --- # 第一次提案 ## 成員 組長 : 黃光群 組員 : 詹凱宇、黃子揚、蕭伊珍 ## (1)名稱 參加趨勢科技舉辦 繁體中文場景文字辨識競賽-進階賽:繁體中文場景文字辨識 https://tbrain.trendmicro.com.tw/Competitions/Details/16 ## (2)動機 藉由比賽來完成一次完整的專案豐富履歷且同時提高對AI領域的熟練度與團隊合作的能力。 ## (3)欲實現的主要核心功能(必定包含AI在內) ### 你希望輸入什麼X 得到什麼 Y (X---> AI Model ---> Y) 初步預計分兩階段 1. 先由YOLO v5 訓練模型找出場景中有文字的位置  2. 找出「有文字的區域」後,辨識其中的文字  目前測試方法 : 傳統OCR、Easy OCR **傳統OCR** 成果太爛不好意思放 牛肉麵 => 午肉麵 **Easy OCR** 成果 : 若是使用Easy OCR不斜的字體辨識效果不錯  ## (4)模型訓練流程 (可以描述大致可能的實現方法) ### AI領域是什麼? 1. CNN 使用模型,像是VGG、ResNet、DenseNet、 EfficientNet等,訓練各種不同文字組合 (類似 Mnist) 2. 資料增強(data Augmentation) 使用OpenCV 為基礎的影像資料增強 Python 套件,像是Albumentations,對影像資料做增強 **目前設想到的困難點:** * 場景中文字型種類一堆,如何正確訓練各種不同的字體(EX : 標楷體、新細明體......) * 場景中的字顏色種類一堆,如何正確訓練不同顏色組合的字體? 亦或是直接將影像做灰階或黑白處理? * 字會有斜的、橫的、垂直的、旋轉的...... * 字會是一堆字奇怪組合(EX : 7-11招牌,要先辨識7 or Eleven??) * 某些字連在一起是否會誤判? (步驟 辨識 步驟 成 步馬聚) ### 研究資料的素材是什麼? 有中文字標示資料集圖示(如下圖)  json檔內容  * label:文字內容 * points:框選座標,依序為(左上、右上、右下、左下) * group_id: 0 -> 中文字串 1 -> 中文字元 2 -> 英數字串 3 -> 中英數混和字串 4 -> 中文單字字串 5 -> 其他 (包含非中英數的字串) 255 Don't care -> 模糊不可辨別or整行被切掉 ** 其中1包含在0、3、4之中 * 訓練資料集 4565張圖,以及每張圖對應的json檔 * 測試資料集 資料集中給定一張圖上面的座標 coordinates為圖片中需辨識文字的座標組,該座標組為矩形框順時針座標,依序為x0,y0,x1,y1,x2,y2,x3,y3 **注意!!** 圖案部分座標組可能不存在文字,應該是為了驗證資料用的   ### 資料如何取得? 請對資料描述(資料格式?資料筆數) 比賽官方提供之資料集 4565張圖,以及每張圖對應的json檔 2000張驗證圖資料 ### 模型訓練流程(可以描述大致可能的實現方法) **使用何種的演算法或深度學習模型? 或是基於何種模型的混搭? 此部份可以畫出你的訓練流程圖,到底如何訓練的!** 目前國外應有許多辨識招牌的模型,但多是以辨識英文為主 若是拿來使用,是否要重新訓練模型中的參數? ## 參考資料 [競賽說明](https://www.youtube.com/watch?v=1PYIDtbkCeE) [玉山手寫文字比賽經驗參考](https://haosquare.com/tbrain-esun-handwriting-recognition/) [Data Augmentations影像增強](https://haosquare.com/albumentations-keypoints-augmentation/)
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up