第一次提案 - HackMD

--- title: 第一次提案 tags: 專題提案 disqus: hackmd --- # 第一次提案 ## 成員組長 : 黃光群組員 : 詹凱宇、黃子揚、蕭伊珍 ## (1)名稱參加趨勢科技舉辦繁體中文場景文字辨識競賽－進階賽：繁體中文場景文字辨識 https://tbrain.trendmicro.com.tw/Competitions/Details/16 ## (2)動機藉由比賽來完成一次完整的專案豐富履歷且同時提高對AI領域的熟練度與團隊合作的能力。 ## (3)欲實現的主要核心功能(必定包含AI在內) ### 你希望輸入什麼X 得到什麼 Y (X---> AI Model ---> Y) 初步預計分兩階段 1. 先由YOLO v5 訓練模型找出場景中有文字的位置 ![](https://i.imgur.com/bJ4dlfY.jpg) 2. 找出「有文字的區域」後，辨識其中的文字 ![](https://i.imgur.com/kzMBOOp.png) 目前測試方法 : 傳統OCR、Easy OCR **傳統OCR** 成果太爛不好意思放牛肉麵 => 午肉麵 **Easy OCR** 成果 : 若是使用Easy OCR不斜的字體辨識效果不錯 ![](https://i.imgur.com/lPyqjch.png) ## (4)模型訓練流程 (可以描述大致可能的實現方法) ### AI領域是什麼? 1. CNN 使用模型，像是VGG、ResNet、DenseNet、 EfficientNet等，訓練各種不同文字組合 (類似 Mnist) 2. 資料增強(data Augmentation) 使用OpenCV 為基礎的影像資料增強 Python 套件，像是Albumentations，對影像資料做增強 **目前設想到的困難點:** * 場景中文字型種類一堆，如何正確訓練各種不同的字體(EX : 標楷體、新細明體......) * 場景中的字顏色種類一堆，如何正確訓練不同顏色組合的字體? 亦或是直接將影像做灰階或黑白處理? * 字會有斜的、橫的、垂直的、旋轉的...... * 字會是一堆字奇怪組合(EX : 7-11招牌，要先辨識7 or Eleven??) * 某些字連在一起是否會誤判? (步驟辨識步驟成步馬聚) ### 研究資料的素材是什麼? 有中文字標示資料集圖示(如下圖) ![](https://i.imgur.com/pCbS3e7.jpg) json檔內容 ![](https://i.imgur.com/ftFefcl.png) * label：文字內容 * points：框選座標，依序為(左上、右上、右下、左下) * group_id： 0 -> 中文字串 1 -> 中文字元 2 -> 英數字串 3 -> 中英數混和字串 4 -> 中文單字字串 5 -> 其他 (包含非中英數的字串) 255 Don't care -> 模糊不可辨別or整行被切掉 ** 其中1包含在0、3、4之中 * 訓練資料集 4565張圖，以及每張圖對應的json檔 * 測試資料集資料集中給定一張圖上面的座標 coordinates為圖片中需辨識文字的座標組，該座標組為矩形框順時針座標，依序為x0,y0,x1,y1,x2,y2,x3,y3 **注意!!** 圖案部分座標組可能不存在文字，應該是為了驗證資料用的 ![](https://i.imgur.com/jDQVqM0.png) ![](https://i.imgur.com/QNxWqH8.png) ### 資料如何取得? 請對資料描述(資料格式?資料筆數) 比賽官方提供之資料集 4565張圖，以及每張圖對應的json檔 2000張驗證圖資料 ### 模型訓練流程(可以描述大致可能的實現方法) **使用何種的演算法或深度學習模型? 或是基於何種模型的混搭? 此部份可以畫出你的訓練流程圖,到底如何訓練的!** 目前國外應有許多辨識招牌的模型，但多是以辨識英文為主若是拿來使用，是否要重新訓練模型中的參數? ## 參考資料 [競賽說明](https://www.youtube.com/watch?v=1PYIDtbkCeE) [玉山手寫文字比賽經驗參考](https://haosquare.com/tbrain-esun-handwriting-recognition/) [Data Augmentations影像增強](https://haosquare.com/albumentations-keypoints-augmentation/)