--- title: 2021-08-23 專題討論問題記錄 tags: 討論記錄 disqus: hackmd --- # 2021-08-23 與老師討論 ## 問題: * 本組提案連結 https://hackmd.io/@thenextone/BkItQJ6xt * 自然場景文字檢測與辨識技術概述 https://blog.csdn.net/SIGAI_CSDN/article/details/80858565 * Transform模型概述? * CRNN模型概念?訓練模型Label,X,y要怎麼給? * json資料中有分單個字、多個字連在一起,這樣訓練資料X, y要怎麼給? 要給單個字?還是連在一起的字串當訓練資料? ![](https://i.imgur.com/EGQAHkI.jpg) * AI模型中常用名詞,attention mechanism,是甚麼意思? * 目前OCR模型 : Paddle OCR, Attention OCR? * 水平垂直圖片,input要如何修改? * 似乎有相關模型,是可以把斜的字轉為正的?? https://blog.csdn.net/rabbithui/article/details/78853649 * public 資料中有給csv檔,裡面的資料包含每張影像所需辨識的框選位置,需辨識裡面的中文字,不過因為可能是直的、橫的或是不規則排列,在EasyOCR判斷就會只有橫的辨識比較正確 這樣是否需要變成抓單個字元出來辨識? ![](https://i.imgur.com/IUgX51O.jpg) ## 老師回饋 ### 會議錄影 https://www.youtube.com/watch?v=FfZlCVHDuU4 ### 建議方法 * 第一階段-獲取可用訓練資料集 1. 從train資料集當中萃取訓練文字的影像資料 2. 網路上的中文字典 3. PPT上自行建立 * 第二階段-模型Training 使用YOLO V5,抓到圖片中類似字的位置並辨識文字 * 第三階段-文字語意校正 使用自然語言處理部分,LSTM、RNN?? 正確校正文字的語意 ## 預計工作事項 * 前處理部分 1. load json檔 2. 輸出裁切後的圖片 3. 知道訓練資料中有那些字,才知道label要怎麼給 4. 測試資料中需要裁減的圖片要輸出 5. **YOLO 座標點要經過標準化!!!!!** * YOLO v5模型訓練部分 1. 了解輸入資料檔案格式、資料內容要如何給定? - train.py格式 ![](https://i.imgur.com/qOZ1snL.jpg) 可調整的參數有---data、---cfg、---weights、---batch-size 其中---data是如下的資料(參考[Yolov5Github -Train-Custom-Data](https://github.com/ultralytics/yolov5/wiki/Train-Custom-Data)) ![](https://i.imgur.com/qZYNSmW.png) 可指定路徑、種類數量、各種類名稱 ---cfg ---weights ---batch-size 2. 了解要怎麼給定測試資料?train資料, 座標資料...要放哪個資料夾? - 資料夾格式 ![](https://i.imgur.com/AMQtjky.jpg) - 資料夾內含train圖、val圖、train座標.txt、val座標.txt | images/train | images/val | labels/train | labels/val | | -------- | -------- | -------- | -------- | | ![](https://i.imgur.com/QBH03SH.jpg) | ![](https://i.imgur.com/nqD9Zjv.jpg) | ![](https://i.imgur.com/AoAKXHD.jpg) | ![](https://i.imgur.com/iqBNDN7.jpg) | 3. Data Argument的參數要怎麼設定,參數檔內容各個意義是甚麼? 有提到有些參數可能會影響到圖片反轉,是哪個參數? 4. 輸入圖片大小格式是否有限制? 因為裁出來的圖片,水平垂直大小不一,YOLO是否有限定訓練資料圖片的大小? ## 相關知識 * 車牌辨識兩次YOLO v5找出字位置組別參考 * 如何把斜的圖片轉正 可考慮使用CV的方法 * 如何擴增資料集? 合成圖片? * attention https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html * Transform https://www.coderbridge.com/series/2ec9cf0af3f74ed99371952f4849ae33/posts/5c495ca5e46e40bc98ff623e87919c9a * Paddle OCR https://www.tpisoftware.com/tpu/articleDetails/2430