2021-08-23 專題討論問題記錄

--- title: 2021-08-23 專題討論問題記錄 tags: 討論記錄 disqus: hackmd --- # 2021-08-23 與老師討論 ## 問題: * 本組提案連結 https://hackmd.io/@thenextone/BkItQJ6xt * 自然場景文字檢測與辨識技術概述 https://blog.csdn.net/SIGAI_CSDN/article/details/80858565 * Transform模型概述? * CRNN模型概念?訓練模型Label，X,y要怎麼給? * json資料中有分單個字、多個字連在一起，這樣訓練資料X, y要怎麼給? 要給單個字?還是連在一起的字串當訓練資料? ![](https://i.imgur.com/EGQAHkI.jpg) * AI模型中常用名詞，attention mechanism，是甚麼意思? * 目前OCR模型 : Paddle OCR, Attention OCR? * 水平垂直圖片，input要如何修改? * 似乎有相關模型，是可以把斜的字轉為正的?? https://blog.csdn.net/rabbithui/article/details/78853649 * public 資料中有給csv檔，裡面的資料包含每張影像所需辨識的框選位置，需辨識裡面的中文字，不過因為可能是直的、橫的或是不規則排列，在EasyOCR判斷就會只有橫的辨識比較正確這樣是否需要變成抓單個字元出來辨識? ![](https://i.imgur.com/IUgX51O.jpg) ## 老師回饋 ### 會議錄影 https://www.youtube.com/watch?v=FfZlCVHDuU4 ### 建議方法 * 第一階段－獲取可用訓練資料集 1. 從train資料集當中萃取訓練文字的影像資料 2. 網路上的中文字典 3. PPT上自行建立 * 第二階段－模型Training 使用YOLO V5，抓到圖片中類似字的位置並辨識文字 * 第三階段－文字語意校正使用自然語言處理部分，LSTM、RNN?? 正確校正文字的語意 ## 預計工作事項 * 前處理部分 1. load json檔 2. 輸出裁切後的圖片 3. 知道訓練資料中有那些字，才知道label要怎麼給 4. 測試資料中需要裁減的圖片要輸出 5. **YOLO 座標點要經過標準化!!!!!** * YOLO v5模型訓練部分 1. 了解輸入資料檔案格式、資料內容要如何給定? - train.py格式 ![](https://i.imgur.com/qOZ1snL.jpg) 可調整的參數有---data、---cfg、---weights、---batch-size 其中---data是如下的資料(參考[Yolov5Github -Train-Custom-Data](https://github.com/ultralytics/yolov5/wiki/Train-Custom-Data)) ![](https://i.imgur.com/qZYNSmW.png) 可指定路徑、種類數量、各種類名稱 ---cfg ---weights ---batch-size 2. 了解要怎麼給定測試資料?train資料, 座標資料...要放哪個資料夾? - 資料夾格式 ![](https://i.imgur.com/AMQtjky.jpg) - 資料夾內含train圖、val圖、train座標.txt、val座標.txt | images/train | images/val | labels/train | labels/val | | -------- | -------- | -------- | -------- | | ![](https://i.imgur.com/QBH03SH.jpg) | ![](https://i.imgur.com/nqD9Zjv.jpg) | ![](https://i.imgur.com/AoAKXHD.jpg) | ![](https://i.imgur.com/iqBNDN7.jpg) | 3. Data Argument的參數要怎麼設定，參數檔內容各個意義是甚麼? 有提到有些參數可能會影響到圖片反轉，是哪個參數? 4. 輸入圖片大小格式是否有限制? 因為裁出來的圖片，水平垂直大小不一，YOLO是否有限定訓練資料圖片的大小? ## 相關知識 * 車牌辨識兩次YOLO v5找出字位置組別參考 * 如何把斜的圖片轉正可考慮使用CV的方法 * 如何擴增資料集? 合成圖片? * attention https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html * Transform https://www.coderbridge.com/series/2ec9cf0af3f74ed99371952f4849ae33/posts/5c495ca5e46e40bc98ff623e87919c9a * Paddle OCR https://www.tpisoftware.com/tpu/articleDetails/2430