2021-08-28 專題討論問題記錄

--- title: 2021-08-28 專題討論問題記錄 tags: 討論記錄 disqus: hackmd --- # 2021-08-28 與老師討論 ## 修正誤解並非找「招牌中文字」，而是找「場景中文字」 ## 問題 * GPU、TPU差異，為何colab用TPU跑反而比較慢? 已解決，可能是硬體、型號的不同，例如:R7-3700與i5-8400之間的效能差距。 ## 目前實驗 ### (一) 資料中文單字標一樣Label，丟進YOLO v5訓練得到模型。 * 參數設定目前使用預設 * 成果1 : 丟整張影像預測中文字位置 (信心值 : 0.7) ![](https://i.imgur.com/4mDKthH.jpg) * 成果2 : 丟裁切後影像(public 給的範圍)預測中文字位置 ![](https://i.imgur.com/1wWQ4Qa.jpg) ![](https://i.imgur.com/YDa4Kep.jpg) ![](https://i.imgur.com/Ave1W8K.jpg) ![](https://i.imgur.com/hfIl19p.jpg) ![](https://i.imgur.com/rHfxJvx.jpg) ![](https://i.imgur.com/vAXQJlH.jpg) ![](https://i.imgur.com/rbFUQN6.jpg) ![](https://i.imgur.com/ei4K4X4.jpg) * 看起來丟裁切後的圖給模型預測成果不太好可以丟沒裁切的影像給模型預測，記錄有中文字的座標位置。再看看public Test檔案，要測試的座標範圍內，是否有上述記的的座標位置?藉此判斷測試範圍內有哪些中文字。所以應該是不用特意裁切影像再丟到模型預測。 * 一些預測錯誤或是預測不出來的圖 (目前成果看起來八成的中文字位置都抓的到) 「一」 : 抓不太到?? 有些字會抓到部首字太小、太斜、模糊、字顏色與背景太接近，有些會抓不到有些字長得太奇怪也會抓不到有些圖案會被誤認為是中文字 ![](https://i.imgur.com/87hICjG.jpg) ![](https://i.imgur.com/rnmYbH0.jpg) ![](https://i.imgur.com/aYBsIyX.jpg) ![](https://i.imgur.com/rwRKdPZ.jpg) ![](https://i.imgur.com/07hWI6W.jpg) ![](https://i.imgur.com/ubXAHPd.jpg) ![](https://i.imgur.com/bgYd64B.jpg) ![](https://i.imgur.com/8jyVjYS.jpg) ![](https://i.imgur.com/xAd5S3p.jpg) ![](https://i.imgur.com/P7fWEg5.jpg) ![](https://i.imgur.com/w9Jc1OI.jpg) ![](https://i.imgur.com/HHWRCno.jpg) ![](https://i.imgur.com/7i64jRL.jpg) ![](https://i.imgur.com/Nztamg6.jpg) ![](https://i.imgur.com/rYpJGA8.jpg) ![](https://i.imgur.com/iGZpTL3.jpg) ![](https://i.imgur.com/Nhd34sm.jpg) ### (二) 所有中文字標不同label(訓練資料共有2400多個中文字) * 使用train資料原圖，給定字元座標訓練，未增加額外資料集結果慘烈，可能需要另外給資料集訓練 ![](https://i.imgur.com/vTcpv23.png) ![](https://i.imgur.com/sR8d7hy.png) * 是否因為訓練資料太少，無法達到2400多個label的訓練量，或是圖片大小差異大，導致訓練成果不佳(mAP@.5在0.1以下)？ * 若是測試資料中沒有訓練資料集中的字，就會辨識不出來 ### (三) 裁切影像丟進yolo訓練部分裁切影像大小小於10pixel，YOLO會發Warning 裁切後影像共有12101張，設定512跑，記憶體爆掉要如何去訂定一個最適圖片大小與batch值 ### Data augmentation 或超參數調整目前我們的策略都是先依照預設去訓練，有聽說mosaic有可能影響對'字'的訓練成果，所以在後來yolo訓練的時候我們mosaic都是關閉的。想請問針對這種字的訓練，老師對於要做Data augmentation或是超參數的調整有什麼建議嗎？ ## 接下來方向 * 每個字標註不同label，持續使用YOLO訓練? * 找出中文字的位置後，另外訓練一個模型(EX : ResNet18?)，辨識中文字? * 找出中文字的位置後，用EasyOCR、PaddleOCR辨識? * 是否有相關模型是可以校正文字語意的? EX : input : 午肉麵 => output : 牛肉麵 input : 車專角 => output : 轉角 ## 參考資料 * [自動生成中文字圖檔GitHub](https://github.com/rachellin0105/Single_char_image_generator) 產出圖檔: ![](https://i.imgur.com/4hAluos.jpg) * 同樣可產生中文圖檔 https://github.com/Belval/TextRecognitionDataGenerator ## 老師回饋 ### 會議錄影 https://youtu.be/OP8KxJUS8d4 * 針對bbounding boxes 做augmentation https://albumentations.ai/docs/getting_started/bounding_boxes_augmentation/ *