--- title: 2021-08-28 專題討論問題記錄 tags: 討論記錄 disqus: hackmd --- # 2021-08-28 與老師討論 ## 修正誤解 並非找「招牌中文字」,而是找「場景中文字」 ## 問題 * GPU、TPU差異,為何colab用TPU跑反而比較慢? 已解決,可能是硬體、型號的不同,例如:R7-3700與i5-8400之間的效能差距。 ## 目前實驗 ### (一) 資料中文單字標一樣Label,丟進YOLO v5訓練得到模型。 * 參數設定 目前使用預設 * 成果1 : 丟整張影像預測中文字位置 (信心值 : 0.7)  * 成果2 : 丟裁切後影像(public 給的範圍)預測中文字位置         * 看起來丟裁切後的圖給模型預測成果不太好 可以丟沒裁切的影像給模型預測,記錄有中文字的座標位置。 再看看public Test檔案,要測試的座標範圍內,是否有上述記的的座標位置?藉此判斷測試範圍內有哪些中文字。 所以應該是不用特意裁切影像再丟到模型預測。 * 一些預測錯誤或是預測不出來的圖 (目前成果看起來八成的中文字位置都抓的到) 「一」 : 抓不太到?? 有些字會抓到部首 字太小、太斜、模糊、字顏色與背景太接近,有些會抓不到 有些字長得太奇怪也會抓不到 有些圖案會被誤認為是中文字                  ### (二) 所有中文字標不同label(訓練資料共有2400多個中文字) * 使用train資料原圖,給定字元座標訓練,未增加額外資料集 結果慘烈,可能需要另外給資料集訓練   * 是否因為訓練資料太少,無法達到2400多個label的訓練量,或是圖片大小差異大,導致訓練成果不佳(mAP@.5在0.1以下)? * 若是測試資料中沒有訓練資料集中的字,就會辨識不出來 ### (三) 裁切影像丟進yolo訓練 部分裁切影像大小小於10pixel,YOLO會發Warning 裁切後影像共有12101張,設定512跑,記憶體爆掉 要如何去訂定一個最適圖片大小與batch值 ### Data augmentation 或 超參數調整 目前我們的策略都是先依照預設去訓練,有聽說mosaic有可能影響對'字'的訓練成果, 所以在後來yolo訓練的時候我們mosaic都是關閉的。 想請問針對這種字的訓練,老師對於要做Data augmentation或是超參數的調整有什麼建議嗎? ## 接下來方向 * 每個字標註不同label,持續使用YOLO訓練? * 找出中文字的位置後,另外訓練一個模型(EX : ResNet18?),辨識中文字? * 找出中文字的位置後,用EasyOCR、PaddleOCR辨識? * 是否有相關模型是可以校正文字語意的? EX : input : 午肉麵 => output : 牛肉麵 input : 車專角 => output : 轉角 ## 參考資料 * [自動生成中文字圖檔GitHub](https://github.com/rachellin0105/Single_char_image_generator) 產出圖檔:  * 同樣可產生中文圖檔 https://github.com/Belval/TextRecognitionDataGenerator ## 老師回饋 ### 會議錄影 https://youtu.be/OP8KxJUS8d4 * 針對bbounding boxes 做augmentation https://albumentations.ai/docs/getting_started/bounding_boxes_augmentation/ *
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up