--- title: 2021-09-08 專題討論問題記錄 tags: 討論記錄 disqus: hackmd --- # 2021-09-08 與老師討論 ## 目前實驗 * 訓練資料擴增,加入不同字型、不同背景、以及還有邊框的字體 ![](https://i.imgur.com/MH27UyG.png) ### 實驗一 : 50個字 * 每個字有500筆資料 * 18種招牌較常見的不同字體font(含邊框字體) * YOLO參數: Epochs : 50 ![](https://i.imgur.com/1Pp1n0i.png) 旋轉角度30、偏移0.1、縮放0.2、馬賽克 &Mixup &翻轉 &剪切關閉 * 預測成果 : ![](https://i.imgur.com/nlySvBj.png) 1_1 髮型工作室 1_2 黛 2_1 真早 3_1 田庄熬 4_1 4_2 臻 5_1 珍契樓 6_1 6_2 便專賣店 7_1 8_1 柒喫黛 9_1 彩黛 10_1 早 11_1 嘉里大 ### 實驗二 : 500字 * 每個字有500筆資料 * 30多種不同字體font(不含邊框字體) * 成果 : 模型訓練過久,超過24小時會被踢出,目前觀察最多就訓練500多字 ### 實驗三 : 做一些影像處理後做預測,看看預測成果是否會較準確 使用closing去除一些雜點干擾 ![](https://i.imgur.com/L5NOhuI.png) 問題 : 實際場景的外在干擾百百種,較難找到適用所有影像的處理方法 ![](https://i.imgur.com/IEqptGI.png) ### 已知問題 已經將YOLOv5預測結果改成儲存中文辨識成果,但因為只有輸出有辨識出來的字,可能會導致順序錯誤 ### 成績計算方式考量輸出成果 * 範例1 正確答案 : 髮型工作室 辨識答案 : 髮型工 缺字成果會沒分數 * 範例2 正確答案 : 髮型工作室 辨識答案 : 室作工型髮 順序錯誤也會沒分數 該問題目前已處理,按照框框位置排序輸出成果 * 範例3 (已解決) 正確答案 : 1. 髮型工作室 2. 真敖早 3. 田庄豆花 辨識答案 : 1. 髮型工作室 2. 庄豆花 如果圖片未辨識出來文字,會直接沒輸出,導致對應輸出結果順序錯誤 另外像 田庄豆花 辨識出 庄豆花,實際是辨識出三個對的,但是少一個字,上傳答案會錯 ![](https://i.imgur.com/Ii77Uwd.png) ## 預計方向 因為上述問題(輸出字數錯誤) * 先使用Train好的**找字體位置的模型**,找出要預測的位置有多少字、有沒有字。 * 確定有字後,在使用字體辨識模型,辨識其中的文字內容。 ![](https://i.imgur.com/jUWJnlg.png) ## 老師建議回饋 ### 會議錄影 https://youtu.be/K_LczFVNOqQ * YOLO候選框框如何訂? * shear、perspective、mixup 可以打開試試看 [Shear 原理](https://blog.paperspace.com/data-augmentation-for-object-detection-rotation-and-shearing/) [Perspective 1 原理](https://blog.csdn.net/ZHUYOUKANG/article/details/114481142?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163107981916780366519428%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=163107981916780366519428&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~baidu_landing_v2~default-2-114481142.pc_search_result_control_group&utm_term=yolov5+%E9%80%8F%E8%A7%86%E5%8F%98%E6%8D%A2&spm=1018.2226.3001.4187) [Perspective 2 原理](https://cg2010studio.com/2013/03/22/opencv-%E9%80%8F%E8%A6%96%E8%AE%8A%E6%8F%9B-perspective-transform/) * 信心值可以小一點 * NMS 重複的框框合併 (iou_thres、agnostic-nms) * 字體用選好的就夠了 * 先訓練少一點字(300、100),方向先讓模型辨識效果更好為主。