--- title: 2021-08-25 專題討論問題記錄 tags: 討論記錄 disqus: hackmd --- # 2021-08-25 與老師討論 ## 問題: * 討論yolo訓練的資料 * 訓練是否跟生成的字一起 * 訓練兩個模型?還是訓練一個模型就好? 一個 : 辨識場景中文字內容的模型 兩個 : 一、辨識中文字位置模型 二、辨識中文字內容模型 * 訓練YOLO Label.txt檔案,是否需要按照順序遞增? 0,1,2 .... 還是任意給ID即可? 145, 5555, 2222... * 目前看到的YOLO範例,最多給到80種類別(COCO dataSet),如果有一堆類別(EX : 中文字上萬個),YOLO是否能夠能夠訓練? * 是否先訓練,可以找出「場景中文字」位置的YOLO模型,也就是所有場景中文字元Label都標一樣的,該訓練出來的模型可以找出文字的位置。 * 訓練得到找中文字位置的模型後,接下來另外訓練一個模型,可以辨識上一步驟框出來的文字內容是甚麼 EX : 採用YOLO訓練 or ResNet18(說明影片提供範例) 這一步驟的資料集就可以是任意生成的文字圖,不一定要是比賽提供的訓練資料集? ## 老師回饋 ### 會議錄影 https://youtu.be/q5NZpR7zPhA ### 建議方法 * YOLO 模型強大之處為 Object Detection,**Bounding Box不會框整張圖,這樣無意義**。 (理解YOLO強大的地方,是找出圖片中「特定類別」的位置) * Paddle OCR ipynb * 可以嘗試將有文字的區域,先裁減出來,在標示詳細文字位置 (這一塊要做坐標轉換) * 先用現有的訓練集訓練就好,暫時不要考慮擴增訓練集,工程太浩大啦