OCR 的下一步

tags: OCR track

2021/9/29

驗證碼放置區-信賢的 google drive

2021/9/22 討論

  • 下次開會時間: 9/29
  • 下次須完成的進度
    • RPA: 收集好要訓練的驗證資料
    • image segmentation: 確認能不能從描述物件的多點中,找到關鍵的 6 個點做物件校正

2021/9/15 討論

大家的愛帝兒

no Name 主題 人力 時間 說明
1 信賢 驗證碼套件 RPACaptcha 2~3人 1 ~ 2周收集各大網站的驗證碼或是自己生成假資料、1周training看成效 估計假資料要100萬張(先喊先贏?)想要做一個RPA常用的驗證碼辨識套件,至少在驗證集希望有0.95 以上。最後成效不錯的話上到pypi?
2 昱睿 反光偵測模型測試 1 ~ 2 人 收集資料: 1 ~ 1.5 週
模型驗證: 1 ~ 1.5 週
總共約 3 週
想解決影像前處理的問題,希望兼顧 accuracy 高且 inference 快
3 昱睿 auto-augment 實現在 RL 上 2 ~ 3 人 1. 學 RL (2 ~ 3週)
2. 找範例實現 (2 ~ 3 週)
能夠實現的話應該可以解決模型穩定性的問題
4 沛筠 PDF 全文辨識 2~3人 1. 收集資料 (1.5 ~ ?週)
2. 訓練模型 (2 ~ 3週)
3. 驗證 (1 ~ 1.5週)
目標為中英文件皆能辨識,對表格 / 列表內容擷取效果好且穩定
4 昊中 文檔OCR 1~2人 1.蒐集與驗證可用模型(筆電可跑): 1~1.5週
2.文檔影像前處理方法: 2~3週
3.再次驗證: 0.5~1週
找到general的影像前處理方式實現更穩定準確的文檔辨識
5 立晟 image segmentation: milesial/Pytorch-UNet 1~2人 1. 測試 pretrained model (1天)
2. 分不同 dataset 數量 train from scratch (1~2週)
3. 確認要多少 dataset 可以有不錯的成效
4-1. 用 segmentation 的座標校正主要物件 (1~2週)
4-2. 請臨時人力貼標
5. 找一個專案來測試
從顧客拍的影像找出主要物件並校正

結論

  • RPA: 驗證碼 OCR
    • 成員: 信賢、昊中、沛筠
  • CV: image segmentation
    • 成員: 立晟、昱睿
  • 下次討論:列出 2 件案子的時程,來決定下一次報告要報的進度與內容。看起來下次是 10/7 報告

2021/9/8 討論

下次待辦

準備最有興趣的題目,並且估計

  1. 想要達成的成果,如 testing data performance
  2. 需要的人力、時間

大家的 idea

小結論

下一次

下下次

  • Instance Segmentation
    Image Not Showing Possible Reasons
    • The image file may be corrupted
    • The server hosting the image is unavailable
    • The image path is incorrect
    • The image format is not supported
    Learn More →
    • Pointly-Supervised Instance Segmentation (2021, Facebook AI)

下次方向

大家做的功課