# [2021-12-24] Prof. Po-Chyi Su, National Central University, "Scene Text Detection and Recognition – A Traditional Chinese Scene Text Recognition Competition" 場景文字辨識競賽 文字辨識通常是OCR,紙本資料scan成數位file editable,現在是希望用portable/phone拍照方式,自動化的documentation,另一個是hand written recognition,辨識效果已達極佳,當作device input,可以用軌跡辨認文字內容,困難點在排除複雜背景,偵測手指指尖,另一個應用是車牌辨識,不用去取key,但是情境和環境限定,因此辨識結果好,立一個研究室在不受控場景辨識車牌,而場景文字辨識,提供image ROi中可靠的information,locating text in image,可以做instance translation即時翻譯,或是協助視障者告訴她環境資訊,也可以透過圖片得到方向資訊,達到導航效果 常見做法是先找位置,在進行辨識,現在的方法多為end-to-end,挑戰在於文字多變,有很多種形態,有直有橫,也有遮蔽,環境也很複雜,甚至還有多國語言,DL法的出現,使該product達到可用,dataset也是公開的,方法可比姓提升,另有額外技術如data augmentation,使結果更進一步,希望在leaderboard分數好,且model更simple。過往常用connected component, MSER, SWT, HOG,使用experience, hand crafted feature解任務,可以在非DL環境得到可以的結果。 Dataset有SVHN, MNIST-M以及Yann LeCunn的LeNet approaches,DL使用end-to-end to get feature by learning,自AlexNet開始,Text也可以愈Object Detection的方式去偵測text位置,常用Mask RCNN、YOLO v4等,但是YOLO在斜斜的字上效果較差,而BDN修改label方法,使data可以更flexible,結果更好。 文字與object仍有差異,截成一半仍然是文字,且通常都很常又有歪斜,ancor based會有困難,因此有component based,用字元為單位找文字,也有FCN法,做pixel wise prediction,截取出文字確切位置。也有PixelLink方法,選擇那些pixel要連在一起。也有CTPN法,把RNN的方法納入,回歸長條的上下界線,但效果不佳,但遇到中文字,垂直的字效果不好。也有CRAFT方法,結果還有文字間的heatmap,但沒有release code。也有DRRG,看那些文字應該連在一起,使iou maximize。也有Differential Binarization,為當今SOTA結果,但在字元上效果差。 而Scene Text Recognition,如何interpolation使不規則字串拉直,feature extraction, syntax model(RNN),有CDC/attention方法進行辨識。CDC由speech recognition來,encoder-decoder則來自attention。CRNN,cnn抽特徵,排列,RNN output result,使用CDC loss。也有ASTER/MORAN,使用attention方法,用更小心的方法把彎曲字拉直,也算是SOTA,但是transformer法,字與字之間的關聯性要高才行,中華文字較難辨識。 而benchmark dataset非常重要,impact training quality,也有人工生成的dataset,或train pretrained model,公用資料集的出現使大家可以評比。例如MSRA-TD500,用四點標記;COCO dataset;ICDAR,特別是用智慧眼鏡去拍的;CTW是大陸的dataset,只標中文,品質極高,簡體字為主。因此推出繁中dataset。也有人做合成text到image上的dataset,避免人工標記;也有人做unreal text直接人造3D建模,表現也不差。 常用IoU, precision,recall作為evaluation metric,本競賽用TIoU,希望讓包覆更精準。注意paperwithcode網站,一些相似做法都在上面,作為初步測試。EasyOCR可以辨識80種語言的程式,只能辨識水平,不可訓練;PaddleOCR,水平重直接可訓練。做了裁切式的syntax detection by segmentation approaches, 創意在data labeling上有,有classfication and heatmap branch做labelling,確保每一步都有用,generalize到各大dataset。辨識上花了很大力氣在data augmentation,只辨識中文可以到90%,中英數要用sequence model。有三場比賽,定位、辨識、定位+辨識。Label中英數字串、單字、混合、他國語言、模糊字串等。組別report會公開。 技術:大BATCH, ENSEMBLE, SOTA, multi-model ensemble, 2片V100 ## Note ### The note I write is totally summarized version of speaker with minor my opinion. The citation is described below. ## Citation ### Topic: Scene Text Detection and Recognition – A Traditional Chinese Scene Text Recognition Competition ### Speaker: Prof. Po-Chyi Su