# 研究內容 ###### tags: `OCR track` - 發展歷史 - 1931 ~ 1954: 破解摩斯密碼,這項服務是被一位發明家 David Hammond Shepard 發明,為 Intelligent Machines Research Corporation 的產品 - 1954 ~ 1974: Optacon 這間公司製造了可攜帶式的 OCR 裝置(沒有查到他詳細的功能) - 現在 (2021): Google 已經製造出 server 版 OCR API,而且準度超爆高! - 教材 - CRNN 教材 - CRNN + CTC 理論基礎 - 原文 paper - [An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition](https://arxiv.org/pdf/1507.05717.pdf) (優先) - 中文翻譯懶人包 (優先) - https://www.itread01.com/content/1543061244.html - CRNN + CTC 參考程式碼 - http://mc.eistar.net/~xbai/CRNN/crnn_code.zip - [Belval/CRNN](https://github.com/Belval/CRNN) (優先) - [GitYCC/crnn-pytorch](https://github.com/GitYCC/crnn-pytorch) - CTC 原始論文 - [Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks](https://www.cs.toronto.edu/~graves/icml_2006.pdf) - 其他輔助教材 - YC 的網站 - [link](https://www.ycc.idv.tw/crnn-ctc.html) - 知乎說CRNN - [link](https://zhuanlan.zhihu.com/p/43534801) - Text Detection - other papers - CRAFT - [code] [clovaai/CRAFT-pytorch](https://github.com/clovaai/CRAFT-pytorch) - [paper] [Character Region Awareness for Text Detection](https://arxiv.org/abs/1904.01941) - Attention - 參考程式碼 - [code] [zhang0jhon/AttentionOCR](https://github.com/zhang0jhon/AttentionOCR) - 理論說明 - [Paper] 其實就是上面的那 github 的文件,但是他說是 techinal report,不知道跟 paper 的差異是什麼: [A Feasible Framework for Arbitrary-Shaped Scene Text Recognition](https://arxiv.org/pdf/1912.04561.pdf) - [Paper] [Show, Attend and Tell: Neural Image Caption Generation with Visual Attention](https://arxiv.org/pdf/1502.03044.pdf) - [Papaer] [NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE](https://arxiv.org/pdf/1409.0473.pdf) $\to$ 好像是想法發跡的關鍵論文 - [PPT] [Attention Mechanism](https://github.com/zhang0jhon/AttentionOCR/blob/master/reference/Attention_Mechanism_in_Deep_Learning.pdf) - [Files] pre-trained model weights, provided by tensorflow: [tensorflow github](https://github.com/tensorflow/models/tree/master/research/slim) - [blog] [深度學習中Attention Mechanism詳細介紹:原理、分類及應用](https://www.itread01.com/content/1548179294.html) - [blog] 來自 AIA 的分享 [Attention Mechanism](https://medium.com/ai-academy-taiwan/attention-mechanism-fad735db3c2c) - Data Augmentation - 參考程式碼 - [TextRecognitionDataGenerator](https://github.com/Belval/TextRecognitionDataGenerator) - Pytorch 教學 - https://clay-atlas.com/blog/2019/08/02/pytorch-教學(一)-從-tensor-設定開始/ - https://github.com/bharathgs/Awesome-pytorch-list - tensorflow 教學 - - OCR track 怎麼做 - 很清楚了解 OCR 網路架構 - CRNN + CTC - CRNN + Attention - 同步了解程式碼怎麼呈現網路架構,要懂 tensorflow, pytorch 的指令 - 學會調整網路架構,有理論根據的實驗調整後的模型 - 網路架構微調 - 資料擴增 - loss function - 近期研究內容 | 週次 | <center>主題</center> | 負責組別 | 日期 | |:---------: |:------------------------------- |:--------:|:----:| | Week 1 |CRNN + CTC <br/> 1. 3/4 瀏覽完 paper + code<br/>2. 確定會到報 paper,程式碼會講多少,看當時的進度<br/>3. 網路架構的修改教學,可能會是下一次| <font color='red'>**track A**</font> | 3/11 | | Week 2 | | track B | 3/18 | | Week 3 | | track C | 3/25 | | Week 4 |Text Detection<br/>1. 先了解論文內容 <br/>2. 行有餘力再 train|<font color='red'>**track A**</font>| 4/1 | | Week 5 | | track B | 4/8 | | Week 6 |Attention<br/>用 tensorflow, pytorch 解識模型,並且解釋兩個套件之間的轉換|<font color='red'>**track A**</font>| 4/15 | 1. 123 2. 213 * 123 1. 123 2. 213 3.