# Week 14: Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition ###### tags: `技術研討` ## Introduction 手寫文字常常受限於不同書寫風格和扭曲 要建立一個robust model需要大量的data sets,其中augmentation是一種low cost方法 本篇論文針對手寫文字提出了一個新的augmentation #### 本篇主要和以往augmentation不同點: 1. 並非針對整張圖片做augmentation 1. training出來的結果會feedback給augmentation來產生更難的training data ![](https://i.imgur.com/RhCGRBx.png) ## Method ### Overall Framework ![](https://i.imgur.com/dcTLzX9.png) ### Text Augmentation 1. 平均切割圖片成N塊,產生2N+1個fiducial points 2. 在半徑R的範圍內移動fiducial points 3. 用Moving Least Squares來拉動圖片 ![](https://i.imgur.com/Lsme6Nf.png) #### affine transformation 仿射變換由一個線性變換加上一個平移量 ![](https://i.imgur.com/xElHazK.png) ![](https://i.imgur.com/aJxhWDx.png) 有以下兩個特性: 1. 任一直線經仿射變換的圖像仍是一直線 2. 直線上各點之間的距離比例維持不變 ![](https://i.imgur.com/IF6R4kx.png) 仿射變換下有兩個子類別: 1. Similarity transformation Requirements: MTM=λ2I 限制X,Y方向做同等縮放,**此為本篇採用的方法** 2. Rigid transformation MTM = I 限制X,Y不縮放 ![](https://i.imgur.com/9TIADCj.png) #### 用Moving Least Squares 每個圖片上的點u會轉換到新座標上 ![](https://i.imgur.com/IxmUw4p.png) p*為原始點的加權中心 q*為移動點的加權中心 ![](https://i.imgur.com/TD7MHPj.png) w權重如下,所以越接近特定起始點的該權重越大 ![](https://i.imgur.com/yWWF00v.png) 並透過最小化以下公式找到每個座標的轉換公式 ![](https://i.imgur.com/E094DAm.png) ### Learnable Agent ![](https://i.imgur.com/lSo4c6v.png) [edit distance傳送門](https://leetcode.com/problems/edit-distance/) Agent network predict moving status 並沒有學習移動的距離 1. 不好收斂 2. 容易overfit把fiducial points移動到最遠的距離 ![](https://i.imgur.com/ZbZJ9q9.png) #### Experiment evaluation metric: word accuracy baseline: 不經過任何augmentation aug: 用本論文方式隨機augmentation ![](https://i.imgur.com/VMEXDCz.png) 具有agent 的loss下降較慢 ![](https://i.imgur.com/wKjDly1.png) 實驗找出最佳N和R的設定 ![](https://i.imgur.com/TJau7MW.png) 對不規則文字的實驗 ![](https://i.imgur.com/NuWcDeN.png) 對手寫文字的實驗 ![](https://i.imgur.com/6QZmkZz.png)