# Week 14: Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition ###### tags: `技術研討` ## Introduction 手寫文字常常受限於不同書寫風格和扭曲 要建立一個robust model需要大量的data sets,其中augmentation是一種low cost方法 本篇論文針對手寫文字提出了一個新的augmentation #### 本篇主要和以往augmentation不同點: 1. 並非針對整張圖片做augmentation 1. training出來的結果會feedback給augmentation來產生更難的training data  ## Method ### Overall Framework  ### Text Augmentation 1. 平均切割圖片成N塊,產生2N+1個fiducial points 2. 在半徑R的範圍內移動fiducial points 3. 用Moving Least Squares來拉動圖片  #### affine transformation 仿射變換由一個線性變換加上一個平移量   有以下兩個特性: 1. 任一直線經仿射變換的圖像仍是一直線 2. 直線上各點之間的距離比例維持不變  仿射變換下有兩個子類別: 1. Similarity transformation Requirements: MTM=λ2I 限制X,Y方向做同等縮放,**此為本篇採用的方法** 2. Rigid transformation MTM = I 限制X,Y不縮放  #### 用Moving Least Squares 每個圖片上的點u會轉換到新座標上  p*為原始點的加權中心 q*為移動點的加權中心  w權重如下,所以越接近特定起始點的該權重越大  並透過最小化以下公式找到每個座標的轉換公式  ### Learnable Agent  [edit distance傳送門](https://leetcode.com/problems/edit-distance/) Agent network predict moving status 並沒有學習移動的距離 1. 不好收斂 2. 容易overfit把fiducial points移動到最遠的距離  #### Experiment evaluation metric: word accuracy baseline: 不經過任何augmentation aug: 用本論文方式隨機augmentation  具有agent 的loss下降較慢  實驗找出最佳N和R的設定  對不規則文字的實驗  對手寫文字的實驗 
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up