技術研討
晟瑋、昊中、沛筠、宜昌、育銓、信賢 + CV Team
前言
網路架構
誤差函數: 想辦法最小化這個值 ()
影像在丟進CRNN前,皆會轉為 32(高) x W(寬) 【在此用 W=200 示意】
如果影像的寬大於 200,會直接變形為 32 x 200
示意圖
範例圖
如果影像的高小於 32,會先等比例放大至高等於 32。接著若影像的寬大於 200,就會將圖截斷;反之,會將影像的寬補足至200 (補黑底)
示意圖
範例圖
姓名 | 問題 | 解答 |
---|---|---|
昊中 | CRNN模型的input data是不是無法直接輸入多行文字影像?得先手動將文字切成一列一列的? | 對,每個 frame 只會預測一個字元,所以實務上沒辦法預測多行文字的影像,要先切好 |
沛筠 | 目前Map-to-Sequence的方式除了Squeeze之外,還有其他的嗎? | 其實是有的,只是在這裡的用法是直接合併然後將資料餵給 RNN,當然也可以在 CNN output 之後做一個矩陣相乘然後再給 RNN ;只是還是要符合某些形狀。e.g. 在我們的例子是 24 x 1 x 512 (tf.Squeeze) 24 x 512 RNN,也可以嘗試這樣 24 x 1 x 512 (tf.matmul) 24 x 1024 RNN |
Track 2 | 1. 論文裡的 Figure 2. 說到 feature sequence 的每一個 vector 都對應到圖片的其中一區的感受視野 (receptive field),好奇為什麼是一個 feature sequence 對應某幾個 columns 而不是全部的圖 (過程中每個 kernel 不都會掃過整個 feature maps 嗎?) 2. 想要再聽一次宜昌版本的 CTC loss 解說,beam search 是什麼? |
1. 詳見附錄1 2. 宜昌老師說請先看這篇: answer(昱睿) |
信賢 | 1.(講者準備的資料)想詢問resize若有補黑底,不會造成訓練不準嗎? 2.(第8頁table 4.)是說CRNN對於真實的圖像反而表現比較好?但清楚的影像反而比較差@@ 不太能理解 |
1. 黑底可以把它想成和白底一樣,都是無意義的背景,所以在萃取feature的時候,黑底的部分就不會是重要資訊 2. paper 中並無針對三種資料的訓練集和測試集多做描述,但若以實務來看,乾淨的樂譜的準確度應該要較高才對 |
軒彤 | 我現場版 | |
倚任副理 | 1. SIFT 的 output 怎麼變成 sequence 餵進 RNN? |
附錄1
補充
CRNN 可以處理任意長度的序列,此外不需要字元分割、scaling 以及 normalization (CRNN中切小圖的CNN的寬是固定的還是會根據整張圖的寬而切大小的小圖?)
scaling (min-max scaling) (詳細說明)
normalizationl (符合常態分布)