###### tags: `Paper Notes` # GridFeat * 原文:In Defense of Grid Features for Visual Question Answering * 機構:UMass Amherst, Facebook AI Research (FAIR) * 時間:2020 年 ### Introduction * 自從 BUTD [2] 發布以來,VQA 領域逐漸捨棄 grid features,轉用 region features。然而 GridFeat(我自己取的,作者沒有說這個模型叫什麼名字)卻告訴我們使用 grid features 的效能其實可以跟使用 region features 一樣好,甚至更好。堪稱 grid features 的逆襲。 * 為什麼會想研究 grid features?看到 Figure 1 就明白了。根據實驗,少了 region selection、region features 的步驟,VQA 的速度(inference speed)可以快上 40 倍。 <center><img src="https://i.imgur.com/NySQcyd.png" width=450></center> ### Model Architecture * 那麼 GridFeat 提出的 grid features 跟傳統的 grid features 有什麼不一樣呢?如 Figure A 所示,傳統的 grid features 是透過 image classifier 提取的,而 GridFeat 則是使用 object detector 裡的 backbone。 <center><img src="https://i.imgur.com/mlmetJS.png" width=450></center> <center>Figure A:[Original Grid Features] vs [GridFeat]</center> * 這麼做其實蠻合理的,因為 image classifier 只會辨識一張圖片中的東西是什麼,而沒有「物件」的概念。而 VQA 需要的,正是理解物件與物件、物件與問題之間的相互關係。因此 object detector backbone 提取出的 grid features 理應比較好。 * 具體細節如 Figure 2 Left 所示,一開始先用 Visual Genome (VG) [22] 訓練一個 Faster R-CNN(object detector)。然後將 ResNet C~1-5~(backbone )的部分取出來,當作 VQA 模型 image features extractor。 <center><img src="https://i.imgur.com/Gz6g4Et.png" width=700></center> * 此外,作者對 Faster R-CNN 的架構進行了一些修改。如 Figure 2 Right 所示,原本的 Faster R-CNN 是 ResNet C~1-4~ → 14x14 ROI Pooling → ResNet C~5~,但為了讓 backbone 提出更強大的 grid features,作者將 ResNet C~5~ 提前放,並改用 1x1 ROI Pooling + 2 層 Fully Connected Layer (FC)。 * 經過 1x1 ROI Pooling 後的每個 features 都能獨自代表一個 region。雖然這樣做會降低 Faster R-CNN 在 VG 上的效能,卻能為 VQA 帶來提升。如 Table 1 所示(VQA 模型為 Pythia),後面的實驗皆是以 #1 作為 region features (R) 的配置、#4 作為 grid features (G) 的配置、。 <center><img src="https://i.imgur.com/WcCuuEf.png" width=400></center> ### Experiments & Results * 實驗預設配置: * Faster R-CNN: * backbone:ResNet-50, pre-trained on ImageNet * training dataset:VG [22] * 若是使用 region features,則設 N = 100。 * VQA 模型:Pythia * 資料集:VQA v2 * 作者將 GridFeat 應用在不同的 VQA SOTA、不同的 VQA dataset 上。結果如 Table 6 所示,可以看到 R 與 G 的效能相當,但 G 的速度明顯快了好幾倍。 * R 表示使用本文提出的 Faster R-CNN 架構,而非原本的。 <center><img src=https://i.imgur.com/l3btmXv.png" width=700></center> ### References [2] Bottom-up and top-down attention for image captioning and visual question answering. [22] Visual genome: Connecting language and vision using crowdsourced dense image annotations.