GridFeat - HackMD

###### tags: `Paper Notes` # GridFeat * 原文：In Defense of Grid Features for Visual Question Answering * 機構：UMass Amherst, Facebook AI Research (FAIR) * 時間：2020 年 ### Introduction * 自從 BUTD [2] 發布以來，VQA 領域逐漸捨棄 grid features，轉用 region features。然而 GridFeat（我自己取的，作者沒有說這個模型叫什麼名字）卻告訴我們使用 grid features 的效能其實可以跟使用 region features 一樣好，甚至更好。堪稱 grid features 的逆襲。 * 為什麼會想研究 grid features？看到 Figure 1 就明白了。根據實驗，少了 region selection、region features 的步驟，VQA 的速度（inference speed）可以快上 40 倍。 <center><img src="https://i.imgur.com/NySQcyd.png" width=450></center> ### Model Architecture * 那麼 GridFeat 提出的 grid features 跟傳統的 grid features 有什麼不一樣呢？如 Figure A 所示，傳統的 grid features 是透過 image classifier 提取的，而 GridFeat 則是使用 object detector 裡的 backbone。 <center><img src="https://i.imgur.com/mlmetJS.png" width=450></center> <center>Figure A：[Original Grid Features] vs [GridFeat]</center> * 這麼做其實蠻合理的，因為 image classifier 只會辨識一張圖片中的東西是什麼，而沒有「物件」的概念。而 VQA 需要的，正是理解物件與物件、物件與問題之間的相互關係。因此 object detector backbone 提取出的 grid features 理應比較好。 * 具體細節如 Figure 2 Left 所示，一開始先用 Visual Genome (VG) [22] 訓練一個 Faster R-CNN（object detector）。然後將 ResNet C~1-5~（backbone ）的部分取出來，當作 VQA 模型 image features extractor。 <center><img src="https://i.imgur.com/Gz6g4Et.png" width=700></center> * 此外，作者對 Faster R-CNN 的架構進行了一些修改。如 Figure 2 Right 所示，原本的 Faster R-CNN 是 ResNet C~1-4~ → 14x14 ROI Pooling → ResNet C~5~，但為了讓 backbone 提出更強大的 grid features，作者將 ResNet C~5~ 提前放，並改用 1x1 ROI Pooling + 2 層 Fully Connected Layer (FC)。 * 經過 1x1 ROI Pooling 後的每個 features 都能獨自代表一個 region。雖然這樣做會降低 Faster R-CNN 在 VG 上的效能，卻能為 VQA 帶來提升。如 Table 1 所示（VQA 模型為 Pythia），後面的實驗皆是以 #1 作為 region features (R) 的配置、#4 作為 grid features (G) 的配置、。 <center><img src="https://i.imgur.com/WcCuuEf.png" width=400></center> ### Experiments & Results * 實驗預設配置： * Faster R-CNN： * backbone：ResNet-50, pre-trained on ImageNet * training dataset：VG [22] * 若是使用 region features，則設 N = 100。 * VQA 模型：Pythia * 資料集：VQA v2 * 作者將 GridFeat 應用在不同的 VQA SOTA、不同的 VQA dataset 上。結果如 Table 6 所示，可以看到 R 與 G 的效能相當，但 G 的速度明顯快了好幾倍。 * R 表示使用本文提出的 Faster R-CNN 架構，而非原本的。 <center><img src=https://i.imgur.com/l3btmXv.png" width=700></center> ### References [2] Bottom-up and top-down attention for image captioning and visual question answering. [22] Visual genome: Connecting language and vision using crowdsourced dense image annotations.