###### tags: `Paper Notes` # AttReg (Attention Regularization) * 原文:Answer Questions with Right Image Regions: A Visual Attention Regularization Approach * 機構:Shandong University, China University of Petroleum * 時間:2021 年 ### Introduction * 讓 VQA 模型擁有良好的視覺基礎(visual grounding)是一件很重要的事。而目前 visual grounding measurement(計算 visual features 對 answer 重要程度)大致可分成兩種:Visual Attention、Grad-CAM。 * Visual Attention:計算 visual features 的 attention weights。越大表示越重要。 * Grad-CAM:計算 ground truth answer probability 對 visual features 的微分值。越大表示越重要。 > 之前讀過的 CSS [7] 就屬於 Grad-CAM。 * 然而,在 AttReg 的實驗中發現雖然 Grad-CAM 的方法符合直覺,卻可能是錯的。 ### Faithfulness * faithfulness 定義:visual grounding measurement 計算出重要的 visual features 是否真的能對 answer 產生重大的影響。 * 如 Table 1 所示,分別只保留 Visual Attention / Grad-CAM 認為最重要的前 N% / 後 N% 的 image regions,剩下的都用零向量蓋住。可以發現到 Grad-CAM 的結果非常的弔詭,後 10% / 後 20% 的正確率竟然比前 10% / 前 20% 的還高。也就是說 Grad-CAM 的 faithfulness 比 Visual Attention 還低。 * 簡單的說就是 Grad-CAM 並不適合用來測量 visual regions 的重要程度。 <center><img src="https://i.imgur.com/jXOfXFq.png" width=650></center> ### AttReg * AttReg(visual Attention Regularization approach)是一個 VQA 模型的訓練方法,步驟如下: * Curated Image Construction: 1. 利用 spaCy POS tagger [14] 對 QA 做詞性標註,並抓出名詞。 2. 計算 object categories、extrated nouns 的 GloVe embedding 的 cosine similarity。 3. 抓出 similarity score 最高的前 $M$ 個物件當作 key objects,$V^*$。$|V^{*}|=M$。 論文中沒提到但我猜應該是 cosine similarity 的平均。 4. 計算每個物件的 attention weights,$\alpha$。 5. 將 $\alpha$ 排行低於前 $N\%$ 的物件視為 ignored objects,$V^o$。 6. $V^* \cap V^o$ 即為 ignored key objects。 7. 將原始圖片 $I$ 中的 ignored key objects 蓋掉,成為 curated image,$I^m$。 * Mask-guided Learning Scheme: * AttReg 在做的,就是同時用 $<Q, I, \hat{A}>,\ <Q, I^{m}, \hat{A^{m}}>$ 做訓練。 * $Q$:input question。 * $I$:input image。 * $\hat{A}$:ground truth answer。 * $I^m$:curated image。 * $\hat{A^{m}}$:$\phi$,也就是零向量。概念:由於 key objects 被忽略了,所以模型理應回答不出來,只能回答 None(零向量)。 * loss function 定義如下: $$ L_{all} = L_{vqa} + \lambda L_{reg} $$ * $L_{vqa}$: $<Q, I, \hat{A}>$ 的 loss。 * $L_{reg}$:$<Q, I^{m}, \hat{A^{m}}>$ 的 loss。 * $\lambda$:用於調節 regularization strength 的超參數。 * $V^*$ 可視為理論上重要的 object,$\alpha$ 可視為模型認為重要的 object 。 ### Experiments * 作者將 AttReg 裝在 UpDn [2]、LMH [7] 上,並用 VQA v2 val、VQA-CP v2 test 評估。實驗結果如 Table 2 所示。跟之前讀過的 CSS [7] 相比,AttReg 在兩個資料集上都贏。 <center><img src="https://i.imgur.com/c28R3IK.png" width=650></center> * $\lambda$(regularization strength)對效能的影響如 Table 5 所示。 <center><img src="https://i.imgur.com/HLPNoVy.png" width=650></center> * $M=|V^{*}|、N$ 對效能的影響如 Figure 4 (a) 所示。 * 資料集:VQA-CP v2。 * 模型:LMH + AttReg。 * Figure 4 (b) 表示模型在訓練的過程中,在每個 epoch 下的 ignored key objects 數量。可以看到,LMH 在第 7 個 epoch 後 ignored key objects 不減反增。加了 AttReg 後則能減緩這個問題,$\lambda$ 越大越能穩定下降。 <center><img src="https://i.imgur.com/yAg9Gku.png" width=650></center> ### References [2] Bottom-up and top-down attention for image captioning and visual question answering. [7] Counterfactual samples synthesizing for robust visual question answering. [9] Don't take the easy way out: Ensemble based methods for avoiding known dataset biases. [14] [spaCy](https://doi.org/10.5281/zenodo.1212303): Industrial-strength Natural Language Processing in Python.
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up