DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 筆記

# DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 筆記 contributed by <`joe-U16`> ``` Xizhou Zhu1∗, Weijie Su2∗†, Lewei Lu1, Bin Li2, Xiaogang Wang1,3, Jifeng Dai1 1SenseTime Research 2University of Science and Technology of China 3The Chinese University of Hong Kong {zhuwalter,luotto,daijifeng}@sensetime.com jackroos@mail.ustc.edu.cn, binli@ustc.edu.cn xgwang@ee.cuhk.edu.hk ``` ## INTRODUCTION DETR 近來提出了新的 object detection 的方法，可以讓省略很多以往 CNN based 需要使用到的 component,e.g.,anchor generation, rule-based training target assignment, non-maximum suppression(NMS) post-processing. * DETR 的問題： 1. 需要更多訓練的 epochs 來聚合成果。大概比 Faster R-CNN 慢 10 倍 2. 在辨識小物件時的效果不好 ![](https://i.imgur.com/JZ4Ov1U.png) --- ![](https://i.imgur.com/GIFgNQq.png) * 主要架構還是 facebook 所提出的 DETR，這篇論文把 ResNet output 改成是 Multi-Scaled feature maps * 丟到 encoder 的是 Multi Scaled feature maps --- 提出的 $Deformable$ $DETR$ 主要在解決訓練聚合很慢以及運算太複雜的問題。 * 預先找出在 feature map 上重要的關鍵 elements features ## Related Work 使用 Transformer 主要有兩個問題，一是很花時間，二是需要大量記憶體（因為 key 的數量很多），以下有三種方法來解決問題。 1. 使用 pre-defined sparse attention patterns on keys ，限制 attention pattern 是一個固定的 local windows ，雖然可以降低複雜度，但會丟失全域訊息; 為了補償，固定 key elements 的間隔來增加 receptive field on keys 2. learn data-dependent sparse attention ， Kitaev et al. (2020) 提出的 locality sensitive hashing(LSH) based attention, which hashes boh the query and key elements to different bins ，也有人用 k-means 找到最多的 related keys. Tay et al. (2020a) learns block permutation for block-wise sparse attetion 3. 找出 low-rank property in self-attention. Wang et al. 減少 key elements 數量透過 linear projection on the size dimension ，而不是 channel dimension ## Method * Transformer 主要問題是會看到所有位置，造成很難聚焦，以及太複雜 * Deformable transformer 可以只關心參考點周圍的 set of reference point ![](https://i.imgur.com/H0xocEh.png) ResNet output feature maps 的細節，可以看到進到 encoder 裡的 feature maps 的 channel 都一樣。 ### Decoder * Decoder 裡面有 cross-attention 和 self-attention * 兩種 attention 的 query 都是 object queries * convolution feature maps is key elements * learned decoder attention 會跟 predicted bounding boxes 有很強的關係，可以加速聚合成果 ## Two-Stage Deformable DETR * 在 first stage 的 output 是 encoder 的 feature map * 在 first stage 會給出 predicted bounding boxes ，最高分的 bounding boxes 會被選為 region proposals ## 反思 * 實驗看到的聚合成果的 epoch 數量減少 10 倍，但並沒有給出訓練時間和參數量？ ###### tags: `mllearning2020`