# DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 筆記
contributed by <`joe-U16`>
```
Xizhou Zhu1∗, Weijie Su2∗†, Lewei Lu1, Bin Li2, Xiaogang Wang1,3, Jifeng Dai1 1SenseTime Research
2University of Science and Technology of China
3The Chinese University of Hong Kong {zhuwalter,luotto,daijifeng}@sensetime.com jackroos@mail.ustc.edu.cn, binli@ustc.edu.cn xgwang@ee.cuhk.edu.hk
```
## INTRODUCTION
DETR 近來提出了新的 object detection 的方法,可以讓省略很多以往 CNN based 需要使用到的 component,e.g.,anchor generation, rule-based training target assignment, non-maximum suppression(NMS) post-processing.
* DETR 的問題:
1. 需要更多訓練的 epochs 來聚合成果。大概比 Faster R-CNN 慢 10 倍
2. 在辨識小物件時的效果不好

---

* 主要架構還是 facebook 所提出的 DETR,這篇論文把 ResNet output 改成是 Multi-Scaled feature maps
* 丟到 encoder 的是 Multi Scaled feature maps
---
提出的 $Deformable$ $DETR$ 主要在解決訓練聚合很慢以及運算太複雜的問題。
* 預先找出在 feature map 上重要的關鍵 elements features
## Related Work
使用 Transformer 主要有兩個問題,一是很花時間,二是需要大量記憶體(因為 key 的數量很多),以下有三種方法來解決問題。
1. 使用 pre-defined sparse attention patterns on keys ,限制 attention pattern 是一個固定的 local windows ,雖然可以降低複雜度,但會丟失全域訊息; 為了補償,固定 key elements 的間隔來增加 receptive field on keys
2. learn data-dependent sparse attention , Kitaev et al. (2020) 提出的 locality sensitive hashing(LSH) based attention, which hashes boh the query and key elements to different bins , 也有人用 k-means 找到最多的 related keys. Tay et al. (2020a) learns block permutation for block-wise sparse attetion
3. 找出 low-rank property in self-attention. Wang et al. 減少 key elements 數量透過 linear projection on the size dimension ,而不是 channel dimension
## Method
* Transformer 主要問題是會看到所有位置,造成很難聚焦,以及太複雜
* Deformable transformer 可以只關心參考點周圍的 set of reference point

ResNet output feature maps 的細節,可以看到進到 encoder 裡的 feature maps 的 channel 都一樣。
### Decoder
* Decoder 裡面有 cross-attention 和 self-attention
* 兩種 attention 的 query 都是 object queries
* convolution feature maps is key elements
* learned decoder attention 會跟 predicted bounding boxes 有很強的關係,可以加速聚合成果
## Two-Stage Deformable DETR
* 在 first stage 的 output 是 encoder 的 feature map
* 在 first stage 會給出 predicted bounding boxes ,最高分的 bounding boxes 會被選為 region proposals
## 反思
* 實驗看到的聚合成果的 epoch 數量減少 10 倍,但並沒有給出訓練時間和參數量?
###### tags: `mllearning2020`