# ADNet: An Asymmetric Dual-Stream Network for RGB-T Salient Object Detection ## 1. ABSTRACT * 使用新創的網路架構處理RGB與thermal的圖片,將重點區域利用二值化的方式提取出來。 * 效果如下: ![](https://hackmd.io/_uploads/SktmrV3Ah.png) ## 2. INTRODUCTION * 使用==Swin Transforme==處理rgb影像 * 使用[MobileVit](https://arxiv.org/abs/2110.02178)和[MobileNet V2](https://arxiv.org/abs/1801.04381)處理thermal影像 * MobileVit: ![](https://hackmd.io/_uploads/SyBn6E2Rn.png) * MobileNet V2: ![](https://hackmd.io/_uploads/SkTp6NhR3.png) * 提出==Channel-Spatial Interaction (CSI) module==處理前兩個階段的跨modality資訊交流 * 提出==Self-Attention Enhancement (SAE) module==處理後續的特徵增強 ## 3. METHOD * 網路架構圖: ![](https://hackmd.io/_uploads/rJdxvNnR3.png) * 說明: 1. 會想要使用Swin Transforme處理rgb,還有利用MobileVit處理thermal是經過下列實驗得出的。作者發現==MobileVit比較會去關注low-level的特徵,而Swin Transforme比較會去關注high-level的特徵== ![](https://hackmd.io/_uploads/ByRKw4303.png) 2. Channel-Spatial Interaction Module(CSI): * 架構圖: ![](https://hackmd.io/_uploads/rJ7FqVnRn.png) * 公式: ![](https://hackmd.io/_uploads/H13Z6VnRn.png) ![](https://hackmd.io/_uploads/H1EfaNnAh.png) * Spatial Attention: ![](https://hackmd.io/_uploads/SymHp4303.png) * 主要用於fuse兩種modality的future (在進行CSI前,會先將rgb和thermal的所有特徵圖經過一個1x1的Conv轉換到64 channels) 3. Self-Attention Enhancement Module(SA): * 一般的Transformer 4. Loss: * 將Label先進行前處理,==讓rgb負責預測物體的內容,讓thermal負責預測物體的輪廓== * 公式: ![](https://hackmd.io/_uploads/B1FHkHnR3.png) ## Question: 1. 在一開始的Abstract介紹CSI的時候,是說要處理前兩個stage而已,但是在Method介紹CSI時卻又說是所有stage都要經過這個CSI? 2. 圖3在介紹實驗結果時,有講到MobileVit比較會去關注low-level的特徵,而Swin Transforme比較會去關注high-level的特徵,但是這沒有很好的解釋為甚麼要這樣設計網路 3. 圖3的實驗為甚麼沒有包含rgb使用MobileVit結合thermal使用Swin?