# ADNet: An Asymmetric Dual-Stream Network for RGB-T Salient Object Detection ## 1. ABSTRACT * 使用新創的網路架構處理RGB與thermal的圖片,將重點區域利用二值化的方式提取出來。 * 效果如下:  ## 2. INTRODUCTION * 使用==Swin Transforme==處理rgb影像 * 使用[MobileVit](https://arxiv.org/abs/2110.02178)和[MobileNet V2](https://arxiv.org/abs/1801.04381)處理thermal影像 * MobileVit:  * MobileNet V2:  * 提出==Channel-Spatial Interaction (CSI) module==處理前兩個階段的跨modality資訊交流 * 提出==Self-Attention Enhancement (SAE) module==處理後續的特徵增強 ## 3. METHOD * 網路架構圖:  * 說明: 1. 會想要使用Swin Transforme處理rgb,還有利用MobileVit處理thermal是經過下列實驗得出的。作者發現==MobileVit比較會去關注low-level的特徵,而Swin Transforme比較會去關注high-level的特徵==  2. Channel-Spatial Interaction Module(CSI): * 架構圖:  * 公式:   * Spatial Attention:  * 主要用於fuse兩種modality的future (在進行CSI前,會先將rgb和thermal的所有特徵圖經過一個1x1的Conv轉換到64 channels) 3. Self-Attention Enhancement Module(SA): * 一般的Transformer 4. Loss: * 將Label先進行前處理,==讓rgb負責預測物體的內容,讓thermal負責預測物體的輪廓== * 公式:  ## Question: 1. 在一開始的Abstract介紹CSI的時候,是說要處理前兩個stage而已,但是在Method介紹CSI時卻又說是所有stage都要經過這個CSI? 2. 圖3在介紹實驗結果時,有講到MobileVit比較會去關注low-level的特徵,而Swin Transforme比較會去關注high-level的特徵,但是這沒有很好的解釋為甚麼要這樣設計網路 3. 圖3的實驗為甚麼沒有包含rgb使用MobileVit結合thermal使用Swin?
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up