Class-Disentanglement and Applications in Adversarial Detection and Defense

# Class-Disentanglement and Applications in Adversarial Detection and Defense [論文連結] https://proceedings.neurips.cc/paper/2021/file/8606f35ec6c77858dfb80a385d0d1151-Paper.pdf ## 架構 x：圖片 G(x)：類別冗餘資訊 x - G(x)：類別相關資訊類別冗餘資訊和類別相關資訊是互補的，將他們相加後會得到圖片x **整個模型的（訓練）架構** ![](https://hackmd.io/_uploads/HkYCcFOn3.png) 訓練VAE G(.)將類別冗余資訊從圖片x提取出來同時用前面得到的x - G(x)訓練分類器D(.) VAE G(.)和分類器D(.)是聯合訓練的他們會彼此競爭圖片x上的像素資訊雖然是用x - G(x)來訓練，但訓練好的分類器同樣可以應用在G(x)上觀察後發現大多的對抗攻擊都會落在x - G(x)上，但G(x)上仍然保留對分類有幫助的乾淨資訊 ➡︎ x - G(x)用於對抗攻擊的檢測，G(x)則用於分類 ![](https://hackmd.io/_uploads/Bykm3Xjph.png) ## Loss ![](https://hackmd.io/_uploads/H1HO-5_nn.png) (1) 整個模型的Loss (2) CD-VAE的Loss (3) 分類器的Loss ## 對抗攻擊的防禦手段 **灰盒攻擊（攻擊者知道使用x預訓練的分類器架構，但不知道CD-VAE的架構）** CD-VAE可以將G(x)從x'中離出來，因為對抗攻擊大多都落在x - G(x)上，而且G(x)雖然是類別冗餘資訊，但仍包含了足夠的資訊讓分類器使用，所以有一定的穩健性 **白盒攻擊（攻擊者知道完整的架構）** 訓練CD-VAE的時候搭配對抗訓練，感覺似乎沒有在根本上解決問題，依舊要使用對抗訓練的方法 ## 和Diffusion model的結合將G(x)喂給Diffusion model，填補圖片的資訊？