# Class-Disentanglement and Applications in Adversarial Detection and Defense [論文連結] https://proceedings.neurips.cc/paper/2021/file/8606f35ec6c77858dfb80a385d0d1151-Paper.pdf ## 架構 x:圖片 G(x):類別冗餘資訊 x - G(x):類別相關資訊 類別冗餘資訊和類別相關資訊是互補的,將他們相加後會得到圖片x **整個模型的(訓練)架構** ![](https://hackmd.io/_uploads/HkYCcFOn3.png) 訓練VAE G(.)將類別冗余資訊從圖片x提取出來 同時用前面得到的x - G(x)訓練分類器D(.) VAE G(.)和分類器D(.)是聯合訓練的 他們會彼此競爭圖片x上的像素資訊 雖然是用x - G(x)來訓練,但訓練好的分類器同樣可以應用在G(x)上 觀察後發現大多的對抗攻擊都會落在x - G(x)上,但G(x)上仍然保留對分類有幫助的乾淨資訊 ➡︎ x - G(x)用於對抗攻擊的檢測,G(x)則用於分類 ![](https://hackmd.io/_uploads/Bykm3Xjph.png) ## Loss ![](https://hackmd.io/_uploads/H1HO-5_nn.png) (1) 整個模型的Loss (2) CD-VAE的Loss (3) 分類器的Loss ## 對抗攻擊的防禦手段 **灰盒攻擊(攻擊者知道使用x預訓練的分類器架構,但不知道CD-VAE的架構)** CD-VAE可以將G(x)從x'中離出來,因為對抗攻擊大多都落在x - G(x)上,而且G(x)雖然是類別冗餘資訊,但仍包含了足夠的資訊讓分類器使用,所以有一定的穩健性 **白盒攻擊(攻擊者知道完整的架構)** 訓練CD-VAE的時候搭配對抗訓練,感覺似乎沒有在根本上解決問題,依舊要使用對抗訓練的方法 ## 和Diffusion model的結合 將G(x)喂給Diffusion model,填補圖片的資訊?