[論文連結]
https://proceedings.neurips.cc/paper/2021/file/8606f35ec6c77858dfb80a385d0d1151-Paper.pdf
x:圖片
G(x):類別冗餘資訊
x - G(x):類別相關資訊
類別冗餘資訊和類別相關資訊是互補的,將他們相加後會得到圖片x
整個模型的(訓練)架構
訓練VAE G(.)將類別冗余資訊從圖片x提取出來
同時用前面得到的x - G(x)訓練分類器D(.)
VAE G(.)和分類器D(.)是聯合訓練的
他們會彼此競爭圖片x上的像素資訊
雖然是用x - G(x)來訓練,但訓練好的分類器同樣可以應用在G(x)上
觀察後發現大多的對抗攻擊都會落在x - G(x)上,但G(x)上仍然保留對分類有幫助的乾淨資訊
➡︎ x - G(x)用於對抗攻擊的檢測,G(x)則用於分類
(1) 整個模型的Loss
(2) CD-VAE的Loss
(3) 分類器的Loss
灰盒攻擊(攻擊者知道使用x預訓練的分類器架構,但不知道CD-VAE的架構)
CD-VAE可以將G(x)從x'中離出來,因為對抗攻擊大多都落在x - G(x)上,而且G(x)雖然是類別冗餘資訊,但仍包含了足夠的資訊讓分類器使用,所以有一定的穩健性
白盒攻擊(攻擊者知道完整的架構)
訓練CD-VAE的時候搭配對抗訓練,感覺似乎沒有在根本上解決問題,依舊要使用對抗訓練的方法
將G(x)喂給Diffusion model,填補圖片的資訊?