Purification - HackMD

# 相關論文 ## Diffusion Models for Adversarial Purification(DiffPure) ICML 2022 https://arxiv.org/pdf/2205.07460.pdf https://icml.cc/media/icml-2022/Slides/16708.pdf 目前比較完整說明將Diffusion Models 應用在Adversarial Purification 的一篇文章，不過沒有很精確的說明模型為何可以起到防禦的作用，只提到在Forward Process 對圖片加入Gaussian Noise 的時候會將圖片本身的結構以及Adversarial Noise一併破壞掉，起到將攻擊"Wash Out"的作用 ![](https://hackmd.io/_uploads/HyZy6Lwdn.png) ## Guided Diffusion Model for Adversarial Purification https://arxiv.org/pdf/2205.14969.pdf 用受到攻擊的圖片來引導模型生成"長得很像原圖"(也可以說長得像受到攻擊的圖片)的乾淨圖片 ![](https://hackmd.io/_uploads/HyfS6UPO2.png) ## (Certified!!) Adversarial Robustness for Free! https://arxiv.org/pdf/2206.10550.pdf https://openreview.net/forum?id=JLg5aHHv7j 提出Few-Step Diffusion雖然產出的圖片不如正常經過完整Reverse Steps的圖片來的精美，但也正好避免了"無中生有"對辨識度帶來的負面影響，以及大幅提升生成速度。 ![](https://hackmd.io/_uploads/S1k22Lw_n.png) ## DensePure: Understanding Diffusion Models Towards Adversarial Robustness https://arxiv.org/pdf/2211.00322.pdf https://openreview.net/forum?id=p7hvOJ6Gq0i （底下有ICLR Review的意見與作者的回應）證明了Diffusion Models是如何做到Adversarial Purification，以及提出了透過多個擁有不同Noise Seed、Timestep非常小（原理類似Few-Step Diffusion）的模型產生的結果來做多數決可以近一步提升效果 ![](https://hackmd.io/_uploads/S1xKTIDdh.png) ## DiffSmooth: Certifiably Robust Learning via Diffusion Models and Local Smoothing https://www.usenix.org/system/files/sec23fall-prepub-540-zhang-jiawei.pdf 說明Diffusion Model在絕大多數的情況下確實可提高一定程度的穩健性，但在極少數情況（受到的對抗攻擊半徑太大）會出現無法將圖片還原回去（分佈和原圖不夠接近，有提到可能是對抗攻擊受未被完全消去或/擾動），也指出先前DensePure的做法雖然最終的防禦能力相當出色，但重複Denoise來做多數決投票的時間代價實在太大，所以本文提出結合Diffusion和Local Smoothing的解決方案，將一張Denoise過後的圖片分別加上不同的高斯雜訊後再分別放入平滑後的分類器做多數決，決定最終的Ground Truth Label是什麼。 ![](https://hackmd.io/_uploads/SkWaxM6c2.png) ## DDPM as a Defense Against Adversarial Attacks https://arxiv.org/pdf/2301.06871.pdf ＊這篇比較像是實驗報告，對該主題的初步認識有一定幫助，但實驗內容的部分有較多疑點（只做Forward Process會有一定的防禦效果嗎？），需要進一步驗證 --- # Diffusion Model是如何提高穩健性的？ ## Forward Process 對抗攻擊是一種針對攻擊對象圖片精密設計的雜訊，而Forward Process加入的高斯雜訊因為顆粒大小比對抗攻擊的雜訊要大得多，所以高斯雜訊對原圖的擾動會使對抗攻擊的效果受到影響。因為DiffSmooth這篇的關係看了一些使用Ramdomized Smoothing或Local Smoothing來防禦的文章，發現Forward Process起到的作用原理其實和他們挺接近的，不過在做Ramdomized Smoothing或Local Smoothing時通常會用加上高斯雜訊的圖片來做分類器的訓練（畢竟最後他要看的圖片都是有加上雜訊"平滑"過的）。 ## Reverse Process Reverse SDE最主要的工作就是Denoise，除了讓訓練時只看過乾淨圖片（沒有高斯雜訊也沒有）的分類器能更容易的做出分類以外，最終要的就是在去除Forward SDE加入高斯雜訊時可以順便將受到對抗攻擊雜訊去除。而DensePure和DiffSmooth給出的證明解釋主要是在提說當原圖的訊息密度足夠高的話（這裡指的應該是原圖資訊和對抗攻擊的比例，內文有提高對抗攻擊），經過Diffusion Process後產生的圖片就會和原圖的最越接近。 # 該防禦模式的隱憂 ## Diffusion Model本質上是一種Stochastic Pre-processing Defenses "On the Limitations of Stochastic Pre-processing Defenses"這篇論文刊登在openreview上後，ICLR的Review中有質疑到論文的結論是否也對DiffPure這類型的防禦有效果。作者給出的回應是Forward SDE在對圖片加上隨機高斯雜訊的這個動作其實就是一種Stochastic Pre-processing Defenses，所以他們的結論理應是可以推廣到DiffPure上的。 ## 圖片真實性與穩健定的權衡 Diffusion Model作為防禦的核心概念簡單來說就是去竄改被攻擊的圖片，使其不再受到針對圖片原先分佈精心設計的攻擊影響，最理想的狀態是肉眼看似和原本的圖片無異，但實質上圖片本身的分佈已經被擾動得不一樣了（希望分佈可以很接近乾淨的圖片）。但現實是Reverse SDE不太可能訓練的跟理論中的一樣完美，在一步步消除添加的高斯雜訊時經常會有猜錯雜訊的問題，導致最終生成出來的圖片和原本的樣子會有些微的落差，而這也是這類型防禦之所以能起到作用的真正原理（圖片已經和原本要攻擊的對象不太一樣了），假使今天真的訓練出一個完美的Reverse SDE，他能夠精確地猜出每一步加入的高斯雜訊，那麼最終生成出來的圖片就會含攻擊過後的圖片一模一樣，因為圖片上面的對抗攻擊也被精準的還原了，自然也不再會有任何的防禦效果。 --- ### 目前進度 1. 理解一些目前對Adversarial Purification效果的優化手法 2. Diffusion Model為什麼能使攻擊失效 3. Diffusion Model用於Adversarial Purification的一些隱憂