# 10. HUNG-YI LEE 2022 ML - Adversarial Attack ###### tags: `Machine Learning` ## Adversarial Attack on Image [來自人類的惡意攻擊 (Adversarial Attack) (上) – 基本概念](https://youtu.be/xGQKhbjrFRk) [來自人類的惡意攻擊 (Adversarial Attack) (下) – 類神經網路能否躲過人類深不見底的惡意?](https://youtu.be/z-Q9ia5H2Ig) ### 攻擊分類 * non-targeted * targeted ### 如何攻擊 * 架構 ![](https://i.imgur.com/QE3emp1.png) * 計算圖片差距(需加入人體感知)![](https://i.imgur.com/WR4NSo8.png) * Optimization(去掉圖片差距限制) * 使用Gradient Descent,但改**為更新input**而非參數![](https://i.imgur.com/J7aWTvQ.png) * Optimization(加入圖片差距限制) * 加入一個module in Gradient Descent in iteration,保證update不超過藍色方框![](https://i.imgur.com/6hv6815.png) * 最簡單攻擊方式舉例:**FGSM** - 一擊必殺 * https://arxiv.org/abs/1607.02533![](https://i.imgur.com/AseQSJz.png) * 特殊設計:取Sign,可使得做完一次攻擊之後,x0會跑到框框內;若想表現更好,可以多跑幾個iteration(可能出界,拉回即可) ### White Box與Black Box * 白箱攻擊:得知模型參數下的攻擊 * 容易成功! * 黑箱攻擊:未知模型參數下的攻擊 ![](https://i.imgur.com/9qPWNUo.png) * 黑箱攻擊沒有想像中難達成! * 觀點 * 有部分人士認為容易攻擊的原因可能與dataset有關,而非模型 * 真實世界的攻擊 * 戴上特殊眼鏡騙過model - 採用Universal Attack![](https://i.imgur.com/RU4QneY.png) * 速限牌修改 - 讓tesla偵測錯誤![](https://i.imgur.com/aQUp52D.png) * 訓練資料時就發起攻擊 - 開後門 * 透過錯誤標記的圖片![](https://i.imgur.com/Yk2ELp7.png) ### 被動防禦 * 模糊化 * 優:讓攻擊威力下降 * 缺:信心分數下降 * 影像壓縮 * Generator生成類似照片 被動防禦問題:若被敵人知道有防禦,相當於**被知道了一層Layer**而失去防禦效果 * 如何不被猜到? - 加入隨機性 ### 主動防禦 * 一開始即訓練出不易被攻破的模型 * Adversarial Training * 訓練階段即進行攻擊 * 訓練完後再把被攻擊過的圖片配對正確的label * 不斷找漏洞 > 填補漏洞,產生新的訓練資料集 * 也是Data Augmentation的一種方法 * Adversarial Training問題 * 新的attack擋不住 * 需要很大的運算資源 * 可用Adversarial Training for Free ### 未來展望 此領域尚待更多的Explore! ## Adversarial Attack on NLP [Adversarial Attack for NLP PART:1](https://youtu.be/z-lRPFFYVJc) -(姜成翰助教授課) [slide](https://speech.ee.ntu.edu.tw/~hylee/ml/ml2022-course-data/Attacks-in-NLP-Draft.pdf) [Adversarial Attack for NLP PART:2](https://youtu.be/68lwXWFzCmg) -(姜成翰助教授課) [slide](https://speech.ee.ntu.edu.tw/~hylee/ml/ml2022-course-data/Attacks-in-NLP-Draft.pdf)