【生成式AI導論 2024】第14講：淺談大型語言模型相關的安全性議題 (下)

# 【生成式AI導論 2024】第14講：淺談大型語言模型相關的安全性議題 (下) — 欺騙大型語言模型 ## 詐騙LLM * 詐騙LLM這件事又稱為Prompt Hacking * Jailbreaking vs Prompt Injection * Jailbreak攻擊對象是語言模型本身，讓模型講出不應該講出的話(如殺人放火)。類似對人做催眠，叫他做壞事。 * Prompt Injection則是攻擊LLM打造的應用(如AI助教)，讓LLM怠忽職守，在不恰當的時機做不恰當的事。類似讓人怠忽職守，在上班時唱歌。 ## Jailbreak * DAN(Do Anything Now)，Jailbreak的關鍵字。網路上可以找到很多，但是大多已經失效，只對舊模型有效。但還是有漏洞 * 使用不熟悉的語言: 會忘記要做防禦這件事 * 給予[衝突的指令](https://arxiv.org/abs/2307.02483): 要求從"Absolutely!Here's"開始回答 * 試圖說服語言模型 * Jailbreak有可能有其他目的，例如要他說出訓練資料，用來檢查是不是看過什麼不該看的資料。例如[這篇](https://arxiv.org/abs/2311.17035)要求GPT一直重複特定單字，最後可能(1%)會吐出個資(約10%是正確個資)![image](https://hackmd.io/_uploads/rklP_Jz6yg.png) ## Prompt Injection * 例如之前的[【生成式AI導論 2024】HW2 都是AI的作文比賽](/_GkAYipzQsGCjeXZMcdOvA) * [Prompt Injection 比賽](https://arxiv.org/pdf/2311.16119)，要求參賽者用Prompt Injection讓模型吐出指定的句子