# 【生成式AI導論 2024】第14講:淺談大型語言模型相關的安全性議題 (下) — 欺騙大型語言模型 ## 詐騙LLM * 詐騙LLM這件事又稱為Prompt Hacking * Jailbreaking vs Prompt Injection * Jailbreak攻擊對象是語言模型本身,讓模型講出不應該講出的話(如殺人放火)。類似對人做催眠,叫他做壞事。 * Prompt Injection則是攻擊LLM打造的應用(如AI助教),讓LLM怠忽職守,在不恰當的時機做不恰當的事。類似讓人怠忽職守,在上班時唱歌。 ## Jailbreak * DAN(Do Anything Now),Jailbreak的關鍵字。網路上可以找到很多,但是大多已經失效,只對舊模型有效。但還是有漏洞 * 使用不熟悉的語言: 會忘記要做防禦這件事 * 給予[衝突的指令](https://arxiv.org/abs/2307.02483): 要求從"Absolutely!Here's"開始回答 * 試圖說服語言模型 * Jailbreak有可能有其他目的,例如要他說出訓練資料,用來檢查是不是看過什麼不該看的資料。例如[這篇](https://arxiv.org/abs/2311.17035)要求GPT一直重複特定單字,最後可能(1%)會吐出個資(約10%是正確個資) ## Prompt Injection * 例如之前的[【生成式AI導論 2024】HW2 都是AI的作文比賽](/_GkAYipzQsGCjeXZMcdOvA) * [Prompt Injection 比賽](https://arxiv.org/pdf/2311.16119),要求參賽者用Prompt Injection讓模型吐出指定的句子
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up