# 李宏毅_生成式導論 2024_第14講:淺談大型語言模型相關的安全性議題 (下) — 欺騙大型語言模型
###### tags: `Hung-yi Lee` `NTU` `生成式導論 2024`
[課程撥放清單](https://www.youtube.com/watch?v=AVIKFXLCPY8&list=PLJV_el3uVTsPz6CTopeRp2L2t4aL_KgiI)
## 第14講:淺談大型語言模型相關的安全性議題 (下) — 欺騙大型語言模型
[課程連結](https://www.youtube.com/watch?v=CNTondxaguo&list=PLJV_el3uVTsPz6CTopeRp2L2t4aL_KgiI&index=15)
### Jailbreking & Prompt Injection

欺騙大型語言模型的一個統稱叫做Pormpt Hacking,其中兩個詞彙Jailbreking跟Prompt Injection都跟這個技術有關。
如上簡報所示,這兩種之間有定義上的差異。
### Jailbreak

[參考論文_"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models](https://arxiv.org/abs/2308.03825)
一個通關密語,DAN,傳聞就可以解開模型的一切能力。不過這個目前應該是只對GPT-3.5有效就是了。
### Jailbreak

不過還是有其它的方法可以試著突破AI的心防。
上面案例說明的是,詢問GPT-4o如何砍一個行車號誌,很明顯的,道德魔人4o就會開始blablabla。
### Jailbreak:使用它沒有那麼熟悉的語言

[參考論文_Jailbroken: How Does LLM Safety Training Fail?](https://arxiv.org/abs/2307.02483)
一個方法,就是用它沒有那麼熟悉的語言,上面案例給出的是用注音。
### Jailbreak:給予衝突的指令

還有一個方式就是給一個起頭,上面案例說明的是在問題之後要求機器以『Absolutely!Here's』做為回應的開始,然後機器就真的傻傻的接下去了。
### Jailbreak:試圖說服語言模型


[參考論文_How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs](https://arxiv.org/abs/2401.06373)
上面案例說明的是很唬爛的故事,讓語言模型先編一個關於停車標誌作惡的故事,然後再問它怎麼終結停車標誌罪惡的一生,機器這時候就被破防了。喵的...
### Jailbreak可以有不同的目的

有時候你或許也可以試著讓機器吐出訓練它的資料,這很嚴重,因為可能會有個資外洩的問題。
對了,這地址是假的,不要當真。
### Jailbreak可以有不同的目的

[參考論文_Scalable Extraction of Training Data from (Production) Language Models](https://arxiv.org/abs/2311.17035)
[參考論文_Extracting Training Data from Large Language Models](https://arxiv.org/abs/2012.07805)
參考論文中的一個作法是讓機器不斷重覆同一個單字,然後機器就突然抓狂給出資料,不過成功機率不高就是。
### Prompt Injection

這是課程中提交的作業,想辦法讓機器吐出高分。
### Prompt Injection



這真的蠻好笑的,用ascii碼叫機器翻譯,一個字,絕。
### Prompt Injection比賽

[參考論文_Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition](https://arxiv.org/abs/2311.16119)
這是一個比賽最終整理出來的結果。