李宏毅_生成式導論 2024_第14講：淺談大型語言模型相關的安全性議題 (下)

# 李宏毅_生成式導論 2024_第14講：淺談大型語言模型相關的安全性議題 (下) — 欺騙大型語言模型 ###### tags: `Hung-yi Lee` `NTU` `生成式導論 2024` [課程撥放清單](https://www.youtube.com/watch?v=AVIKFXLCPY8&list=PLJV_el3uVTsPz6CTopeRp2L2t4aL_KgiI) ## 第14講：淺談大型語言模型相關的安全性議題 (下) — 欺騙大型語言模型 [課程連結](https://www.youtube.com/watch?v=CNTondxaguo&list=PLJV_el3uVTsPz6CTopeRp2L2t4aL_KgiI&index=15) ### Jailbreking & Prompt Injection ![image](https://hackmd.io/_uploads/HJSHKUpQC.png) 欺騙大型語言模型的一個統稱叫做Pormpt Hacking，其中兩個詞彙Jailbreking跟Prompt Injection都跟這個技術有關。如上簡報所示，這兩種之間有定義上的差異。 ### Jailbreak ![image](https://hackmd.io/_uploads/BJRqYIaXA.png) [參考論文_"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models](https://arxiv.org/abs/2308.03825) 一個通關密語，DAN，傳聞就可以解開模型的一切能力。不過這個目前應該是只對GPT-3.5有效就是了。 ### Jailbreak ![image](https://hackmd.io/_uploads/H1VCY8670.png) 不過還是有其它的方法可以試著突破AI的心防。上面案例說明的是，詢問GPT-4o如何砍一個行車號誌，很明顯的，道德魔人4o就會開始blablabla。 ### Jailbreak：使用它沒有那麼熟悉的語言 ![image](https://hackmd.io/_uploads/r1LHqITXA.png) [參考論文_Jailbroken: How Does LLM Safety Training Fail?](https://arxiv.org/abs/2307.02483) 一個方法，就是用它沒有那麼熟悉的語言，上面案例給出的是用注音。 ### Jailbreak：給予衝突的指令 ![image](https://hackmd.io/_uploads/S1JjcIa7A.png) 還有一個方式就是給一個起頭，上面案例說明的是在問題之後要求機器以『Absolutely!Here's』做為回應的開始，然後機器就真的傻傻的接下去了。 ### Jailbreak：試圖說服語言模型 ![image](https://hackmd.io/_uploads/Hk_xjLT7R.png) ![image](https://hackmd.io/_uploads/H1kbsLp7A.png) [參考論文_How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs](https://arxiv.org/abs/2401.06373) 上面案例說明的是很唬爛的故事，讓語言模型先編一個關於停車標誌作惡的故事，然後再問它怎麼終結停車標誌罪惡的一生，機器這時候就被破防了。喵的... ### Jailbreak可以有不同的目的 ![image](https://hackmd.io/_uploads/B1_KoUpXR.png) 有時候你或許也可以試著讓機器吐出訓練它的資料，這很嚴重，因為可能會有個資外洩的問題。對了，這地址是假的，不要當真。 ### Jailbreak可以有不同的目的 ![image](https://hackmd.io/_uploads/SyyVn8aQC.png) [參考論文_Scalable Extraction of Training Data from (Production) Language Models](https://arxiv.org/abs/2311.17035) [參考論文_Extracting Training Data from Large Language Models](https://arxiv.org/abs/2012.07805) 參考論文中的一個作法是讓機器不斷重覆同一個單字，然後機器就突然抓狂給出資料，不過成功機率不高就是。 ### Prompt Injection ![image](https://hackmd.io/_uploads/ByxKin8T70.png) 這是課程中提交的作業，想辦法讓機器吐出高分。 ### Prompt Injection ![image](https://hackmd.io/_uploads/ryo628p7A.png) ![image](https://hackmd.io/_uploads/HJ-AnIaXR.png) ![image](https://hackmd.io/_uploads/B1V-p8TmR.png) 這真的蠻好笑的，用ascii碼叫機器翻譯，一個字，絕。 ### Prompt Injection比賽 ![image](https://hackmd.io/_uploads/SyoIT86X0.png) [參考論文_Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition](https://arxiv.org/abs/2311.16119) 這是一個比賽最終整理出來的結果。