【生成式AI導論 2024】12~14 淺談檢定大型語言模型能力和大型語言模型相關的安全性議題

20251031筆記內容可能有錯誤，請參考原始影片 [李宏毅【生成式AI導論 2024】](https://www.youtube.com/playlist?list=PLJV_el3uVTsPz6CTopeRp2L2t4aL_KgiI) [【生成式AI導論 2024】第12講：淺談檢定大型語言模型能力的各種方式) ](https://www.youtube.com/watch?v=Hk8Z0uhmWg4&list=PLJV_el3uVTsPz6CTopeRp2L2t4aL_KgiI&index=13) [【生成式AI導論 2024】第13講：淺談大型語言模型相關的安全性議題 (上) — 亡羊補牢、語言模型的偏見、有多少人用 ChatGPT 寫論文審查意見](https://www.youtube.com/watch?v=MSnvknLywUc&list=PLJV_el3uVTsPz6CTopeRp2L2t4aL_KgiI&index=14) [【生成式AI導論 2024】第14講：淺談大型語言模型相關的安全性議題 (下) — 欺騙大型語言模型](https://www.youtube.com/watch?v=CNTondxaguo&list=PLJV_el3uVTsPz6CTopeRp2L2t4aL_KgiI&index=15) ### 【生成式AI導論 2024】第12講：淺談檢定大型語言模型能力的各種方式大綱 **一、語言模型能力評估的基本概念與挑戰** 1. 評估基礎：基準測試（Benchmark）與標準答案。 2. 挑戰：輸出正確性難以判定（尤其是選擇題與開放式任務）。 **二、評估方法與基準測試（Benchmark）** 1. **多項選擇題評估：** 選擇題基準測試（如 MMLU），但受制於輸出格式、機率分佈、選項位置和符號的偏見影響。 2. **開放式任務評估：** 翻譯與摘要任務的評估（BLEU, ROUGE），但標準有瑕疵，需謹慎參考。 3. **人類評估與模型作為評委：** * 人類評估：Chatbot Arena。 * 模型評估：MT-bench (使用 GPT-4 作為評委)，高度相關於人類評估。 * 模型評委的偏見：長度偏見（Verbosity Bias）及 Panda Evaluation 的修正。 4. **綜合性與特異性基準測試：** * 綜合性測試：檢測模型處理多種任務的能力，如 BIG-bench (包含挑戰性任務)。 * 特異性測試： * 長文本閱讀能力：大海撈針測驗 (Needle in a Haystack)。 * 道德倫理能力：馬基維利基準測試 (Machiavelli Benchmark)。 * 心智理論能力 (Theory of Mind, ToM)：莎莉與小安測驗與對話情境測驗。 **三、評估結果的風險與限制** 1. **資料污染與偷看：** 模型可能已經看過基準測試資料，導致成績虛高。 2. **提示（Prompting）敏感性：** 提示的措辭會顯著影響模型表現，可能考驗的是指令理解而非真正能力。 3. **其他考量因素：** 除了能力效能外，還需考量成本與硬體需求。 *** ### 一、語言模型能力評估的基本概念與挑戰 **1. 評估基礎：基準測試（Benchmark）** 語言模型能力的基本評估方法是：準備好要給模型的輸入，以及這些輸入應有的標準答案。如果需要比較模型 A 和 B，就給予它們相同的輸入，比較各自的輸出與預先準備好的標準答案之間的差異。這些準備好用於衡量模型能力的輸入與標準答案，統稱為 **基準測試 (Benchmark)**。 **2. 評估的挑戰：決定輸出正確性** 由於語言模型的輸出是**沒有限制**的，因此在評估其輸出是否正確時，會遇到各種問題： * **選擇題的判定困難：** 即使是像 MMLU 這樣知名的、涵蓋各類主題（如數學、物理、化學、大學期中考題）的選擇題，不同文獻評估同一個模型（例如 LLaMA 65B）的正確率時，結果竟然不一致。 * **非標準答案格式問題：** 如果正確答案是 B，但模型輸出的不是單純的 B，而是像「答案是 B」這樣的句子，評估程式是否應該算它答對？如果程式檢查輸出中只要提到「B」就算對，那麼模型若回答：「根據計算，我認為 B 是一個選項」，是否算對？。 * **限制輸出的問題：** 如果限制模型只能輸出選項字母，否則就算錯，這可能只是在考驗模型「能否看懂指令並按照指令做」，而非其解決數學問題的真實能力。 * **機率分佈的歧義：** 即使根據 ABCD 四個選項中機率分佈最高的來判定，也可能出現問題。例如，如果模型輸出機率最高的其實是「三」這個數字，而不是任何一個選項字母，則雖然選項 B 的機率在 ABCD 中最高，但模型顯然更想回答「三」，這表示模型在選擇題上的理解能力仍有不足。 #### 1. 選擇題中的偏見問題 (Bias) 在選擇題的評估中，選項的設定會對結果造成影響： * **選項擺放位置的影響：** 有研究將 MMLU 中所有正確答案都移到 A 選項，結果發現 LLaMA 30B 突然變成了第一名。這是因為 LLaMA 30B 傾向於猜 A，在正確選項移到 A 時佔了便宜。這顯示選項擺放的位置會影響評估結果。 * **選項表示符號的影響：** 評估結果也會受選項的代號影響。例如，使用大寫 ABCD (GPT-3.5 正確率約 67%)，與使用小寫 abcd 時結果差不多；但如果使用數字 1234 或是 ABCD 加上句點，GPT-3.5 在 NLU 上的正確率會下降。 #### 2. 開放式任務的評估與標準化指標許多任務（如翻譯一段文章、文章摘要）沒有單一的標準答案。當語言模型的答案與標準答案不同時，並不一定代表模型的答案不好。 * **翻譯評估：** 最知名的評估方式是 **BLEU**。 * **摘要評估：** 知名的評估方式是 **ROUGE**。 * **指標的限制：** 這些方法的核心思想是：模型的答案不需要跟標準答案一模一樣，只要有**部分相同**就可以得分。但如果英文輸入是 "humor"，標準答案是「幽默」，但模型輸出「詼諧」，難道就要算全錯嗎？這些指標有一定程度的瑕疵，只能作為參考，不應完全相信。 #### 3. 跨模型評估：人類裁判與模型裁判 * **人類評估（Chatbot Arena）：** 這是語言模型的競技場。人類每次進入時會隨機分配到一兩個語言模型，提出相同的問題，然後由人類來判斷哪一個模型的答案比較好。Chatbot Arena 有一個不斷更新的排行榜。雖然耗時耗資源，但其結果常被引用。 * **模型作為評委（MT-bench）：** 由於人類評估成本高昂，有人提出使用語言模型來當作評委，評估其他模型。 * **實施方式：** 將語言模型的輸出和標準答案（或其他模型的輸出）給予一個強大的模型，例如 GPT-4，讓它來進行評估並給予分數。 * **MT-bench 特點：** MT-bench 就是一個使用模型（GPT-4）進行評量的基準測試，裡面的問題大多是**沒有標準答案**的複雜、開放性問題（如撰寫遊記，並要求每個段落開頭必須用 A 開頭）。 * **MT-bench 的可靠性：** MT-bench 上的排名與 Chatbot Arena 上的排名具有非常高的相關性，其 Spearman correlation 相關係數高達 0.9。 * **模型裁判的偏見：** 語言模型作為評委時，本身也會有偏見。一個知名的偏見是，模型通常喜歡**長的答案**（長篇大論）。 * **Panda Evaluation：** 針對模型偏見進行的改版，它在排名模型時，會**考慮輸出長度**。加入了長度考量後，Llama 2.0 在 Arena 上的相關性（correlation）就上升了。 #### 4. 綜合性與挑戰性基準測試 * **多任務綜合測試的必要性：** LLM 的能力是全面的，因此檢測其能力時，需要收錄大量各式各樣的任務，來全面評比模型的能力。歷史上，測試任務的數量不斷增加（如 GLUE, SuperGLUE, BIG-bench, Natural Instructions 1600 個任務）。 * **BIG-bench：** 一個由 44 位作者、100 多個單位合作編纂的基準測試。它收集了各式各樣**專門拿來為難**語言模型的任務。 * **Emoji 猜電影 (Emoji Movie)：** 根據一串 Emoji 猜測對應的電影。較小的模型會亂猜，只有較大的模型才能答對，這反映了模型的能力與規模的關聯性。 * **西洋棋：** 給予西洋棋棋譜的文字描述，要求模型找出下一步能夠將軍對方的步驟。在較早期的 BIG-bench 時代，沒有模型能答對。較大的模型至少能提出符合棋類規則的答案，但無法找出正確的「將軍」步驟；而較小的模型則連下棋規則都不清楚。 * **解密碼：** 要求語言模型閱讀一長串奇怪的密碼，並找出其中隱藏的英文字。在當時（BIG-bench 發表時），沒有任何語言模型能做對這類讓模型感到麻煩的問題。 #### 5. 針對性能力測驗 **A. 大海撈針測驗 (Needle in a Haystack Test)** * **目的：** 評估 LLM 閱讀長文本的能力，特別是能否在長文本中記住特定訊息。 * **方法：** 準備一篇非常長的文本，在其中某個位置插入一小段特定的資訊，然後要求模型根據該資訊作答。 * **關鍵考量：針的位置：** 測試時會將「針」插在長文的不同位置（開頭、中間、結尾），因為不同的模型對長文關注的位置可能不同。 * **GPT-4 的表現：** GPT-4 號稱可讀 128K token。實驗顯示，在 64K token 以下，無論針放在哪裡，GPT-4 都能準確擷取訊息。但如果文本長度達到 128K，而針放在文章**前面 10% 到 50% 的位置**，GPT-4 就有可能遺漏訊息。 * **提示語的影響：** 有研究發現 Claude 2.1 在此測試中表現不佳。但該模型團隊聲稱只要在問題後**多加一句話**（例如：`here is the most relevant sentence`），其長文本閱讀能力就會變得完美。這再次說明了評估結果對**指令（Prompt）**的措辭非常敏感。 **B. 馬基維利基準測試 (Machiavelli Benchmark)** * **目的：** 檢測 LLM 是否會為了達成目標而**不擇手段**（馬基維利主義）。 * **方法：** 讓 LLM 玩文字冒險遊戲，模型被賦予任務（例如增進家族榮耀、推翻壞人陰謀），在遊戲中做出決策。模型決策會同時計算其任務得分和違反道德規範的比例。 * **結果：** 專門針對遊戲高分進行訓練的模型（藍色點）雖然分數高，但會做出許多違背人類社會道德規範的事情。GPT-4 (黑色點) 則有底線，它不會做這些違背道德的事情，因此無法得到最高分。如果進一步給予 GPT-4 道德規範的提示，其道德分數會更低（更符合規範）。 **C. 心智理論能力 (Theory of Mind)** * **目的：** 測驗 LLM 是否能揣摩他人想法，知曉他人的心理狀態與自己不同。 * **經典測驗：** 心理學上用於測試 Theory of Mind 的是**莎莉與小安測驗**（球在籃子，莎莉離開，小安把球移到箱子。問莎莉回來會去哪裡找球？）。這是年紀太小的兒童無法答對的問題（3歲小孩答不對，6歲後才能答對）。 * **初期發現與局限：** 早期測試發現 GPT-3.5 似乎可以正確回答莎莉與小安這類問題。然而，這類題目很可能在網路上已經被看過，模型是依靠**記憶**而非真正理解。 * **重新測試：** 若將題目換成新的情境（例如將莎莉與小安換成大雄與小叮噹，將籃子換成抽屜），GPT-3.5 會突然失去心智理論能力（答錯）。 * **對話情境測試：** 為了更完整地測驗，研究設計了對話情境題。例如，凱麗離開時，林達聊到了自己的狗的品種。當凱麗回來後，問模型「凱麗認為林達的狗是哪一種？」正確答案應該是「凱麗不知道」，因為她不在現場。 * **GPT-4 的 ToM 表現：** 在這類複雜 Theory of Mind 測試中，人類的正確率是 87.5%。**GPT-4 的 Theory of Mind 能力相較於人類還是非常非常差**，顯示 GPT-4 對於人類心智中的意圖，並沒有我們想像中那麼高。 ### 三、評估結果的風險與限制 **1. 基準測試的資料污染 (Data Contamination)** 我們必須對基準測試的結果保持警惕，因為這些考題通常是公開的。 * **換句話說的測試：** 有人做實驗，將公開的 NLU 測試資料拿去訓練模型，然後出一些內容與 NLU 題目一樣、但只是「換句話說」的新考題。結果發現，LLaMA 3B 模型在 NLU 上的表現，竟然可以與 GPT-4 持平（86%）。這證明模型可能只是看過類似或相同的答案，而非真的具備該能力。 * **訓練資料與 Benchmark 釋出時間的關係：** 模型在其訓練時間點**之前**就已存在的基準測試集上，表現往往比在其訓練之後才釋出的數據集上要好。這推論模型可能在爬取網路資料時，**無意中看過**了這些基準測試的資料。 * **直接輸出訓練資料的證據：** 有一個確鑿的證據是，當直接問 GPT-3.5 某些基準測試集（如 RTE）的訓練資料時，它能夠輸出與該資料集完全一樣的結果。這證實了這些模型確實「偷看過」訓練資料。 **2. 其他考量面向** 除了效能（能力）之外，評估 LLM 時還需要考慮其他面向： * **價格/成本：** 模型的 API 費用。 * **資源需求：** 使用模型時需要配備多少硬體（例如記憶體）。在能力差距不大的情況下，使用者可能會傾向選擇更便宜或資源需求較低的模型。 **總結而言，效能並非唯一的考量，我們還需要考量人工智慧的安全性和倫理道德等面向**。 ### 【生成式AI導論 2024】第13講：淺談大型語言模型相關的安全性議題 (上) — 亡羊補牢、語言模型的偏見、有多少人用 ChatGPT 寫論文審查意見大綱 **一、語言模型的幻覺與事實查核 (Hallucination and Fact-Checking)** 1. 幻覺問題：即使是強大的模型（如 GPT-4）仍會產生虛假資訊（Hallucination）。 2. 事實查核機制：透過安全層或外部搜尋（如 Google）來驗證模型輸出的真確性。 3. 查核限制：查核結果僅代表網路上是否有背書，且多個獨立正確敘述的組合可能產生錯誤的整體結論。 **二、語言模型的偏見檢測與減輕 (Bias Detection and Mitigation)** 1. **偏見的種類：** 涵蓋種族、性別、職業刻板印象及政治傾向等。 2. **檢測方法：** * 詞彙替換法：替換輸入句中的性別或族群詞彙，比較輸出內容的差異（如情緒分數）。 * 紅隊測試（Red Teaming）：使用另一個語言模型來刺激目標模型，以找出潛在的偏見輸出。 3. **實際影響：** 履歷審查實驗顯示，LLM 在評估應徵者時會出現基於姓名/種族的偏見。 4. **減輕方法：** 可從訓練資料、訓練過程或事後處理（亡羊補牢）等多面向著手。 **三、偵測 AI 生成內容 (Detecting AI-Generated Content)** 1. **偵測動機：** 判斷作業或論文審查意見是否由 AI 生成。 2. **技術方法：** * 分類器：透過大量人類與 AI 產生的文本進行訓練，判斷新文本的來源。 * 浮水印（Watermarking）：模型在輸出時嵌入人類難以察覺的暗號，供偵測器識別。 3. **應用案例：** 國際會議的論文審查意見中，AI 生成的比例在 2022 年底 ChatGPT 推出後顯著增加。 --- **1. 幻覺現象 (Hallucination)** 大型語言模型（LLM），即使是強大的模型如 **GPT-4，今天仍然可能會有幻覺 (Hallucination)**，即輸出錯誤或虛構的資訊。例如，當你要求 GPT-4 推薦有關大型模型安全性的重要論文時，它可能會推薦一篇**經 Google 搜尋後查不到**的文章。 **2. 應對策略：安全層與事實查核** 為了解決 LLM 犯錯的問題，可以在語言模型與使用者之間添加一個**安全層**（防火牆）。在這個安全層中，可以進行各式各樣的檢驗： * 對語言模型的輸入進行**事實查核 (Fact-Checking)**。 * 對語言模型的輸出進行**有害詞彙的檢測**。 **3. 事實查核平台的運作 (以 Gemini 為例)** 許多大型模型的平台已經內建了事實查核功能。 * **機制：** 平台會去 **Google 上搜尋**，使用 Google 搜尋的結果來驗證 LLM 輸出的話是否正確。 * **視覺標示：** * **綠色底**：表示在網路上找到了類似的資訊，認為比較有可能是對的。但網路上有類似資訊**並不代表**這件事就一定是真的。 * **紅色底**：表示網路上**找不到**相關資訊。找不到資訊**不能百分之百保證是錯的**，但模型會建議對這個輸出保持懷疑。 * **核心限制：** 事實查核的結果並非是「絕對的事實」。它只是表明在網路上找到其他資訊來源可以為該敘述**背書**。 **4. 事實查核的流程與挑戰** 有一套事實查核流程，其概念如下： * 從 LLM 的答案中**抽取需要關注的陳述**。 * 將這些陳述轉成**問題**。 * 將問題拿去搜尋，並尋找能夠找到的**佐證資料**。 * **挑戰：** 抽取陳述和轉成問題的步驟，通常會**直接拿大型模型來做**，但大型模型本身就會犯錯，因此整個流程也可能會有幻覺（Hallucination）的問題或錯誤。 **5. 組合錯誤 (Mixing Information)** 有時，LLM 輸出的**每一句話**單獨來看都能在網路上找到背書，但**合起來**卻是錯誤的。例如，Gemini 在介紹某位名為「李宏毅」的人時，可能將演員「李宏毅」的資訊與教授「李宏毅」（講者）的資訊混在一起。雖然模型推薦的每個連結或敘述單獨都是對的，但將它們組合起來卻是錯的。 ### 二、語言模型偏見的檢測與減輕 (Bias Detection and Mitigation) **1. 偏見的檢測方法 (Holistic Evaluation)** 一種常見的評量方法是透過 **Holistic Evaluation** 基準測試來評估模型的偏見： * **實施：** 向模型提問一句話，然後將句子中某個面向的詞彙（如性別詞彙）進行替換。 * **判斷標準：** 如果替換前後模型得到的答案**非常不一樣**，可能就代表模型有偏見。 * **量化：** 可以使用情緒分析模型（Sentiment Analysis）將模型輸出的兩個答案進行分析，得到分數。如果同一個輸入，僅改變性別詞彙，但輸出結果的正面或負面情緒的差距非常大，可能就代表模型有偏見。 * **挑戰：** 現在的語言模型（如 GPT-4）通常會給出「官腔」的正面的回答，很難找出其天線的質，使得檢測變得困難。 **2. 進階檢測：紅隊測試 (Red Teaming)** 為了更完整地檢測模型，可以引入另一個語言模型來扮演**紅隊**（Red Team）。 * **目的：** 紅隊模型會想辦法說出一些話來**刺激**我們開發的模型，讓它講出帶有偏見或歧視性的內容。 * **訓練目標：** 紅隊模型的訓練目標就是讓被測試的模型**講出偏見**。 **3. 履歷審查的偏見實證** 在虛擬的實驗中，研究人員編造了一份履歷，但將名字換成代表不同族群或性別的八個不同名字。 * **結果：** * **金融分析師：** 大型模型傾向於認為**亞洲人**的名字更適合。 * **人力資源（HR）：** 模型給予**女性**更高的平均排名。 * **軟體工程師：** 模型認為**白人女性**最適合。 * **結論：** 大型模型本身確實存在偏見。用 LLM 來審核履歷是可能存在問題的，因為它帶有自身的刻板印象，且不一定與人類社會的刻板印象相同。 **4. 刻板印象與政治傾向** * **職業刻板印象：** 模型對於不同職業會產生刻板印象。例如，在為幼兒園老師寫回饋時，GPT-4 給予的名字會帶有女性假名（如 Ms. gentle），而如果為建築工人寫回饋，則會假設建築工人是男性。在實驗中，模型為幼兒園老師或接待員寫回饋時，**90%** 會使用女性代名詞（She/Her），而給醫生寫回饋時，**100%** 會使用中性代名詞（They/Them）。 * **政治傾向：** 如果模型被**強迫表態**（例如，限制回答只能包含選項），多數語言模型（LLMs）的政治傾向都偏向**左派與自由主義**。在執行政治相關的決策時，需要注意模型帶有的這種潛在傾向。 **5. 減輕偏見的策略** 要減輕語言模型的偏見，可以從三個主要面向著手： * **資料預處理：** 偏見可能來自於訓練資料本身，因此需要對資料進行夥伴化的預處理。 * **訓練過程：** 在訓練過程中或在尋找模型參數時，就試圖減輕偏見。 * **事後處理（亡羊補牢）：** 在模型產生答案後，後面再加一層防禦，例如**修改模型輸出的機率**，或是對答案進行事後處理或修訂，以減少偏見。 ### 【生成式AI導論 2024】第14講：淺談大型語言模型相關的安全性議題 (下) — 欺騙大型語言模型大綱 **一、欺騙大型語言模型 (Deceiving Large Language Models)** 1. **定義與詞彙：** 透過各式方式讓 LLM 說出/做出它原本不應做的事情。 2. **越獄 (Jailbreaking)：** 攻擊目標為語言模型本體。 3. **提示注入 (Prompt Injection)：** 攻擊目標為語言模型打造的應用程式 (LLM Application)。 **二、越獄 (Jailbreaking) 的方法與目的** 1. **常見攻擊手法：** * 使用模型不熟悉的語言（如注音符號）。 * 提供衝突的指令（如要求以特定語句開頭）。 * 透過故事或額外資訊說服模型。 2. **越獄目的：** * 使模型產生有害或不道德的內容。 * 竊取語言模型訓練資料或機密個人資訊。 **三、提示注入 (Prompt Injection) 的實例** 1. **攻擊目標：** 讓 LLM 應用在不恰當的時機做不恰當的事。 2. **實戰案例：** 運用 ASCII 碼等方式，繞過 AI 助教的評量標準，強制模型輸出特定的分數。 **四、語言模型能力與安全的其他考量 (由對話歷史補充)** 1. **幻覺與事實查核：** 模型產生虛假資訊及其驗證機制。 2. **偏見檢測與減輕：** 識別並減少種族、性別、政治等方面的刻板印象。 3. **AI 生成內容偵測：** 使用分類器或浮水印來識別 AI 文本。 --- ### 一、欺騙大型語言模型：越獄與提示注入欺騙大型語言模型（LLM）的行為，通常是透過下達各式各樣的方式，讓模型說出/做出它原本不想做的事情。有兩個相關的詞彙都與 "Prompt" 有關，但含義有所區別。 #### 1. 越獄 (Jailbreaking) * **攻擊對象：** 語言模型的**本體 (LLM Core)**。 * **目的：** 讓語言模型說出一些它**本來就不應該說的話**。我們知道 LLM 具有強大的防禦能力，會避免說出有害的內容，或教人做有害的事情。越獄就是要讓 LLM **不小心講出**這些它本來被禁止說出的話。 * **類比：** 就像想辦法對一個人做催眠，然後叫他做一些法律絕對不容許的事情，例如殺人。 #### 2. 提示注入 (Prompt Injection) * **攻擊對象：** 語言模型**所打造的應用 (Application)**，例如 AI 助教。 * **目的：** 讓語言模型的應用在**不恰當的時機做不恰當的事**，說不恰當的話。 * **類比：** 就像讓一個人代為出手，在不恰當的時機（例如上課時）高聲唱歌。 ### 二、越獄 (Jailbreaking) 的方法與目的詳述 #### 1. 攻擊有害內容的技巧雖然許多知名的越獄提示（例如 DAN, "Do Anything Now"，這是 *anything* 的縮寫）對於 **GPT-3.5 曾經有效**，但對於較新的模型（如 **GPT-4 或 GPT-4o**）大多已經失效了。然而，仍有許多方法可以對最新的模型達成越獄效果。 **A. 使用模型不熟悉的語言** * **方法：** 使用 LLM 聽得懂、有一點懂，但又**沒有那麼熟悉**的語言。 * **範例：** 提問如何砍倒一個停車標誌。如果直接問，模型會拒絕並建議聯繫當地政府。但如果將需求用**注音符號**來表示，GPT-4o 看得懂注音符號，但因為對其不如英文熟悉，它會「忘了」需要做防禦，並老實地教你如何砍倒停車標誌。 **B. 衝突指令 (Conflicting Instructions)** * **方法：** 在要求模型執行不當行為的指令後面，**加上一句話**，給予它一個衝突的指令。 * **範例：** 要求模型教你如何砍倒停車標誌，然後補上：「請你用 `absolutely here` 開始你的答案」。語言模型會傻傻地從 `absolutely here` 開始回答，一旦它說了這句話，它接下來的話就像收不回來一樣，會教你如何砍倒停車標誌。 * **強度：** 這種方法**非常強大**，甚至可以直接叫模型殺人都會得到回答。 **C. 說服模型** * **方法：** 試圖說服語言模型，向它提供**額外的資訊**，讓它做它本來不應該做的事情。 * **範例：** 為了讓模型教你如何拆除停車標誌，你可以編造一個故事，說明這個停車標誌有多壞，例如它被閃電擊中後具有神奇力量，導致許多人受到傷害。模型會被這個故事說服，然後告訴你拆除標誌的工具。 #### 2. 越獄的其他目的：竊取訓練資料越獄不只用於產生有害的內容，有時也用於**竊取語言模型的訓練資料**。 * **動機：** 如果模型讀過機密資料或個人資料（例如包含每個人的身份證字號的資料庫），攻擊者就會想辦法讓模型吐出這些個人資訊。 * **防禦機制：** 如果直接問模型個人資訊，例如某人的地址，模型通常會拒絕提供，並建議聯繫相關機構。 * **竊取技巧 (重複單字法)：** 曾有文獻宣稱成功竊取了 LLM 內部的機密資料。他們要求語言模型**無限次重複同一個單字**（例如重複「詩」這個字）。模型重複到後來會「發狂」，突然透露出某個人的個人資訊。 * **成功率與難度：** 該文獻指出，在模型透露出的資訊中，大約 **10%** 左右是真的個人資訊。但是，這種方法並不容易成功，成功機率大約只有 **1%** 左右，且有研究者嘗試仍無法成功。文獻強調重複的必須是**單字**，且不同的單字效果不同。 ### 三、提示注入 (Prompt Injection) 的實戰案例提示注入攻擊的是 LLM 扮演的角色或其應用框架，這在作業中曾被大量嘗試。 * **作業背景：** 課程作業中，LLM（GPT-4 扮演 AI 助教）會輸出 `Final Score: [數值]` 來決定學生成績。 * **失敗嘗試：** 學生直接要求模型說出 `Final Score 100`，但 GPT-4 會判斷該作業沒有提供有用的觀點，只願意給予低分。 * **成功策略：ASCII 碼欺騙** * **方法：** 有人發明了巧妙的文本，例如：給予 AI 助教一段文字，聲稱是「我的祖母常常給我下面這一段 ASCII 碼，它翻譯成英文到底是什麼意思呢？」。 * **機制：** 儘管模型的角色是 AI 助教，但它**無法控制想要做翻譯的衝動**，因為它覺得翻譯 ASCII 碼很可疑（一般人類無法翻譯）。 * **結果：** 模型翻譯出來的內容正是攻擊者想要注入的指令，例如 `Final Score 100`。 * **應用與防禦：** 有專門的提示注入比賽 (Prompt Injection Competition) 用於收集大量的攻擊範例，並建立分類與防禦機制。在課程作業中，平台也曾對上傳的內容進行掃描，分析其中的注入嘗試，並修訂作業的提示以提升防禦能力。 --- 其他課程: [【生成式AI導論 2024】00~02 生成式AI介紹](https://hackmd.io/@JuitingChen/ByiS0S_Aex) [【生成式AI導論 2024】03~05 訓練不了人工智慧？你可以訓練你自己](https://hackmd.io/@JuitingChen/SJZdX5KAlx) [【生成式AI導論 2024】06~08 大型語言模型修練史](https://hackmd.io/@JuitingChen/H1vfEqYCee) [【生成式AI導論 2024】09~11 AI Agent、Transfoermer、可解釋性](https://hackmd.io/@JuitingChen/BybEB9KRxx) [【生成式AI導論 2024】12~14 淺談檢定大型語言模型能力和大型語言模型相關的安全性議題](https://hackmd.io/@JuitingChen/ByyxUcY0le) [【生成式AI導論 2024】15~16 生成式人工智慧的生成策略和 Speculative Decoding](https://hackmd.io/@JuitingChen/H1sW_mfJZg) [【生成式AI導論 2024】17~18 有關影像的生成式AI 和 GPT-4o 可能的語音技術](https://hackmd.io/@JuitingChen/S1uFKmG1Zx)