筆記-論文-AutoRedTeamer An Autonomous Red Teaming Agent Against Language Models

# [AutoRedTeamer:An Autonomous Red Teaming Agent Against Language Models](https://arxiv.org/abs/2503.15754) ## 筆記 - [官方網站](https://autoredteamer.com/) - [Arxiv](https://arxiv.org/abs/2503.15754) - [OpenReview.net](https://openreview.net/forum?id=DVmn8GyjeD) - [Notebooklm](https://notebooklm.google.com/notebook/3b606ba8-a625-409f-ae58-44e42b907be5) - [簡報](https://docs.google.com/presentation/d/1Nv8pqq6CELBpqfyGbj4hQndUjO-kdIbrgUQ9DfPfRao/edit?slide=id.p#slide=id.p) ## 負責內容 - 負責Appendix D以後的內容 # 筆記-官方網頁 - Github無法開啟 - # 筆記-論文 ## 摘要隨著大型語言模型發展，安全性評估日益重要。目前在紅隊演練上對於偵測大型語言模型的弱點有長足的發展，卻受限於人工輸入和缺乏全面行的攻擊向量評估。本篇提出AutoRedTeamer，一個新穎的全自動、端到端的紅隊演練框架，且結合多個Agent架構與記憶引導和攻擊選擇機制以持續發現和整合新的攻擊向量。雙Agent系統架構包含一個可以執行高等風險分類並生成和執行測試案例的紅隊演練Agent，和一個能自動發性和執行最近研究文獻的研究策略提出者Agent。模組化的設計使得AutoRedTeamer能夠適應新出現的威脅型態並且同時在現有的攻擊向量上保持相當好的表現。 AutoRedTeamer在不同的有效性和設定上，比較現有方法使用Llama3.1-7-B在HarmBench上取得了20%更好的表現並降低了46%的計算消耗。 AutoRedTeamer也符合在人類製作的生成案例的測試基準，提供了生成測試案例、提供了全面性、規模化和可持續進化的AI安全評估框架。 ## 介紹現代的模型如大型語言模型以及快的速度進步並且在許多領域上取得傑出成績。而模型的進步也伴隨著風險，如被用於生成有毒或誤導內容、製作資安惡意攻擊等。也因此對不同使用者輸入和對抗性提示詞進行全面性地評估大型語言模型的弱點成為了懸而未決且重要的問題。在模型部署之前，一般都會進行針對系統性地大型語言模型的安全性風險的紅隊演練評估，提示詞或測試案例會生成以探測模型的行為。許多方法仰賴靜態的評估框架，使用預先建構的種子提示詞或是特定的有害行為評估模型的弱點。由於仰賴人工撰寫測試案例，靜態評估難以規模化或套用到新型的攻擊上，也會隨著時間逐漸降低相關性。除此之外，近來研究發現現有研究提出的測試基準也缺乏特定風險類別的AI範疇，導致未達合理規範的標準。由於人工紅隊演練的高成本，近來研究更多在試圖自動化紅隊演練的過程，包含自動化生成測試案例、自動化評估大型語言模型對於不同攻擊技術的回覆、以測試案例對大型語言模型進行對抗性訓練以微調等。以上技術都使得過程中的個別組件進行自動化，卻也有著幾項關鍵上的限制；其一，大多研究都專注於最佳化個別攻擊向量(這邊提到包含最佳化詞綴和提示詞變化)，而缺乏不同攻擊之間的協同作用下的討論，使得涵蓋的攻擊空間受限。 ## 相關文獻 ### 人工紅隊演練 ### 自動化紅隊演練 ## AutoRedTeamer #### AutoRedTeamer的目標 ### 概觀 ![image](https://hackmd.io/_uploads/H1UcYgPNxx.png) ### 攻擊探索與提案 ### 攻擊實現與整合 ### 風險分析 ### 種子提示詞生成 ### 策略設計者 ### 記憶系統 ### 自動化評估 ## 實驗 ### 實驗步驟 ### 評估與行為輸入 ### 評估與風險類別輸入 ### AutoRedTeamer分析 ## 結論 ## Appendix A-講述其他Appendix 的概要 The Appendix is organized as follows. - **Sec. B** is an ethics statement for our work, - **Sec. C** contains additional method andattack details, - **Sec. D** contains additional results and visualizations, - **Sec. E** contains the code for an example successful LLM-generated attack, - **Sec. F** 提示詞的案例以及大型語言模型的回覆, - **Sec. G** has the system prompt for each module, and - **Sec. H** contains the pseudocode for AutoRedTeamer. ## Appendix B ## Appendix C ### C.1. Attack descriptions - 提示詞自動化迭代微調 - 剪枝樹攻擊 - Pliny - 藝術化提示詞 ### C.2. LLM Attack Descriptions - 專業用語 - 重新建構 - 角色扮演 - 權威操弄 - 文字遊戲 - 情緒操弄 - 越獄指示 - 歷史場景 - 罕見方言 - 少量案例 - 過去式 - 文化引用 - 推理謎題 ## Appendix D ### 關於記憶的消融實驗 ### 攻擊分布 ### 適應性防禦針對攻擊 ### 比較其他方法 ### 攻擊發現結合 ### 大型語言模型 v.s. 人工發起攻擊 ### 攻擊的變換頻率 ### 時間有效性 ![image](https://hackmd.io/_uploads/BkwhwOH4el.png) ![image](https://hackmd.io/_uploads/rkm6v_rEge.png) ![image](https://hackmd.io/_uploads/SJI0wdr4ge.png) ![image](https://hackmd.io/_uploads/S1MyuuHElg.png) ## Appendix E. Attack Example ![image](https://hackmd.io/_uploads/rkeWfiB4ge.png) ## Appendix F. Examples ![image](https://hackmd.io/_uploads/S11_t_BVgl.png) ![image](https://hackmd.io/_uploads/rJMUF_rVge.png) ![image](https://hackmd.io/_uploads/SkSqFuSEle.png) ![image](https://hackmd.io/_uploads/Syn2turVxg.png) ## Appendix G. Prompts ![image](https://hackmd.io/_uploads/HJRFIdrVlg.png) ![image](https://hackmd.io/_uploads/B1tuP_BNgx.png) ![image](https://hackmd.io/_uploads/HkwtPuSVle.png) ## Appendix H. Pseudocode ![image](https://hackmd.io/_uploads/rJwLUOrVll.png)