# LLM COLLABORATIVE INTELLIGENCE: THE PATH TO ARTIFICIAL GENERAL INTELLIGENCE ## EDWARD Y.CHANG [第1章 人工智慧的簡史:從圖靈到變形模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hk_XGgt81e) [第2章 大型語言模型(Large Language Models, LLMs)的能力與機遇](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/H14XrxYUyl) [第3章 提示工程:Few-Shot、Chain of Thought 與 Retrieval-Augmented Generation](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HymkilKL1l) [第4章 CRIT: 使用蘇格拉底式提問促進 LLM 的批判性思考](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HkuqTgFUJx) [第5章 SocraSynth:對抗式多-LLM推理](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkKY7WKLyg) [第6章 EVINCE:透過條件式統計與資訊理論](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/SJx2qrrDyg) [第7章 揭示反思性大型語言模型中的錯誤與偏見](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Sy7NuOjDJe) [第8章 多模態大型語言模型中的情感建模 ](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkgXfFoPJl)[第9章 一個三分支制衡框架,用於大型語言模型的情境感知倫理對齊](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/S1tp7toPyg) [第10章 超越計算: 意識建模](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BJVUUFjDye) [第11章 回顧性與適應性框架 以改善大型語言模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1j46Zt8Jx) [ 第12章 發現洞見 超越已知 ](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1lVzY2wkl)[附錄 X1 蘇格拉底的箴言](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hym0J53vJe) --- ### 第十一章 回顧性與適應性框架 以改善大型語言模型 **摘要** RAFERL 是一個回顧性與適應性框架,旨在將**私有大型語言模型(LLMs)**與**教師 LLMs**進行基準測試,識別回應中的差異。在初步基準測試之後,RAFERL 將這些差異分類為四個不同的類別,基於認知層級和錯誤類型。隨後的階段涉及詳細的診斷和深入探查,以揭示每個差異類別背後的根本原因。**教師 LLMs**在審查**私有 LLM**中扮演關鍵角色,揭示其性能問題的細微之處。通過清晰地理解症狀及其根本原因,RAFERL 提出針對性的解決方案,並附有相關數據來源的建議,以通過微調、RAG(檢索增強生成)或兩者來提升**私有 LLM**的性能。實證研究驗證了 RAFEL 在診斷和提升本地化 LLM 能力方面的有效性。 以下為完整翻譯(繁體中文),未遺漏任何原始訊息: --- #### **11.1 引言** 大型語言模型(LLMs)如 GPT [21] 和 Gemini [24] 的出現,顯著推動了自然語言處理領域的進步,使得生成與人類寫作極為相似的文本成為可能,並在各種領域提供深刻見解。儘管它們具有變革性的潛力,但這些模型的部署和可擴展性帶來了相當大的計算和數據挑戰。一個實際的應對方式是微調中型開源模型,如 LLaMa [25],以滿足專門需求,使組織能夠在性能和可行性之間取得平衡,同時優先考慮數據隱私和針對獨特應用的模型定制。 向使用私人微調或本地部署的大型語言模型轉變帶來了必要的管理和技術挑戰,這對企業戰略、治理和創新至關重要。本章探討了這一轉變的技術挑戰,包括: • 通過建立相關性能指標和基準,證明選擇私人大型語言模型而非公共對應模型的合理性。 • 進行深入的錯誤分析,確定私人大型語言模型性能問題的根本原因,確保針對性和有效的修正策略。 • 確定對私人大型語言模型微調至關重要的特定高質量數據,旨在提高其準確性和領域相關性。 • 實施檢索增強生成(Retrieval-Augmented Generation, RAG),以動態納入外部、更新的知識來源,提升模型的反應能力和知識範圍。 • 探索利用公共和私人大型語言模型優勢的混合模型,以實現更高的性能和對新數據及領域的更大適應性。 我們介紹了 RAFEL,一個設計用於回顧性和適應性提升大型語言模型的框架,解決這些技術挑戰。RAFERL 策略性地平衡成本和性能,通過採用先進的診斷算法。這些算法有效地識別並解決效率低下的根本原因,確保解決方案具有經濟可行性。RAFERL 在認知層級上運用先進的基準測試指標,提供全面的大型語言模型性能評估。其診斷的核心是兩個關鍵算法:DIAG,用於非侵入性1的評估,以及 PRBE,用於徹底的侵入性探查。這種組合使 RAFEL 能夠檢測並理解表層和深層的性能問題,促進針對性數據來源的獲取以進行提升。 RAFERL 擅長創建針對性且有效的修正策略,確保數據隱私和安全,並通過實際數據研究進行驗證。RAFERL 的新穎性包括: 1. **深度探查與認知及錯誤類型分析**:RAFERL 不僅僅是傳統的錯誤率分析,它通過深入探查大型語言模型的回應,將錯誤分類在認知層級(回憶、理解、分析、推理)和類型(幻覺、偏見),從而深入理解模型的性能問題。 2. **細粒度、精確的數據增強**:與傳統手動搜索粗粒度數據增強相比,RAFERL 識別所需的數據並進行更精確和相關的數據增強,直接解決已識別的認知和錯誤類型缺陷。 3. **動態修正手冊**:RAFERL 根據數據和錯誤的實時分析動態調整其修正策略,類似於運動戰術的適應,確保最有效和最合適的干預措施得到應用。 本章的結構如下:第 11.2 節回顧相關研究,第 11.3 節詳細介紹 RAFEL 的階段及其 DIAG 和 PRBE 算法,第 11.4 節討論實驗設置和結果,第 11.5 節總結關鍵要點和未來研究方向。 1. 非侵入性方法在不與大型語言模型的內部數據互動的情況下進行評估,而侵入性方法則直接與大型語言模型互動,訪問潛在的敏感數據。 --- #### **11.2 相關研究** 生成式人工智慧(Generative AI, GAI)的發展在 transformer 架構 [27] 的出現下取得了重大進展,推動了大型語言模型如 GPT-3 的創建,自其問世以來受到了廣泛關注 [6]。隨著 OpenAI 推出 ChatGPT,該領域迅速進步,隨後推出了 GPT-4 [21, 7] 和 Gemini [24] 等迭代版本,以及其他由領先企業開發的創新模型,展示了在文本、圖像和視頻生成方面的增強能力。 部署和擴展這些先進模型帶來了相當大的挑戰,尤其是在計算和數據管理方面。為了解決這些問題,一種普遍的方法是微調中型開源模型,如 LLaMa [25]、Bloom [3] 和 Falcon [1],以及已建立的框架如 BERT [15],以滿足特定應用需求。這一策略使組織能夠在性能和實用性之間取得平衡,確保數據隱私並針對特定需求定制模型。 #### **RAG 微調** | **描述** | **檢索增強生成(RAG)** | |----------|------------------------| | **檢索** | 根據查詢從知識庫檢索。 | | **微調** | 基於特定任務的數據進一步訓練,以細化模型參數。 | | **數據** | 結構化知識庫,外部(例如新聞)或內部(例如公司數據)。 | | **數據集** | 大量特定任務的數據集(例如問答對、維基百科、文件摘要)。 | | **優點** | 1. 獲取最新信息<br>2. 可解釋性<br>3. 有效的領域適應 | | **缺點** | 1. 依賴檢索質量<br>2. 由於檢索導致的延遲 | | **微調** | 知識和數據在訓練後靜態<br>2. 過程的可解釋性較差<br>3. 由於查詢量大,擴展性問題 | | **缺點** | 1. 知識和數據在訓練後靜態<br>2. 過程的可解釋性較差<br>3. 由於查詢量大,擴展性問題 | **表 11.1:RAG 與微調在提升大型語言模型方面的比較 [2]。** 提升私人大型語言模型性能涉及解決如擴展詞彙、適應特定領域和納入額外數據等挑戰。這需要在使用微調 [5, 28, 23, 29] 或檢索增強生成(RAG)[17, 16] 之間做出戰略選擇,以提高回應精確性。表 11.1 概述了微調與 RAG 的優缺點。這些考量將指導 RAFEL 系統的修正策略,旨在解決私人大型語言模型中識別出的差異。 #### **11.2.1 微調** 微調調整大型語言模型以適應特定領域的數據,提升其在特定應用中的有效性。微調的深度各不相同,受計算資源和期望結果的影響,範圍從淺層的低秩微調 [18, 14] 到全面的方法,具體取決於模型的大小和領域的需求。 在細粒度層面,微調分為單任務學習、多任務學習和少量樣本學習,具體選擇取決於手頭任務的具體需求和限制 [29]。RAFERL 引入了一種方法論,以辨別最有效的微調方法和數據利用,標誌著該領域的新貢獻。 #### **11.2.2 檢索增強生成(RAG)** 與靜態微調相比,RAG 動態地通過實時數據檢索豐富上下文,提升大型語言模型的回應質量。基於啟發式的檢索方法如 RETRO [4] 和 LlamaIndex [19] 提升了 RAG 的實用性。然而,隨著上下文緩衝區大小的增加,最近 ChatGPT 和 Gemini 的案例簡化了 RAG 過程,使大型語言模型能夠有效地融合檢索和生成。雖然樹狀結構和預取技術 [12, 13] 對於小窗口有用,但大型上下文窗口允許更自主的數據整合,簡化了 RAG 在 RAFEL 框架中的應用。 --- **圖 11.1:RAFERL 四個階段:基準測試、診斷、深度探查與修正。完成四個階段後,私有大型語言模型(位於圖形底部)執行修正策略。** #### **11.3 回顧性與適應性學習** 組織內所有大型語言模型(LLMs)的實例,表示為 LLMi,其中 i = 1, …, N,均整合進 RAFEL 框架中。這種整合支持安全與隱私審計、預算管理及其他關鍵管理任務等重要方面。此外,RAFERL 承擔四個主要技術功能: 1. **基準測試**:定期評估大型語言模型,對其進行分級並在儀表板上展示結果,以便於存取和分析。 2. **診斷分析**:將 LLMu 與教師模型(例如 GPT-4、Gemini)進行比較,識別各種認知層級—回憶、理解、分析和解釋—下的性能差距原因。 3. **深度探查**:進行徹底調查,超越表層分析,以收集有關 LLMu 的見解。 4. **修正策略**:應用見解來微調 LLMu 或實施 RAG 策略,通過相關數據提升性能。 **圖 11.1** 展示了 RAFEL 的架構,詳細說明了其四個階段。 ##### **11.3.1 基準測試** 基準測試是 RAFEL 中大型語言模型評估的基石,通過將 LLMu 與領先模型如 GPT-4 和 Gemini 進行比較,設定性能基線。基準測試包括: 1. **內容問題**:識別 LLMu 的輸出與基準之間的差異。 2. **查詢問題**:評估並精煉查詢,以確認差異的原因是來自內容還是查詢。 ##### **11.3.2 DIAG:認知差異診斷** DIAG 超越了單純的性能指標,提供對 LLMu 限制的徹底理解。它利用 Bloom 的分類法來檢視不同認知層級下的回應: 1. **回憶與理解**:此階段評估大型語言模型對基本知識的掌握以及解釋信息的能力。簡而言之,重點在於“什麼”、“誰”和“哪裡”問題。**(例子:“RAG 代表什麼?”或“描述 RAG 策略涉及的步驟。”)** 2. **分析與解釋**:此處重點在於大型語言模型的批判性思維、問題解決能力以及在新情境中應用知識的能力,基本上處理“為什麼”和“如何”問題。**(例子:“識別微調與 RAG 之間的差異。”或“給定一個特定情境,決定哪種方法—微調或 RAG—最為理想。”)** DIAG 的分析有效地將錯誤分類,從而啟用針對性的干預措施,提升修正策略的效能。這一過程產生了一個多維度的分析,精確識別需要針對性增強的認知領域。 **註:** 2. 並非所有問題都能以 wh 形式撰寫,例如祈使句、修辭問題和感嘆句。它們可以在我們的信息尋求目的中被忽略。 ##### **算法 DIAG 規範** 算法 DIAG 包含八個詳細步驟,如圖 11.2 所示。初始階段涵蓋步驟 #1 至 #3,DIAG 在此階段評估由私有大型語言模型 LLMu 生成的問答對。在此階段,DIAG 徵求教師大型語言模型 LLMA 和 LLMB 的“金標準”基準答案,以供後續分析。 下一階段涵蓋步驟 #4 至 #7,專注於問題的分類和答案的交叉檢查。在此階段,LLMA 將 LLMu 的回應與 LLMB 設定的基準進行比較,反之亦然,LLMB 將 LLMu 的答案與 LLMA 的標準進行評估。這種互惠評估確保了對“金標準”答案的徹底交叉檢查和基準測試。 DIAG 的檢查協議遵循兩個主要指令。第一個指令根據認知層級將每個問題分類,區分為“回憶與理解”和“分析與評估”。第二個指令涉及對 LLMu 的答案與教師大型語言模型的答案進行細緻比較,生成兩個分數:LLMA 的 ΓA 和 LLMB 的 ΓB。 完成這些步驟後,DIAG 將結果匯總以制定 Γ,這是一個綜合分數,融合了兩個教師大型語言模型的評估結果(ΓA 和 ΓB)。此過程旨在提供 LLMu 相對於兩個認知維度上的“金標準”性能的準確基準。結合兩個傑出教師大型語言模型 GPT-4 和 Gemini 的評估,旨在減少偏差,正如我們之前的研究所深入探討的 [10, 11, 26]。 --- ##### **11.3.3 PRBE:深度探查** 從基準測試和診斷(DIAG)的基礎階段過渡,我們開始一個深入的調查階段,稱為 PRBE(深度探查)。這一關鍵階段旨在通過細致和策略性的探查,揭示 LLMu 性能變異背後的複雜原因。 DIAG 的作用是基於歷史樣本問答對進行初步診斷,揭示表層差異和模式,而 PRBE 則採取更有針對性和探索性的方式。它設計了新的、經過深思熟慮的問題,調查 LLMu 的基本機制和認知過程。這些探查專門設計來闡明 DIAG 最初識別的偏見和幻覺等問題的更深層、系統性原因。在這個類比中,如果 DIAG 可以比作非侵入性的症狀檢查,那麼 PRBE 就是更具侵入性、外科手術式的探索,旨在診斷和理解 LLMu 挑戰的根本原因。 **表 11.2:醫療保健、環境科學和體育新聞領域中的四類深度探查問題。** | **類別** | **問題示例** | |----------|--------------| | **RC&H** | 列出 COVID-19 疫苗已知的所有副作用。<br>列出主要氣候變化事件的時間線。<br>今年誰贏得了大滿貫冠軍?<br>列出 M. 贏得的標題。 | | **RC&B** | 比較傳統與替代醫學。<br>可再生能源與化石燃料對全球暖化的影響?<br>描述 S. Williams 和 R. Federer 的職業成就。 | | **AE&H** | 分析遠程醫療的短期與長期影響。<br>預測森林砍伐對生物多樣性的影響。 | | **AE&B** | 評估美國心理健康服務的可及性。<br>評估減少塑料污染的政策效果。<br>分析早期職業支持對 M. Sharapova 和 V. Williams 的影響。<br>比較 Nadal 與 Djokovic 在不同球場表面的表現。 | ##### **策略性提問** 隨著我們進入 PRBE 階段,重點轉向策略性提問,以更精確地剖析 LLMu 的認知過程。這一方法將之前評估的問答對分類為兩個主要維度:認知層級(從回憶與理解到分析與推理)和差異類型(幻覺與偏見)。PRBE 精細地設計問題,以發掘 DIAG 識別的差異背後的基本原因。 1. **回憶與理解與幻覺(RC&H)**:重點在於診斷 LLMu 在基本回憶或理解任務中捏造細節或呈現無根據的主張的傾向。問題的設計旨在測試事實回憶和直接概念理解,旨在精確定位 LLMu 輸出中的不準確或捏造部分。 2. **回憶與理解與偏見(RC&B)**:目的是評估 LLMu 在基礎層面上呈現信息的能力,無偏見地表達。這涉及開發探查基本知識或理解的查詢,特別是在易受偏見解釋的上下文中,以識別其數據處理或知識表徵中的系統性偏見。 3. **分析與評估與幻覺(AE&H)**:目標是探索 LLMu 在複雜認知任務中生成幻覺內容的傾向。構建需要高級分析或推理能力的場景,檢查回應中的無根據敘事,揭示信息整合和推斷的方式。 4. **分析與評估與偏見(AE&B)**:目的是挖掘 LLMu 的高級推理能力,揭示可能影響其輸出的偏見,特別是在複雜情境中。通過與需要分析或解決問題的深入問題互動,識別有偏見的推理或偏斜的觀點。 通過這一精煉的調查框架,對 LLMu 功能的每一個方面都進行了探查,提供了其優勢和需要改進的領域的全面視圖。這一階段獲得的見解對於制定提升 LLMu 能力的路徑至關重要。 --- ### **範例** **表 11.2** 使用三個目標應用領域——醫療保健、環境科學和體育新聞——來說明四個評估類別中建議的深度探查問題。一些問題測試記憶能力,一些測試分析能力;另有一些專注於幻覺,另一些專注於偏見。 #### **聚焦探索** 聚焦探索將檢查的重點放在特定領域,LLMu 對先前提出的深度探查問題的回應揭示了關鍵見解。這一探索的核心方面包括: 1. **審視 LLMu 回應背後的理據** 2. **剖析其推理優勢** 3. **評估其應對意外或新問題的適應能力** 目標是精確識別需要針對性改進的認知功能和處理策略領域,從而大幅提升 LLMu 的整體效能。 #### **範例** 在發現 LLMu 對偏見和幻覺的傾向後,教師大型語言模型調查其根本原因。 1. **信息來源**:這一探查旨在闡明 LLMu 驗證信息的方法及其選擇來源的標準。通過詢問「詳細說明你確保回答準確性的過程,特別是針對表 11.2 中的查詢,並列舉你的來源」,教師大型語言模型旨在定位 LLMu 來源材料中的潛在缺口。 2. **推理能力**:為了評估 LLMu 的邏輯能力,PRBE 可能會運用通過 CRIT 算法 [8, 9] 執行的蘇格拉底方法,提供對其歸納和演繹過程的嚴格檢驗。 3. **適應新領域的能力**:利用表 11.2 中與醫療保健相關的查詢,PRBE 評估專門針對體育新聞的 LLM 能否處理其主要領域之外的問題,測試其反應能力及其承認知識界限的能力。 --- #### **算法 PRBE 規範** **算法 PRBE**,如圖 11.3 所示,結構分為兩個核心階段:策略性提問/評估和聚焦探索。它包含兩個子程序,CRIT [8, 9] 和 SocraSynth [10],這些子程序在擴展問題範圍、評估回應的質量和推理能力以及評估數據來源的可信度方面起著關鍵作用。 在初始階段,PRBE 通過將問題分類為兩個認知類別:“回憶與理解”和“分析與解釋”,來仔細檢查學生大型語言模型(LLMu)的歷史回應。這一分類是通過首先將每個歷史問題轉換為 wh-形式來實現的。利用 SocraSynth,然後在教師大型語言模型 LLMA 和 LLMB 之間促成對話,以最終確定一組探查問題,表示為 P。 過渡到第二階段,PRBE 評估並識別學生大型語言模型與教師模型之間回應的差異。它首先調用 SocraSynth(步驟 #2b)來提示 LLMA 和 LLMB 通過考慮不同的難度級別(例如,從高中到研究生學習)和時間背景(從過去到現在)來豐富問題集 P。在利用問題生成研究中的見解 [22, 20] 的同時,PRBE 採用先進的大型語言模型如 GPT-4 和 Gemini 來擴展有用的問題。在步驟 #2c 到 #2e 中,PRBE 要求兩個教師大型語言模型對擴展的問題集 P 進行交叉檢查,以評分所有三個大型語言模型的回應。 隨後的步驟 #3 在精確定位學生大型語言模型回應差異的原因及識別其潛在知識缺口方面起著關鍵作用。CRIT 被調用來評估每個問答對的推理有效性和來源可信度。通過對比分析(“差異”操作)學生大型語言模型 LLMu 的回應與教師模型 LLMA 和 LLMB 的回應,步驟 #3e 和 #3f 旨在發掘可能在 LLMu 的修正階段中起關鍵作用的缺失數據來源。 #### **預期結果** 這一系統性的方法使 PRBE 不僅能夠精確定位 LLMu 性能問題的原因,還能指導相關數據來源的收集,以在隨後的修正工作中提升模型的知識庫和回應精確性。 --- ### **範例** **表 11.2** 使用三個目標應用領域——醫療保健、環境科學和體育新聞——來說明四個評估類別中建議的深度探查問題。一些問題測試記憶能力,一些測試分析能力;另有一些專注於幻覺,另一些專注於偏見。 #### **聚焦探索** 聚焦探索將檢查的重點放在特定領域,LLMu 對先前提出的深度探查問題的回應揭示了關鍵見解。這一探索的核心方面包括: 1. **審視 LLMu 回應背後的理據** 2. **剖析其推理優勢** 3. **評估其應對意外或新問題的適應能力** 目標是精確識別需要針對性改進的認知功能和處理策略領域,從而大幅提升 LLMu 的整體效能。 #### **範例** 在發現 LLMu 對偏見和幻覺的傾向後,教師大型語言模型調查其根本原因。 1. **信息來源**:這一探查旨在闡明 LLMu 驗證信息的方法及其選擇來源的標準。通過詢問「詳細說明你確保回答準確性的過程,特別是針對表 11.2 中的查詢,並列舉你的來源」,教師大型語言模型旨在定位 LLMu 來源材料中的潛在缺口。 2. **推理能力**:為了評估 LLMu 的邏輯能力,PRBE 可能會運用通過 CRIT 算法 [8, 9] 執行的蘇格拉底方法,提供對其歸納和演繹過程的嚴格檢驗。 3. **適應新領域的能力**:利用表 11.2 中與醫療保健相關的查詢,PRBE 評估專門針對體育新聞的 LLM 能否處理其主要領域之外的問題,測試其反應能力及其承認知識界限的能力。 --- #### **算法 PRBE 規範** **算法 PRBE 規範** 算法 PRBE,如圖 11.3 所示,結構分為兩個核心階段:策略性提問/評估和聚焦探索。它包含兩個子程序,CRIT [8, 9] 和 SocraSynth [10],這些子程序在擴展問題範圍、評估回應的質量和推理能力以及評估數據來源的可信度方面起著關鍵作用。 在初始階段,PRBE 通過將問題分類為兩個認知類別:“回憶與理解”和“分析與解釋”,來仔細檢查學生大型語言模型(LLMu)的歷史回應。這一分類是通過首先將每個歷史問題轉換為 wh-形式來實現的。利用 SocraSynth,然後在教師大型語言模型 LLMA 和 LLMB 之間促成對話,以最終確定一組探查問題,表示為 P。 過渡到第二階段,PRBE 評估並識別學生大型語言模型與教師模型之間回應的差異。它首先調用 SocraSynth(步驟 #2b)來提示 LLMA 和 LLMB 通過考慮不同的難度級別(例如,從高中到研究生學習)和時間背景(從過去到現在)來豐富問題集 P。在利用問題生成研究中的見解 [22, 20] 的同時,PRBE 採用先進的大型語言模型如 GPT-4 和 Gemini 來擴展有用的問題。在步驟 #2c 到 #2e 中,PRBE 要求兩個教師大型語言模型對擴展的問題集 P 進行交叉檢查,以評分所有三個大型語言模型的回應。 隨後的步驟 #3 在精確定位學生大型語言模型回應差異的原因及識別其潛在知識缺口方面起著關鍵作用。CRIT 被調用來評估每個問答對的推理有效性和來源可信度。通過對比分析(“差異”操作)學生大型語言模型 LLMu 的回應與教師模型 LLMA 和 LLMB 的回應,步驟 #3e 和 #3f 旨在發掘可能在 LLMu 的修正階段中起關鍵作用的缺失數據來源。 #### **預期結果** 這一系統性的方法使 PRBE 不僅能夠精確定位 LLMu 性能問題的原因,還能指導相關數據來源的收集,以在隨後的修正工作中提升模型的知識庫和回應精確性。 --- ### **算法 PRBE 規範** **算法 PRBE 規範** 算法 PRBE,如圖 11.3 所示,結構分為兩個核心階段:策略性提問/評估和聚焦探索。它包含兩個子程序,CRIT [8, 9] 和 SocraSynth [10],這些子程序在擴展問題範圍、評估回應的質量和推理能力以及評估數據來源的可信度方面起著關鍵作用。 在初始階段,PRBE 通過將問題分類為兩個認知類別:“回憶與理解”和“分析與解釋”,來仔細檢查學生大型語言模型(LLMu)的歷史回應。這一分類是通過首先將每個歷史問題轉換為 wh-形式來實現的。利用 SocraSynth,然後在教師大型語言模型 LLMA 和 LLMB 之間促成對話,以最終確定一組探查問題,表示為 P。 過渡到第二階段,PRBE 評估並識別學生大型語言模型與教師模型之間回應的差異。它首先調用 SocraSynth(步驟 #2b)來提示 LLMA 和 LLMB 通過考慮不同的難度級別(例如,從高中到研究生學習)和時間背景(從過去到現在)來豐富問題集 P。在利用問題生成研究中的見解 [22, 20] 的同時,PRBE 採用先進的大型語言模型如 GPT-4 和 Gemini 來擴展有用的問題。在步驟 #2c 到 #2e 中,PRBE 要求兩個教師大型語言模型對擴展的問題集 P 進行交叉檢查,以評分所有三個大型語言模型的回應。 隨後的步驟 #3 在精確定位學生大型語言模型回應差異的原因及識別其潛在知識缺口方面起著關鍵作用。CRIT 被調用來評估每個問答對的推理有效性和來源可信度。通過對比分析(“差異”操作)學生大型語言模型 LLMu 的回應與教師模型 LLMA 和 LLMB 的回應,步驟 #3e 和 #3f 旨在發掘可能在 LLMu 的修正階段中起關鍵作用的缺失數據來源。 #### **預期結果** 這一系統性的方法使 PRBE 不僅能夠精確定位 LLMu 性能問題的原因,還能指導相關數據來源的收集,以在隨後的修正工作中提升模型的知識庫和回應精確性。 --- ### **11.3.4 修正策略** 為了有效提升大型語言模型(LLMs),RAFERL 採用基於診斷(DIAG)和深度探查(PRBE)階段所得見解的系統性方法,導向知情的修正行動。本節提供了一種結構化的方法,將識別出來的問題與適當的微調或 RAG 干預措施連接起來,並識別相關數據來源以整合。 #### **Function ΘQ & RQ = PREB(Q)** | **描述** | **內容** | |-------------------|---------------------------------------------| | **輸入** | Q:正在檢查的查詢集; | | **輸出** | ΘQ = RQ = ∅;答案的錯誤及原因; | | **變量** | Γ:CRIT 分數; ρ:提示; P = ∅;提示集; | | **大型語言模型** | LLMu、LLMA、LLMB;// 學生及教師; | | **子程序** | CRIT(); // 關鍵閱讀 [8, 9];<br>SocraSynth(); // 多大型語言模型對話 [10]; | **開始** 1. **分類:** - **獲取 Q 的認知層級,通過轉換為 wh-形式;** - **對於每個 q ∈ Q:** - **ρ ← “將‘q’轉換為 wh-形式”;** - **P ← P ∪ LLMA(ρ, q) ∪ LLMB(ρ, q);** - **P ← SocraSynth(LLMA, LLMB, P);// 整合;** 2. **策略性提問與評估:** - **評估 LLMu 與教師之間的差異;** - **ρ ← “在難度和時間維度上擴展 P”;** - **P’ ← SocraSynth(ρ, LLMA, LLMB, P);// 擴展 P;** - **ΘQA ← LLMB(QAu, AA, p);// 評估 LLMu 和 LLMA;** - **ΘQB ← LLMA(QAu, BA, p);// 評估 LLMu 和 LLMB;** - **Θ ← ΘQA ∪ ΘQB;** 3. **聚焦探索:** - **獲取錯誤原因和缺失數據來源;** - **對於每個 q ∈ Q:** - **Γu ← CRIT(LLMu(q));// 評估 LLMu 的答案;** - **ΓA ← CRIT(LLMA(q));// 評估 LLMA 的答案;** - **ΓB ← CRIT(LLMB(q));// 評估 LLMB 的答案;** - **rA ← ΓA − Γu;// 獲取錯誤及數據來源差異;** - **rB ← ΓB − Γu;// 獲取錯誤及數據來源差異;** - **RQ ← RQ ∪ rA ∪ rB;// 合併所有;** 4. **返回 ΘQ & RQ;** **結束** **圖 11.3:PRBE 偽代碼。詳細了解 CRIT [9] 和 SocraSynth [10],請參閱相關論文。** --- ### **症狀識別與修正及數據來源建議** | **由何識別的症狀** | **修正及數據來源建議** | |-------------------|-----------------------------------------------------| | **事實不準確** | **RC&H,分析**<br>微調:在特定錯誤領域中更新數據集,例如針對當前事件的最新新聞文章,針對更新的最新科學出版物。 | | **幻覺** | **RC&H,分析**<br>RAG:高質量、權威的知識庫或與幻覺內容相關的數據庫,以提供準確的上下文和數據。 | | **內容偏見** | **RC&B,分析**<br>微調:多樣且平衡的數據集,代表多種觀點,以減輕偏見。 | | **無法更新新數據** | **分析**<br>RAG:持續更新的數據流,例如 RSS 訂閱、實時數據庫或網頁內容抓取機制。 | | **領域適應不良** | **特定領域**<br>RAG:特定領域的數據集或語料庫,包括技術手冊、行業報告和學術論文。 | | **過擬合訓練數據** | **基準測試**<br>微調:更廣泛且多樣的數據集,涵蓋廣泛主題,以增強泛化能力。 | | **對模糊查詢的回應不佳** | **分析**<br>微調:包含各種模糊查詢及其高質量回應的數據集,以改進理解和回應生成。 | **表 11.3:大型語言模型增強的修正手冊。** --- ### **11.4 練習:實驗** 這個 RAFEL 任務包括四個步驟。 #### **11.4.1 基準測試** 每個教師大型語言模型(LLM)生成答案並與私人 LLM 的答案進行比較。 #### **11.4.2 深度探查與淺層探查** 問題分類調查 [20]。 嘗試添加 DIAG 然後 PRBE。它們是否提供了額外的見解,有助於尋找良好的修正方法並精確定位所需的數據集? #### **11.4.3 單一教師 LLM 與雙教師 LLM** 評估第二個教師 LLM 是否能提升 DIAG 的效能,或是單一教師 LLM 已足夠。 評估通過 SocraSynth 進行的交叉檢查是否能產生更有洞察力的結果。 #### **11.4.4 微調與 RAG** 調查相關研究以比較兩者,或進行實驗以驗證先前的發現。 ### **11.5 結論性評論** 在本章中,我們探討了在專門化環境中部署和擴展大型語言模型(LLMs)所面臨的挑戰與機遇。我們介紹了 RAFEL,一個旨在通過策略性地平衡成本與性能來提升私人微調或本地部署 LLM 性能的框架。 RAFERL 提供了針對關鍵技術挑戰的創新解決方案,包括證明選擇私人 LLM 的合理性、進行錯誤分析、識別高質量數據、實施檢索增強生成(RAG)以及探索混合模型方法。 RAFERL 效能的核心在於其先進的診斷算法 DIAG 和 PRBE,這些算法能深入了解 LLM 在不同認知層級和錯誤類型上的性能問題。 此外,RAFERL 擅長創建針對性且有效的修正策略,同時確保數據隱私和安全。 其動態修正手冊根據數據和錯誤的分析實時調整策略,確保應用最有效和最適當的干預措施。 展望未來,RAFERL 為自然語言處理領域的研究與創新提供了有前景的途徑。通過不斷完善其診斷算法和修正策略,RAFERL 有潛力顯著提升 LLM 在多樣化領域中的性能和適用性。 總結而言,RAFERL 代表了在管理和技術挑戰方面的一項重大進展,這些挑戰與私人微調或本地部署 LLM 相關。其全面的方法和創新特性使其成為組織在利用 LLM 技術的同時,解決性能、數據隱私和定制化等關鍵考量的有價值工具。