## 大型語言模型之推理與對齊技術回顧與發展現況 資料來源:[https://llmagents-learning.org/slides/Jason-Weston-Reasoning-Alignment-Berkeley-Talk.pdf](https://llmagents-learning.org/slides/Jason-Weston-Reasoning-Alignment-Berkeley-Talk.pdf) 一、摘要 本報告整理 Jason Weston 於 Berkeley 演講中所提出之大型語言模型(Large Language Models, LLMs)於推理(Reasoning)與對齊(Alignment)之技術演進與挑戰。內容涵蓋從早期神經機率語言模型與支持向量機的發展,到 Transformer 架構與現代 LLMs 的自我優化技術(如 Self-rewarding, Meta-rewarding, EvalPlanner)之發展。報告強調 "擴展假設"(Scaling Hypothesis)對 LLM 能力提升之關鍵性,並分析語義洩漏與逢迎等推理缺陷,提出透過顯式思維鏈與自我評估等技術作為改善方法。 二、語言模型發展歷程 1. 前期發展(Pre-2020) 語言模型最初專注於透過統計方法預測下一個詞彙。2003年開始引入神經網路架構,如詞嵌入(embedding)、tanh 層與 softmax 輸出層,開啟了深度學習於語言處理領域的應用。 2. Transformer 之前之注意力機制(2014–2017) 注意力機制首次於神經機器翻譯中使用,使模型能選擇性聚焦於輸入中的關鍵片段。記憶網路(Memory Networks)引入多跳注意力堆疊概念,支援多步邏輯推理,為後續的 Transformer 奠定基礎。 3. 擴展假設與模型規模演進(2014 迄今) 擴展假設認為,只要模型參數數量與訓練資料集足夠龐大,語言模型能力將隨之提升。此假說促成如 GPT、T5、LLaMA 等大型模型的誕生。 三、推理與對齊挑戰 1. LLM 訓練限制與補強 預訓練階段雖能捕捉語言模式,卻無法保證對使用者指令的準確理解與執行能力,因此需透過後訓練階段如監督微調(SFT)與人類回饋強化學習(RLHF)進行補強。 2. 系統 1 vs 系統 2 推理架構 系統 1 模式以自回歸方式生成內容,反應快速但常出現偏誤。系統 2 則強調逐步推理與規劃能力,如思維鏈(Chain-of-Thought)技術能促進模型產生中介步驟以支持最終結論。 3. 推理缺陷實例 語義洩漏指模型受不相關語境干擾、逢迎傾向則為模型迎合錯誤資訊、幻覺現象指模型產生事實錯誤內容,皆為當前模型推理能力的關鍵限制。 四、模型自我改進技術 1. Self-Rewarding Language Models(2023起) 此技術允許模型依據自身輸出結果給予獎勵分數進行訓練與優化,達到無需外部資料標註即可提升能力的目標。 2. Meta-Rewarding LLMs(2025年) 進一步將模型訓練為能評估自身判斷品質之元評判者(meta-judge),解決自我評估不準確與改進幅度趨緩的問題。 3. Branch-Solve-Merge 將複雜任務拆解為子問題(branch)、獨立解決(solve)並合併整合結果(merge),提升推理可控性與模組化設計。 4. Thinking LLMs & EvalPlanner 以類似自學方式進行規劃推理訓練,強化模型於評估任務中的邏輯與一致性,將回應生成轉化為可驗證的任務。 五、Superalignment 問題 當 LLM 表現逐步超越人類時,確保其行為符合人類價值觀與倫理要求成為必要挑戰。Superalignment 提出需於設計階段即考量模型目標與價值目標對齊機制。 六、近期發展與研究整合 DeepSeek 等大型模型導入迭代推理訓練與數百億至上兆參數設計,強化推理深度與回應一致性。相關技術如 TPO(Thought Preference Optimization)與向量化思維鏈皆為優化模型內部推理流程之方法。 七、未來展望 未來技術將結合代理架構、自我監控能力與非文字型思維建模,進一步改善模型的推理效率與可驗證性。對 Transformer 注意力機制本身的革新亦有研究潛力。 八、結論 大型語言模型已進入以自我學習、自我評估為核心的新階段,推理能力與對齊能力的提升不僅需仰賴擴展規模,也必須強化內部結構規劃、訓練架構與偏好機制設計。研究應聚焦於系統性整合推理策略與對齊方法,以達成安全、透明且與人類價值一致的 AI 系統。