---
# System prepended metadata

title: 遞迴語言模型 (RLM)
tags: [LLM]

---

# [MIT 新研究] - 遞迴語言模型 (Recursive Language Model, RLM)：突破 100 萬 Token 的推理新典範

本筆記探討了由 MIT 團隊提出的最新技術：**遞迴語言模型 (Recursive Language Model, RLM)**。這是一種全新的推理方法論（Inference Methodology），旨在解決大型語言模型（LLM）在處理長文本時常見的「上下文腐敗」（Context Rot）與推理能力下降問題，讓如 **GPT-5** 等模型能實現在 100 萬甚至 1,000 萬 Token 級別下的精準推理。

---

## 1. ⚠️ 現有長文本模型的困境：上下文腐敗 (Context Rot)

* **性能衰減**：隨著上下文長度增加，LLM 的推理能力並非線性下降，而是劇烈衰退，特別是在科學、金融與醫學等資訊密集型任務中。
* **大海撈針 (Needle in a Haystack) 的誤導**：現有的 100% 準確率測試僅代表「檢索」能力（複雜度為 1），而非真正的「推理」能力。
* **推理極限**：研究顯示 **GPT-5** 在處理具有線性複雜度（O(n)）或平方複雜度（O(n²)）的推理任務時，性能在 16k Token 處開始下滑，到 33k Token 時幾乎歸零。
* **相變現象 (Phase Transition)**：當資訊密度增加，傳統 Transformer 的注意力機制（Attention Mechanism）會失去連貫性，無法有效處理複雜邏輯。

> **核心定義：上下文腐敗 (Context Rot)**
> 指的是 LLM 雖然擁有巨大的上下文窗口（如 272k），但在處理長文本時會產生幻覺或失去焦點，導致其在長文本中的推理品質遠低於短文本。

---

## 2. 🌀 遞迴語言模型 (RLM)：神經符號系統的解決方案

MIT 的核心概念是將長 Prompt 視為「外部環境」，而非直接餵入神經網路。

* **外部環境化**：將長達數十萬字元的 Prompt 視為硬碟上的文件，LLM 則扮演 CPU。
* **神經符號交互 (Neuro-symbolic Interaction)**：LLM 不直接處理原始數據，而是寫出 **Python** 程式碼來對文本進行切片、索引與操作。
* **虛擬記憶體機制**：模仿作業系統，將數據分頁（Paging）調入記憶體處理，處理完後清空，再加載下一頁，從而繞過 Transformer 的 Token 限制。

---

## 3. 🛠️ RLM 的結構創新與執行階段

RLM 的運作依賴於三個關鍵組件：環境（Python REPL）、介面（LLM Query 函數）與遞迴軌跡。

### 執行的四個階段：

1. **探測 (Probing)**：LLM 編寫 Python 程式碼（如 **Regex** 或切片），檢查數據結構（例如：先看 CSV 的前五行）。
2. **分解 (Decomposition)**：LLM 寫出迴圈（Loop），決定如何遍歷定義好的上下文。
3. **遞迴 (Recursion)**：在迴圈中調用 `LLM_query` 函數，生成一個「乾淨」的 LLM 子實例來處理特定片段。
4. **聚合 (Aggregation)**：根模型（Root LLM）收集所有子實例的結果，合成最終答案。

> **結構亮點：確定性 (Deterministic)**
> 傳統 **RAG** 是機率性的（依賴向量檢索的相似度）；而 **RLM** 是確定性的，它透過程式碼遍歷 100% 的數據，確保無遺漏。

---

## 4. 📊 性能表現與成本分析

RLM 在複雜任務上展示了驚人的進步，尤其是在處理 **Olong Pairs** (尋找所有特徵配對) 等高難度基準測試時。

* **性能對比**：
    * 在 32k Token 的平方複雜度任務中，原版 **GPT-5** 成功率僅 **0.04%**。
    * 使用 RLM 封裝後的 **GPT-5** 成功率飆升至 **58%**。


* **成本效益**：
    * 雖然 API 調用成本會因遞迴與多次採樣而增加（例如從 16 美分增加到 33 美分），但換取的是從「完全不可用」到「高度可用」的飛躍。
    * 即使上下文達到 100 萬 Token，非推理型任務的成本仍保持穩定，僅高難度推理任務成本會隨複雜度上升。



---

## 5. 💡 2026 AI 發展新趨勢：神經符號化

這項研究標誌著 Transformer 的「注意力機制」並非萬能。

* **角色轉變**：
    * **LLM (神經部分)**：負責模糊直覺、語義理解、生成程式碼與撰寫總結。
    * **程式碼 (符號部分)**：負責剛性邏輯、計數、迴圈與精確索引。


* **未來展望**：與其追求更大的預訓練窗口，不如透過 **非同步並行 (Async Parallelism)** 最佳化遞迴循環的延遲。

> **專家評論**
> 「神經網路目前不足以支撐大規模的精確推理，必須依賴『符號外骨骼 (Symbolic Exoskeleton)』的支撐。RLM 實質上是將記憶問題轉化為了管理問題。」

---