Horizon-Aware Low-Level Control in Minecraft: An Action Predictive Model with Backward-Relabeled Supervision

# Horizon-Aware Low-Level Control in Minecraft: An Action Predictive Model with Backward-Relabeled Supervision ## 1. Domain Problem（問題定義與重要性） **問題**：在 Minecraft 等開放世界長程任務中，低階控制器常缺乏「**何時結束當前互動**」的可校準時間估計（horizon），導致 overshoot、空轉與過早/過晚切換子目標，只能仰賴高層 LLM/VLM 反覆重規劃救火，計算/延遲成本偏高。 **為何重要**： (1) 長地平線互動一步失誤會累積成本與失敗率 (2) 若低階具**地平線感知**，可減少昂貴的 LLM/VLM 迴圈與 replan 次數 (3) 此議題同時貼合通用 embodied/robotics 的 planner–checker 典範，具跨模型可插拔價值。 MC-Controller雖然有做到即時Horizon Prediction，但是該方法並未考慮環境的變動性導致預測結果是scalar而非distribution。除次之外，目前的Horizon Prediction Model未考慮預測失準的處理，因此我提出將Horizon Prediction設計成生存任務的機率分析模型，並在預測任務失敗時進行恢復宏動作或LLM/VLM重規劃。 ## 2. Related Work 與貢獻定位 **DEPS**：提出互動式規劃，並以 **goal selector** 依「**預估完成步數**」在平行子目標間排序，提高高層規劃效率。但 selector 作用在**高層「選哪個子目標」**，**非低階「此互動何時該停」**，因此仍需要頻繁 replan 來糾錯。 **MC-Controller **：採「目標感知表示 + **自適應地平線預測**」以強化指令跟隨與低階策略，重點在**標量 horizon** 梯度引導，而非為**互動終止**提供可校準的**分佈**與右設限處理。 **本研究（APM）的差異與新穎性**： * 從**低階**切入，將「互動何時結束」建模為**離散時間生存分析**，直接輸出**條件 hazard** → 得到完整**完成時間分佈** $p(T=k)$ 與期望 **E\[T]**，支援**右設限**與**校準**，而非僅標量估計。 * 提出**k′ 週期更新**與**停滯偵測/恢復觸發**：用 E\[T] 自調查詢節奏，並結合能見度啟動恢復或重規劃，落實「**降 LLM/VLM 調用成本**、抑制 overshoot」的系統效果。 * 整合 **Backward-Relabeled Supervision**（承接 ROCKET-1 的反向重標）建立「剩餘步數」標籤，提升監督品質與資料效率。 * 與 Options/SMDP 理論對應：$p(T=k)$ 自然即 option 終止分佈，可作為可校準的地平線估計器。 ## 3. Main Idea（方法總覽：APM） **任務表述**：輸入最近 RGB、目標遮罩(segmentation)、互動類別(Hunt, Mine, Interact,Navigate, Tool, and Place)與「上次輸出後實際執行的動作序列」，APM（Transformer-XL encoder + logistic-hazard head）預測目標能見度以及每個時間箱 $k$ 的**條件結束機率** $h_k$，得到 $p(T=k)=h_k\prod_{j<k}(1-h_j)$ 與存活 $S_k=\prod_{j<=k}(1-h_j)$；若窗內未結束則以右設限學習。 **k′ 週期更新與成本控制**：推論端**不必每步查詢**，每 $k′$ 步更新；$k′$ 可固定或由 **E\[T]** 自調以在反應/成本間取捨。 **停滯偵測/恢復**：當 E\[T] 連續上升或分佈漂移，且目標能見度為 0 時觸發**恢復宏動作**或**LLM/VLM重規劃**。 **恢復宏動作(recovery)**:根據history找APM分布異常之前的正常frame，將目標設為遮罩並觸發Rocket-2 policy進行recovery，若嘗試幾次失敗就會呼叫LLM/VLM進行重規劃。 **資料與標註**：以 MineStudio 的 Raw/Event Dataset + LMDB 管線抽窗；navigate 以位移閾值 + SAM-2 反向追蹤補遮罩；相鄰互動對以**剩餘步數**反向重標。 **訓練目標**：logistic-hazard NLL，含觀測完成與右設限兩情形。 **實作基礎**：MineStudio 資料模組、ROCKET-1/2 工具（SAM-2、Backward Relabel）已可直接沿用。 ## 4. Experiment Design（落地與對照） **資料/平台**：MineStudio 官方模組（LMDB 轉換、事件抽窗、可視化），可直接抽取 mine\_block/use\_item/craft 等互動窗；ROCKET-1/2 已有實作，可作「同層替換」與「訊號聯動」實驗底座。 ### Phase-1：**MC-Controller（AHP → APM）**：標量 vs 分佈 * **設定**：把MC-Controller的標量「Adaptive Horizon Prediction (AHP)」改為**APM 的分佈式地平線**（輸出 E\[T] 或分位數特徵）。 * **指標**：成功率、平均互動長度、**overshoot 事件率**、NLL/IBS、**校準曲線**（分佈品質）。 * **目的**：證明「**分佈 > 標量**」與**可校準性**帶來的停止/恢復決策優勢（對應前人 AHP 的侷限）。 ### Phase-2：**ROCKET-1/2 × APM**：自調節拍與能見度觸發 * **ROCKET-1/2**：比較「固定提示節拍」vs「**APM 自調 $k′$**」，量測**VLM 提示/LLM 調用次數**與成功率。 ### Phase-3：**DEPS / Voyager × APM**：高層規劃 + 低層終止器 * **DEPS**：保留 **goal selector**，在每個子目標執行期接入 **APM 停止/恢復/k′ 自調**；比較「DEPS 原版 / DEPS+固定節拍 / **DEPS+APM**」之**replan 次數、token/呼叫成本、成功率**。 * **Voyager**：用 APM 降低 GPT 迭代規劃頻率與卡關時間。 ### 公共度量與診斷 * **效能/成本**：任務成功率、平均互動長度、**LLM/VLM 調用與 token**。 * **地平線品質（離線）**：NLL、Integrated Brier Score、時間依賴 AUC、**校準曲線**。 * **行為診斷**：overshoot 定義為「互動終止後仍持續執行相同 primitive 的多餘步」。 * **消融**：無地平線 / 標量 AHP / **APM 分佈**；有/無 segmentation；固定 $k′$ / 自調 $k′$。