# Horizon-Aware Low-Level Control in Minecraft: An Action Predictive Model with Backward-Relabeled Supervision ## 1. Domain Problem(問題定義與重要性) **問題**:在 Minecraft 等開放世界長程任務中,低階控制器常缺乏「**何時結束當前互動**」的可校準時間估計(horizon),導致 overshoot、空轉與過早/過晚切換子目標,只能仰賴高層 LLM/VLM 反覆重規劃救火,計算/延遲成本偏高。 **為何重要**: (1) 長地平線互動一步失誤會累積成本與失敗率 (2) 若低階具**地平線感知**,可減少昂貴的 LLM/VLM 迴圈與 replan 次數 (3) 此議題同時貼合通用 embodied/robotics 的 planner–checker 典範,具跨模型可插拔價值。 MC-Controller雖然有做到即時Horizon Prediction,但是該方法並未考慮環境的變動性導致預測結果是scalar而非distribution。除次之外,目前的Horizon Prediction Model未考慮預測失準的處理,因此我提出將Horizon Prediction設計成生存任務的機率分析模型,並在預測任務失敗時進行恢復宏動作或LLM/VLM重規劃。 ## 2. Related Work 與貢獻定位 **DEPS**:提出互動式規劃,並以 **goal selector** 依「**預估完成步數**」在平行子目標間排序,提高高層規劃效率。但 selector 作用在**高層「選哪個子目標」**,**非低階「此互動何時該停」**,因此仍需要頻繁 replan 來糾錯。 **MC-Controller **:採「目標感知表示 + **自適應地平線預測**」以強化指令跟隨與低階策略,重點在**標量 horizon** 梯度引導,而非為**互動終止**提供可校準的**分佈**與右設限處理。 **本研究(APM)的差異與新穎性**: * 從**低階**切入,將「互動何時結束」建模為**離散時間生存分析**,直接輸出**條件 hazard** → 得到完整**完成時間分佈** $p(T=k)$ 與期望 **E\[T]**,支援**右設限**與**校準**,而非僅標量估計。 * 提出**k′ 週期更新**與**停滯偵測/恢復觸發**:用 E\[T] 自調查詢節奏,並結合能見度啟動恢復或重規劃,落實「**降 LLM/VLM 調用成本**、抑制 overshoot」的系統效果。 * 整合 **Backward-Relabeled Supervision**(承接 ROCKET-1 的反向重標)建立「剩餘步數」標籤,提升監督品質與資料效率。 * 與 Options/SMDP 理論對應:$p(T=k)$ 自然即 option 終止分佈,可作為可校準的地平線估計器。 ## 3. Main Idea(方法總覽:APM) **任務表述**:輸入最近 RGB、目標遮罩(segmentation)、互動類別(Hunt, Mine, Interact,Navigate, Tool, and Place)與「上次輸出後實際執行的動作序列」,APM(Transformer-XL encoder + logistic-hazard head)預測目標能見度以及每個時間箱 $k$ 的**條件結束機率** $h_k$,得到 $p(T=k)=h_k\prod_{j<k}(1-h_j)$ 與存活 $S_k=\prod_{j<=k}(1-h_j)$;若窗內未結束則以右設限學習。 **k′ 週期更新與成本控制**:推論端**不必每步查詢**,每 $k′$ 步更新;$k′$ 可固定或由 **E\[T]** 自調以在反應/成本間取捨。 **停滯偵測/恢復**:當 E\[T] 連續上升或分佈漂移,且目標能見度為 0 時觸發**恢復宏動作**或**LLM/VLM重規劃**。 **恢復宏動作(recovery)**:根據history找APM分布異常之前的正常frame,將目標設為遮罩並觸發Rocket-2 policy進行recovery,若嘗試幾次失敗就會呼叫LLM/VLM進行重規劃。 **資料與標註**:以 MineStudio 的 Raw/Event Dataset + LMDB 管線抽窗;navigate 以位移閾值 + SAM-2 反向追蹤補遮罩;相鄰互動對以**剩餘步數**反向重標。 **訓練目標**:logistic-hazard NLL,含觀測完成與右設限兩情形。 **實作基礎**:MineStudio 資料模組、ROCKET-1/2 工具(SAM-2、Backward Relabel)已可直接沿用。 ## 4. Experiment Design(落地與對照) **資料/平台**:MineStudio 官方模組(LMDB 轉換、事件抽窗、可視化),可直接抽取 mine\_block/use\_item/craft 等互動窗;ROCKET-1/2 已有實作,可作「同層替換」與「訊號聯動」實驗底座。 ### Phase-1:**MC-Controller(AHP → APM)**:標量 vs 分佈 * **設定**:把MC-Controller的標量「Adaptive Horizon Prediction (AHP)」改為**APM 的分佈式地平線**(輸出 E\[T] 或分位數特徵)。 * **指標**:成功率、平均互動長度、**overshoot 事件率**、NLL/IBS、**校準曲線**(分佈品質)。 * **目的**:證明「**分佈 > 標量**」與**可校準性**帶來的停止/恢復決策優勢(對應前人 AHP 的侷限)。 ### Phase-2:**ROCKET-1/2 × APM**:自調節拍與能見度觸發 * **ROCKET-1/2**:比較「固定提示節拍」vs「**APM 自調 $k′$**」,量測**VLM 提示/LLM 調用次數**與成功率。 ### Phase-3:**DEPS / Voyager × APM**:高層規劃 + 低層終止器 * **DEPS**:保留 **goal selector**,在每個子目標執行期接入 **APM 停止/恢復/k′ 自調**;比較「DEPS 原版 / DEPS+固定節拍 / **DEPS+APM**」之**replan 次數、token/呼叫成本、成功率**。 * **Voyager**:用 APM 降低 GPT 迭代規劃頻率與卡關時間。 ### 公共度量與診斷 * **效能/成本**:任務成功率、平均互動長度、**LLM/VLM 調用與 token**。 * **地平線品質(離線)**:NLL、Integrated Brier Score、時間依賴 AUC、**校準曲線**。 * **行為診斷**:overshoot 定義為「互動終止後仍持續執行相同 primitive 的多餘步」。 * **消融**:無地平線 / 標量 AHP / **APM 分佈**;有/無 segmentation;固定 $k′$ / 自調 $k′$。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up