OSWORLD：測試電腦環境中的多模態代理

## 標題：多模態代理人系統開發與評估技術報告作者：依據 Caiming Xiong 於 Salesforce AI Research 的簡報內容整理 --- ## 一、背景與研究動機隨著大型語言模型（LLMs）與視覺語言模型（VLMs）能力提升，研究重點已逐步轉向將模型能力落實於真實應用場景。其中，多模態代理人（Multimodal Agent）被視為實現通用人工智慧（AGI）的一大關鍵，因其具備理解自然語言指令並整合圖像、聲音等多種感知資料來執行複雜任務的潛力。 --- ## 二、OSWorld：多模態代理人互動環境 ### 2.1 系統設計 OSWorld 提供一個可重製、可擴展、具備圖形介面之真實虛擬電腦環境，作為訓練與評估多模態代理人之基礎平台。 ### 2.2 功能特色 * 任務描述：自然語言指令描述使用者目標。 * 環境初始化：包含檔案系統、軟體狀態與使用者界面。 * 多重觀察輸入：包含螢幕截圖、Accessibility Tree、DOM Tree、文字輸出等。 * 行為執行：使用 PiAutoGUI 控制虛擬滑鼠與鍵盤進行互動。 * 回饋評分：採 reward-based 評估，支援 partial success（0\~1）與 user-defined 評分腳本。 ### 2.3 任務集 * 369 個真實世界任務，其中： * 100 個需跨 App 操作 * 30 個不可執行任務（infeasible） * 43 個支援 Windows 系統 * 提供 134 個手工撰寫的執行型評估腳本 --- ## 三、資料合成方法 ### 3.1 AgentTrek：從教學文件產生軌跡 * 從網路上擷取 DIY 教學與步驟 * 使用 LLM（如 GPT-4）將自然語言轉為結構化多步驟任務流程 * 建構虛擬代理人根據指令與環境逐步操作，收集互動軌跡（Trajectories） * 透過 VM 環境進行評估與過濾，保留高品質資料 ### 3.2 TACO：Chain-of-Thought with Action * 整合視覺輸入、推理過程與動作決策 * 模擬多步驟推理與行動歷程，提升模型處理複雜任務的能力 * 使用合成資料進行 fine-tuning，以提升模型於 GUI 環境下的理解力與執行效率 --- ## 四、模型架構：Arguvis ### 4.1 問題定義 * 現有代理人多依賴 Accessibility Tree，格式不統一且冗長 * 缺乏視覺定位與推理能力 * 動作生成缺乏中階推理過程（直接生成低階動作） ### 4.2 Arguvis 解法 * 採用純視覺輸入架構，消除格式相依問題 * 定義統一的動作語法，整合各平台資料集 * 引入 inner monologue（中階推理模組），先生成中階指令再產出執行動作 * 雙階段訓練策略：第一階段學習視覺定位，第二階段學習計畫與推理 --- ## 五、延伸應用：長影片理解模型 ### 5.1 BLIP-3 Video：影格抽樣壓縮 * 每段影片僅選擇 32\~128 關鍵影格進行處理，降低 token 數 * 提高長影片語意理解效率 ### 5.2 GenS-Video：時間軸事件標記 * 建立 GenS-Video-150K 資料集，標示影片最重要區段 * 將使用者問題轉換為影格索引任務 * 增強事件定位與時間推理能力 --- ## 六、總結與未來展望本研究展示了多模態代理人系統從環境、資料、模型到應用的完整架構： * **OSWorld**：解決互動真實性與可擴展性問題 * **AgentTrek + TACO**：提供大規模高品質合成訓練資料 * **Arguvis**：強化視覺地面化與推理能力 * **影片模組**：擴展至時間軸推理與長影片理解未來方向可包括： * 強化跨平台多模態資料標註與遷移能力 * 引入強化學習於多模態決策過程 * 結合記憶模組以強化持續任務學習能力 --- 如需轉換為教學簡報或報告格式，可進一步分段補充案例圖與流程圖。