## 標題:多模態代理人系統開發與評估技術報告 作者:依據 Caiming Xiong 於 Salesforce AI Research 的簡報內容整理 --- ## 一、背景與研究動機 隨著大型語言模型(LLMs)與視覺語言模型(VLMs)能力提升,研究重點已逐步轉向將模型能力落實於真實應用場景。其中,多模態代理人(Multimodal Agent)被視為實現通用人工智慧(AGI)的一大關鍵,因其具備理解自然語言指令並整合圖像、聲音等多種感知資料來執行複雜任務的潛力。 --- ## 二、OSWorld:多模態代理人互動環境 ### 2.1 系統設計 OSWorld 提供一個可重製、可擴展、具備圖形介面之真實虛擬電腦環境,作為訓練與評估多模態代理人之基礎平台。 ### 2.2 功能特色 * 任務描述:自然語言指令描述使用者目標。 * 環境初始化:包含檔案系統、軟體狀態與使用者界面。 * 多重觀察輸入:包含螢幕截圖、Accessibility Tree、DOM Tree、文字輸出等。 * 行為執行:使用 PiAutoGUI 控制虛擬滑鼠與鍵盤進行互動。 * 回饋評分:採 reward-based 評估,支援 partial success(0\~1)與 user-defined 評分腳本。 ### 2.3 任務集 * 369 個真實世界任務,其中: * 100 個需跨 App 操作 * 30 個不可執行任務(infeasible) * 43 個支援 Windows 系統 * 提供 134 個手工撰寫的執行型評估腳本 --- ## 三、資料合成方法 ### 3.1 AgentTrek:從教學文件產生軌跡 * 從網路上擷取 DIY 教學與步驟 * 使用 LLM(如 GPT-4)將自然語言轉為結構化多步驟任務流程 * 建構虛擬代理人根據指令與環境逐步操作,收集互動軌跡(Trajectories) * 透過 VM 環境進行評估與過濾,保留高品質資料 ### 3.2 TACO:Chain-of-Thought with Action * 整合視覺輸入、推理過程與動作決策 * 模擬多步驟推理與行動歷程,提升模型處理複雜任務的能力 * 使用合成資料進行 fine-tuning,以提升模型於 GUI 環境下的理解力與執行效率 --- ## 四、模型架構:Arguvis ### 4.1 問題定義 * 現有代理人多依賴 Accessibility Tree,格式不統一且冗長 * 缺乏視覺定位與推理能力 * 動作生成缺乏中階推理過程(直接生成低階動作) ### 4.2 Arguvis 解法 * 採用純視覺輸入架構,消除格式相依問題 * 定義統一的動作語法,整合各平台資料集 * 引入 inner monologue(中階推理模組),先生成中階指令再產出執行動作 * 雙階段訓練策略:第一階段學習視覺定位,第二階段學習計畫與推理 --- ## 五、延伸應用:長影片理解模型 ### 5.1 BLIP-3 Video:影格抽樣壓縮 * 每段影片僅選擇 32\~128 關鍵影格進行處理,降低 token 數 * 提高長影片語意理解效率 ### 5.2 GenS-Video:時間軸事件標記 * 建立 GenS-Video-150K 資料集,標示影片最重要區段 * 將使用者問題轉換為影格索引任務 * 增強事件定位與時間推理能力 --- ## 六、總結與未來展望 本研究展示了多模態代理人系統從環境、資料、模型到應用的完整架構: * **OSWorld**:解決互動真實性與可擴展性問題 * **AgentTrek + TACO**:提供大規模高品質合成訓練資料 * **Arguvis**:強化視覺地面化與推理能力 * **影片模組**:擴展至時間軸推理與長影片理解 未來方向可包括: * 強化跨平台多模態資料標註與遷移能力 * 引入強化學習於多模態決策過程 * 結合記憶模組以強化持續任務學習能力 --- 如需轉換為教學簡報或報告格式,可進一步分段補充案例圖與流程圖。