## 標題:多模態代理人系統開發與評估技術報告
作者:依據 Caiming Xiong 於 Salesforce AI Research 的簡報內容整理
---
## 一、背景與研究動機
隨著大型語言模型(LLMs)與視覺語言模型(VLMs)能力提升,研究重點已逐步轉向將模型能力落實於真實應用場景。其中,多模態代理人(Multimodal Agent)被視為實現通用人工智慧(AGI)的一大關鍵,因其具備理解自然語言指令並整合圖像、聲音等多種感知資料來執行複雜任務的潛力。
---
## 二、OSWorld:多模態代理人互動環境
### 2.1 系統設計
OSWorld 提供一個可重製、可擴展、具備圖形介面之真實虛擬電腦環境,作為訓練與評估多模態代理人之基礎平台。
### 2.2 功能特色
* 任務描述:自然語言指令描述使用者目標。
* 環境初始化:包含檔案系統、軟體狀態與使用者界面。
* 多重觀察輸入:包含螢幕截圖、Accessibility Tree、DOM Tree、文字輸出等。
* 行為執行:使用 PiAutoGUI 控制虛擬滑鼠與鍵盤進行互動。
* 回饋評分:採 reward-based 評估,支援 partial success(0\~1)與 user-defined 評分腳本。
### 2.3 任務集
* 369 個真實世界任務,其中:
* 100 個需跨 App 操作
* 30 個不可執行任務(infeasible)
* 43 個支援 Windows 系統
* 提供 134 個手工撰寫的執行型評估腳本
---
## 三、資料合成方法
### 3.1 AgentTrek:從教學文件產生軌跡
* 從網路上擷取 DIY 教學與步驟
* 使用 LLM(如 GPT-4)將自然語言轉為結構化多步驟任務流程
* 建構虛擬代理人根據指令與環境逐步操作,收集互動軌跡(Trajectories)
* 透過 VM 環境進行評估與過濾,保留高品質資料
### 3.2 TACO:Chain-of-Thought with Action
* 整合視覺輸入、推理過程與動作決策
* 模擬多步驟推理與行動歷程,提升模型處理複雜任務的能力
* 使用合成資料進行 fine-tuning,以提升模型於 GUI 環境下的理解力與執行效率
---
## 四、模型架構:Arguvis
### 4.1 問題定義
* 現有代理人多依賴 Accessibility Tree,格式不統一且冗長
* 缺乏視覺定位與推理能力
* 動作生成缺乏中階推理過程(直接生成低階動作)
### 4.2 Arguvis 解法
* 採用純視覺輸入架構,消除格式相依問題
* 定義統一的動作語法,整合各平台資料集
* 引入 inner monologue(中階推理模組),先生成中階指令再產出執行動作
* 雙階段訓練策略:第一階段學習視覺定位,第二階段學習計畫與推理
---
## 五、延伸應用:長影片理解模型
### 5.1 BLIP-3 Video:影格抽樣壓縮
* 每段影片僅選擇 32\~128 關鍵影格進行處理,降低 token 數
* 提高長影片語意理解效率
### 5.2 GenS-Video:時間軸事件標記
* 建立 GenS-Video-150K 資料集,標示影片最重要區段
* 將使用者問題轉換為影格索引任務
* 增強事件定位與時間推理能力
---
## 六、總結與未來展望
本研究展示了多模態代理人系統從環境、資料、模型到應用的完整架構:
* **OSWorld**:解決互動真實性與可擴展性問題
* **AgentTrek + TACO**:提供大規模高品質合成訓練資料
* **Arguvis**:強化視覺地面化與推理能力
* **影片模組**:擴展至時間軸推理與長影片理解
未來方向可包括:
* 強化跨平台多模態資料標註與遷移能力
* 引入強化學習於多模態決策過程
* 結合記憶模組以強化持續任務學習能力
---
如需轉換為教學簡報或報告格式,可進一步分段補充案例圖與流程圖。