## 多模態網頁代理人訓練與評估 ### Multimodal Web Agent Training and Evaluation: From VisualWebArena to InSTA --- Notebooklm語音簡介 https://notebooklm.google.com/notebook/dcba238f-7cd6-4b54-b85f-72775c0685a0/audio ### 1. 前言(Introduction) 隨著大型語言模型(LLMs)與視覺語言模型(VLMs)的快速發展,研究人員開始關注如何設計可操作網頁任務的通用多模態代理人(Multimodal Web Agent)。這類代理人須結合 HTML 結構理解、視覺接地、語意推理與動作控制能力,完成如購物、資料查詢與內容比對等實際任務。本報告整理近期在 ACL 2024、arXiv 2025 等期刊中對於 VisualWebArena 與 InSTA 系統的探討,說明當前技術挑戰與發展趨勢。 --- ### 2. 問題定義與研究動機(Problem Statement & Motivation) 雖然現行 LLM 在純文本任務上展現出良好表現,但在面對需解析複雜 HTML 結構、跨模態整合(如圖片與文字)、長步驟規劃與上下文保持等任務時仍顯不足。本研究動機為: * 評估並提升多模態代理人在網頁互動任務上的能力。 * 探討如何設計有效的推理與搜尋策略來處理長序列任務。 * 建立一套大規模自動化資料產生與驗證流程以擴充訓練集。 --- ### 3. 系統架構與方法(System Architecture & Methods) #### 3.1 Multimodal Agent 架構 多模態代理人主要由以下模組構成: * **視覺編碼器(Visual Encoder)**:處理網頁截圖、圖像內容。 * **語言解析器(Language Parser)**:理解使用者任務指令與頁面 HTML 結構。 * **決策模組(Planner + Controller)**:根據觀察回傳 CLICK、TYPE、HOVER 等低階指令。 #### 3.2 樹狀搜尋推理(Tree-Based Reasoning with LLMs) 研究提出樹狀搜尋演算法,讓 LLM 可多次取樣不同行動序列並以 **Value Function** 評估其可能性,進而選擇最有潛力的執行路徑。 #### 3.3 Value Function 預測器設計 Value Function v(s) 由多模態模型(如 GPT-4o)預測該狀態是否能成功完成任務,作為搜尋排序依據。 --- ### 4. 環境與評估基準(Evaluation Environment) #### 4.1 VisualWebArena VisualWebArena 為基於 GitHub、Reddit、Amazon 的實際網頁環境,提供如下任務類型: * 商品查詢與下單 * 評價比對與排序 * 討論串瀏覽與留言 任務設計需同時考慮 HTML 結構與圖像資訊,並符合 POMDP 模型特性。 #### 4.2 評估指標 * 成功率(Task Success Rate) * 每步精準率(Step Accuracy) * 長序列穩定性(Long-Horizon Consistency) --- ### 5. 資料生成與模型訓練(Data Generation & Training Pipeline) #### 5.1 InSTA 資料管線 InSTA 提出合成任務生成與自動驗證流程,包含: * 使用 LLaMA 生成具代表性的網頁任務說明。 * 建立可操作任務的行動序列並由 LLM 評估。 * 應用置信值估算(confidence 0.0–1.0)進行任務有效性篩選。 #### 5.2 自動驗證與擴充 驗證方法:觀察結束頁面是否達成任務條件,例如是否成功比價、成功下單。 資料涵蓋超過 150k 網域。 --- ### 6. 實驗結果與分析(Results & Discussion) #### 6.1 方法比較 * GPT-4o + Tree Search 成功率優於單一推理模型約 +12%(VisualWebArena) * 合成資料較人類標記任務提升泛化能力超過 +120% #### 6.2 錯誤分析 * 常見錯誤包括:過早停止、重複動作迴圈、空間推理失敗。 * 高階任務成功與否與規劃策略密切相關。 --- ### 7. 挑戰與未來工作(Challenges & Future Work) * 頁面內容改變導致動作序列失效。 * 無法處理具有破壞性的動作(如付款)難以復原。 * 搜尋過程耗時,尚待設計更高效的決策機制。 * 未來考慮導入 online RL 與多任務並行學習能力。 --- ### 8. 結論(Conclusion) 本報告梳理多模態網頁代理人從 VisualWebArena 到 InSTA 系統的發展,並指出目前多模態模型在處理複雜互動任務上仍存在推理深度、資料規模與泛化能力等限制。然而,透過結合 Tree Search、Value Function 預測與大規模任務生成流程,可有效提升代理人任務完成能力,為未來自動化操作代理的研究與應用提供新契機。 --- ### 附錄與視覺圖(Appendix & Diagrams) * **VisualWebArena 任務例子圖**:展示典型任務指令與對應網頁內容(如:在 Amazon 搜尋商品、選擇評價最高者並結帳)。 * **Tree Search 推理圖**:顯示 LLM 於每一節點評估多個候選動作,形成決策樹,並透過 Value Function 導引搜尋策略。 * **InSTA 資料流程圖**:從任務語句生成 → 動作模擬 → 結果驗證 → 任務篩選與擴充,形成閉環資料管線,並支援自動訓練與評估。 (上述圖示可於簡報版補充,建議置於相對應段落處強化視覺理解。)