Multi-agent Reinforcement Learning: A Comprehensive Survey

[Paper Link](https://arxiv.org/abs/2312.10256) ## Introduction * 大多數傳統 RL 演算法假設只有單一智能體與一個「靜態環境」互動 * 但在真實世界中，多數情境其實是多個智能體同時存在、互相影響，這樣的互動會導致環境變得複雜、動態、且非靜態（non-stationary）。因此，多智能體系統（Multi-Agent Systems, MAS）需要新的學習範式，來處理智能體之間的「合作、競爭、溝通與協調」等問題。 **多智能體強化學習（Multi-Agent Reinforcement Learning, MARL）** 結合了強化學習與博弈論（Game Theory）的觀點，使智能體能在考量他人策略的同時，學習最適行為。儘管近年已取得顯著進展，MARL 仍面臨許多挑戰： * 可擴展性（scalability） * 學習穩定性（stability） * 獎勵分配問題（credit assignment） * 部分可觀察性（partial observability） * 合作與競爭之間的平衡（cooperation vs. competition） ## Background & Theoretical Foundations 多智能體強化學習（MARL）= MAS + RL ### 多智能體系統（Multi-Agent Systems, MAS）多智能體系統是由多個能夠自主行動的個體（稱為智能體）組成的系統。這些智能體能根據環境狀態與其他智能體的行為作出決策，並且透過互動達成個人或整體目標。多智能體系統的特徵包括： 1. **分散性（Decentralization）**：每個智能體都有自己的觀察與決策過程，沒有單一中央控制者。 2. **互動性（Interaction）**：智能體之間會互相影響彼此的狀態與報酬。 3. **自治性（Autonomy）**：每個智能體可獨立執行行動，不完全依賴外部指令。 4. **合作與競爭（Cooperation and Competition）**：智能體之間可能是合作關係、也可能是競爭對手。多智能體系統可應用於機器人群組控制、智慧交通、自動化交易、市場模擬與分散式感測網路等。 ![image](https://hackmd.io/_uploads/BkmSE7HAlx.png) ### 2.2 博弈論（Game Theory）基礎博弈論提供了一個數學框架，用來分析多個理性個體（玩家）在互動中如何選擇策略以最大化自身利益。在多智能體學習中，博弈論被視為理解「多方互動」的重要工具。博弈論中的核心元素包括： * **玩家（Players）**：對應到 MARL 中的智能體。 * **策略（Strategies）**：智能體在不同狀態下可採取的行動方案。 * **收益（Payoffs / Rewards）**：行動後所得到的回饋或效益。 * **均衡（Equilibrium）**：一組策略使所有玩家在無法單方面改善收益的情況下達到穩定。最具代表性的概念是 **納許均衡（Nash Equilibrium）**，指每個玩家在考慮他人策略後都無法再透過改變自己的行動獲得更高報酬。博弈論可用來建模三種主要互動情境： 1. **合作博弈（Cooperative games）**：所有智能體共享共同目標。 2. **非合作博弈（Non-cooperative games）**：智能體追求各自利益。 3. **混合博弈（Mixed-motive games）**：既存在合作又存在競爭。 ### 2.3 強化學習（Reinforcement Learning, RL）基礎強化學習是一種基於試誤（trial-and-error）的學習方法，讓智能體透過與環境互動來最大化長期獎勵。其核心結構可由馬可夫決策過程（Markov Decision Process, MDP）表示： * **狀態（State, s）**：環境的當前情況。 * **動作（Action, a）**：智能體可選擇的行為。 * **轉移機率（Transition, P(s'|s,a)）**：行動後轉移到新狀態的機率。 * **獎勵（Reward, r）**：智能體在執行某動作後獲得的即時回饋。 * **策略（Policy, π）**：從狀態到動作的映射關係，代表智能體的行為規則。 RL 的目標是找到能最大化期望累積獎勵的策略 π*。 ### 2.4 將 RL 擴展到多智能體環境在多智能體設定中，每個智能體都有自己的策略 πᵢ，而整個系統的狀態轉移與獎勵函數取決於所有智能體的行動。因此，單一智能體所面對的環境不再是「固定的」，而是會因其他智能體的學習與行動而改變。這導致多智能體學習出現幾個重要特性： * **環境非靜態（Non-stationary Environment）**：其他智能體行為變化會讓環境持續動態化。 * **多重回饋來源（Multi-source Rewards）**：每個智能體的報酬可能相互依賴。 * **部分觀察（Partial Observability）**：智能體通常無法獲得完整狀態資訊。 * **互動決策（Interactive Decision-making）**：智能體必須預測他人策略或行為變化。為了應對這些挑戰，MARL 通常結合博弈論觀點與強化學習機制，建立能同時學習最佳行為與策略互動的模型。 ## Challenges & Problem Dimensions ### 3.1 環境的非靜態性（Non-stationarity）在傳統的單智能體強化學習中，環境被假設為固定的：狀態轉移機率與獎勵函數不隨時間變化。但在多智能體環境中，這項假設不再成立。當一個智能體更新策略時，其他智能體也在學習與改變，這會使整個環境的統計特性不斷變動。對任何單一智能體而言，「環境」變得動態且不可預測。這種非靜態性使得常見的強化學習方法（如 Q-learning 或 Policy Gradient）難以收斂到穩定策略，因為學習過程中的樣本分佈不斷改變。因此，許多研究試圖透過「對手建模（opponent modeling）」或「穩定學習機制」來減緩這種問題。 ### 3.2 可擴展性（Scalability）當智能體的數量增加時，系統的狀態空間與行動空間會呈指數級成長。這會導致計算成本與樣本需求急劇上升，學習效率大幅下降。此外，智能體之間的互動也使得策略空間變得極其龐大。若要讓 MARL 能在真實場景（例如數十或數百個智能體）下運作，就必須設計更具結構化的學習方式，例如： * 階層式策略學習（hierarchical learning） * 角色分工（role assignment） * 利用圖神經網路（Graph Neural Network, GNN）來建模智能體關係 ### 3.3 信用分配問題（Credit Assignment）在合作型任務中，整體系統可能只會提供「群體獎勵」。這讓每個智能體難以判斷自己在團隊成敗中貢獻多少。這種問題被稱為 **信用分配（credit assignment）**。如果缺乏有效的獎勵分配機制，智能體可能會學到錯誤行為，甚至導致整體表現惡化。常見的解法包括： * 使用「差分獎勵（difference rewards）」來估計個體貢獻； * 或利用「集中訓練分散執行（CTDE）」架構，在訓練階段收集全域資訊，但在執行時僅使用局部觀察。 ### 3.4 部分可觀察性（Partial Observability）現實世界中的智能體通常無法觀察到整個環境狀態，只能獲取與自身位置、感測範圍相關的資訊。這使得決策過程更加不確定，也增加了策略學習的難度。為了彌補資訊不足，智能體可能需要： * **通信（Communication）**：與其他智能體交換資訊； * **信念建模（Belief Modeling）**：推測隱藏狀態或他人行為； * **記憶機制（Memory Mechanisms）**：使用 RNN 或 Transformer 保留歷史訊息。然而，通信會帶來額外成本（頻寬、延遲、隱私），因此如何設計**高效且穩定的通訊協定**仍是研究重點。 ### 3.5 穩定性與收斂性（Stability and Convergence）多智能體之間的策略變化會互相影響，使得學習動態變得非線性與複雜。在許多情況下，策略更新可能陷入震盪、不穩定甚至崩潰。例如，在競爭型遊戲中，如果兩個智能體不斷根據對方行為調整策略，可能永遠無法達到穩定的均衡。因此，如何設計能**收斂到穩定解（如納許均衡）** 的算法，是 MARL 理論研究的關鍵議題。研究者提出了多種對策，如： * **對手建模（Opponent Modeling）** * **策略光滑化（Policy Smoothing）** * **元學習（Meta-learning）** 與 **策略回放緩衝（Replay Stabilization）** 技術。 ### 3.6 合作與競爭的平衡（Cooperation–Competition Trade-off）在許多任務中，智能體之間的關係並非純粹合作或純粹競爭。例如，自駕車系統中，車輛需要彼此合作維持安全距離，但同時又競爭於路權或速度。這種「混合動機（mixed-motive）」環境使得學習過程更加複雜，智能體必須同時考慮**自身效益**與**整體效率**。如何在這兩者之間取得平衡，是設計 MARL 策略的核心難題之一。常見方法包括社會福利最大化（social welfare maximization）以及引入信任或懲罰機制的激勵設計（incentive mechanisms）。 ### 3.7 其他問題維度除了上述主要挑戰外，MARL 還涉及： * **安全性（Safety）**：避免智能體學出危險行為； * **公平性（Fairness）**：確保不同智能體的利益分配合理； * **可解釋性（Interpretability）**：理解智能體的決策依據； * **通信成本與隱私（Communication & Privacy）**：在多智能體共享資訊時保護個體資料。 ## Methodologies / Approaches 多智能體強化學習（MARL）的方法可依照「學習架構」「策略形式」與「任務性質」等不同面向進行分類。本章概述當前主要的演算法方向，說明各方法的核心思想與適用情境。 ### 4.1 訓練與執行架構（Training and Execution Paradigms） MARL 的演算法通常依照「訓練階段資訊共享的程度」分為三類： 1. **集中式訓練與執行（Centralized Training and Execution）** * 所有智能體共享全域狀態與獎勵。 * 適合完全合作環境，但難以擴展至大型系統。 2. **分散式訓練與執行（Decentralized Training and Execution）** * 每個智能體僅根據自身觀察與獎勵進行學習。 * 雖可提升可擴展性，但容易出現不穩定與信用分配問題。 3. **集中訓練、分散執行（Centralized Training with Decentralized Execution, CTDE）** * 在訓練階段共享全域資訊，以協助策略學習； * 在執行階段僅使用各自觀察。 * 這種架構目前是最常見、最具彈性的設計方向。 ### 4.2 策略學習方式（Learning Paradigms）根據智能體如何估計與更新策略，MARL 方法可分為： 1. **價值導向方法（Value-based Methods）** * 透過估計行動價值函數 ( Q(s,a) ) 來學習策略。 * 代表性方法包括： * *Independent Q-learning (IQL)*：每個智能體獨立使用 Q-learning。 * *VDN（Value Decomposition Networks）* 與 *QMIX*：將全域價值函數分解成各智能體的局部價值，適合合作環境。 2. **策略導向方法（Policy-based Methods）** * 直接對策略函數 (\pi(a|s)) 進行參數化與梯度更新。 * 在連續動作空間或需要平滑策略時效果更佳。 3. **Actor–Critic 方法（Actor–Critic Methods）** * 結合上述兩者，Actor 負責選擇動作，Critic 評估價值。 * 多智能體版本如 *MADDPG（Multi-Agent Deep Deterministic Policy Gradient）* 可在 CTDE 框架下協調各智能體的學習。 ### 4.3 合作與競爭任務（Cooperative, Competitive, and Mixed Settings）不同任務性質會影響學習目標與回饋設計： * **合作任務（Cooperative）** * 智能體共享相同獎勵，追求全體表現最大化。 * 代表方法：QMIX、COMA（Counterfactual Multi-Agent Policy Gradient）。 * **競爭任務（Competitive）** * 各智能體獎勵互斥，如零和博弈。 * 常用方法包括對抗學習（Adversarial RL）與博弈均衡搜尋（Nash Q-learning）。 * **混合任務（Mixed-motive）** * 同時存在合作與競爭關係。 * 通常需在學習過程引入信任機制或激勵設計以維持平衡。 ### 4.4 通訊與資訊共享（Communication and Information Sharing）在多數部分可觀察環境中，通信扮演關鍵角色。不同演算法對「通信方式」有不同假設： * **顯式通信（Explicit Communication）**：智能體直接傳送訊息（例如 CommNet、DIAL、TarMAC）。 * **隱式通信（Implicit Communication）**：智能體透過觀察他人行為間接推測狀態（例如基於注意力的模型）。設計重點在於： 1. 如何降低通信頻寬與延遲成本； 2. 如何確保通信資訊在學習過程中穩定有效； 3. 如何讓通信策略可自適應不同情境。 ### 4.5 結構化與圖形化方法（Structured and Graph-based Approaches）隨著智能體數量增加，直接建模全體關係會造成維度爆炸。為此，研究者引入「結構化」表示： * **圖神經網路（Graph Neural Networks, GNN）**：透過節點（智能體）與邊（互動）建構關係圖，使模型能捕捉局部依賴性。 * **階層式學習（Hierarchical MARL）**：引入上層策略負責任務分配，下層策略執行具體行動。 * **角色學習（Role-based MARL）**：智能體根據功能或任務需求扮演不同角色，降低策略衝突與學習負擔。這些方法提升了可擴展性，也使 MARL 能更有效處理大規模系統。 ### 4.6 穩定性與收斂改進（Stability and Convergence Enhancements）為解決多智能體學習不穩定的問題，提出多種改良策略： * **對手建模（Opponent Modeling）**：顯式學習其他智能體的策略或意圖，預測其行為以穩定學習。 * **策略正則化（Policy Regularization）**：透過懲罰劇烈變動的策略更新來避免震盪。 * **經驗回放修正（Experience Replay Correction）**：使用重要性採樣或時間加權修正過時資料。 * **元學習（Meta-learning）與自適應學習率（Adaptive Learning Rate）**：讓智能體在環境變化時能快速調整學習速度。 ### 4.7 混合與新興方法（Hybrid and Emerging Approaches）近年有研究探索結合其他技術的新方向： * **基於注意力的 MARL（Attention-based MARL）**：用 Transformer 結構處理多智能體互動。 * **模仿學習與自監督學習結合**：透過行為克隆或對比學習強化樣本效率。 * **模型式 MARL（Model-based MARL）**：在學習中同時建構環境模型以加速策略搜尋。 * **大語言模型輔助 MARL**：使用 LLM 進行策略生成、解釋與規劃。 ### 4.8 小結 MARL 方法的多樣化反映出研究者對不同挑戰的回應： * **CTDE 架構** 提供了兼顧效率與可擴展的平衡； * **通信與結構化建模** 改善了資訊共享與多智能體協調； * **穩定化技術** 則讓學習過程更可控、更接近均衡。整體而言，MARL 的方法學已逐漸從理論驗證走向實際應用，但如何在穩定性、效率與泛化能力之間取得平衡，仍是未來的核心課題。