PPO演算法與SAC演算法

# PPO演算法與SAC演算法我們希望透過限制在每個訓練時期對策略所做的更改來提高策略的訓練穩定性：我們希望避免策略更新太大。 ![](https://hackmd.io/_uploads/r1eBkqjH2.png) PPO（Proximal Policy Optimization）和SAC（Soft Actor-Critic）都是強化學習演算法，用於訓練策略模型。以下是它們之間的主要差異： 1. 優化目標： - PPO：PPO 通常使用兩個策略之間的比例限制來優化策略。它的目標是最大化新策略和舊策略之間的更新比例，同時控制更新的大小，以避免太大的策略變動。 - SAC：SAC 通常使用最大熵原則來優化策略。它的目標是最大化策略的熵，以增加策略的隨機性，從而探索更多的行動選項。 2. 熵正則： - PPO：PPO 通常使用熵項正則化，以鼓勵策略的多樣性。這可以幫助避免策略陷入局部最優解，但不是 PPO 的主要目標。 - SAC：SAC 將熵作為優化目標的一部分，通過最大化策略的熵，使策略保持較高的隨機性和探索性。 3. 動作選擇： - PPO：PPO 使用範例比例（clip ratio）來控制新策略與舊策略之間的更新幅度。這使得策略的變化受到限制，以避免太大的策略變動。 - SAC：SAC 通常使用策略和動作的概率分佈，並根據分佈進行採樣以選擇動作。這使得策略可以靈活地選擇動作，而不僅僅是根據比例進行截斷。 4. 優化算法： - PPO：PPO 使用的是近端策略優化（proximal policy optimization）方法，通常使用策略梯度的估計值進行參數更新。 - SAC：SAC 使用的是軟性演算法（soft actor-critic）方法，通常使用策略梯度和價值函數的估計值進行參數更新，並使用離散的 Q 函數進行動作選擇。總體而言，PPO 更關注於控制策略的更新比例和幅度，並使用熵項正則化來鼓勵策略多樣性；而 SAC 則更關注於最大化策略的熵，以增加策略的隨機性和探索性。此外，PPO 使用近端策略優化方法，而 SAC 使用軟性演算法方法。選擇使用哪種算法取決於具體的問題和需求。