深度強化學習 Ch4.1：策略網路

###### tags: `reinforcement learning` # 深度強化學習 Ch4.1：策略網路 ## 一. 簡介第二章有提到**策略函數**可以算出一狀態下，各動作的機率分佈。我們事先不知道這個策略函數，需要先做策略近似，透過學習來近似**策略函數**，而使用神經網路來近似**策略函數**的稱為**策略網路**。 <br> ## 二. 策略梯度法 :::success **策略梯度法** 運作方式例子：有個100支籤的籤桶，每支籤有標動作編號，有4種動作(編號有可能是0~3)，假設動作2有可能是最佳動作，籤筒內籤標為2的就較多，0、1、3就較少，抽重2號籤的機率最大，其餘仍有機會選中，讓演算法進行**探索** ::: ### (1)隨機策略梯度法 stochastic policy gradient 神經網路使用了隨機策略梯度法，它的輸出為各動作機率分佈向量。 <img src="https://i.imgur.com/nblR080.png" style="height:135px;"> ### (2)確定策略梯度法(退化機率分佈) deterministic policy gradient 使用了此方法的網路，只有**一種**動作可以執行(會直接傳回執行動作的索引值)。因為動作不具隨機性，容易造成代理人探索不足。 <img src="https://i.imgur.com/5CAgJr3.png" style="height:120px;">