###### tags: `reinforcement learning`
# 深度強化學習 Ch4.1:策略網路
## 一. 簡介
第二章有提到**策略函數**可以算出一狀態下,各動作的機率分佈。
我們事先不知道這個策略函數,需要先做策略近似,透過學習來近似**策略函數**,
而使用神經網路來近似**策略函數**的稱為**策略網路**。
<br>
## 二. 策略梯度法
:::success
**策略梯度法**
運作方式例子:有個100支籤的籤桶,每支籤有標動作編號,有4種動作(編號有可能是0~3),假設動作2有可能是最佳動作,籤筒內籤標為2的就較多,0、1、3就較少,抽重2號籤的機率最大,其餘仍有機會選中,讓演算法進行**探索**
:::
### (1)隨機策略梯度法 stochastic policy gradient
神經網路使用了隨機策略梯度法,它的輸出為各動作機率分佈向量。
<img src="https://i.imgur.com/nblR080.png" style="height:135px;">
### (2)確定策略梯度法(退化機率分佈) deterministic policy gradient
使用了此方法的網路,只有**一種**動作可以執行(會直接傳回執行動作的索引值)。
因為動作不具隨機性,容易造成代理人探索不足。
<img src="https://i.imgur.com/5CAgJr3.png" style="height:120px;">