###### tags: `reinforcement learning` # 深度強化學習 Ch4.1:策略網路 ## 一. 簡介 第二章有提到**策略函數**可以算出一狀態下,各動作的機率分佈。 我們事先不知道這個策略函數,需要先做策略近似,透過學習來近似**策略函數**, 而使用神經網路來近似**策略函數**的稱為**策略網路**。 <br> ## 二. 策略梯度法 :::success **策略梯度法** 運作方式例子:有個100支籤的籤桶,每支籤有標動作編號,有4種動作(編號有可能是0~3),假設動作2有可能是最佳動作,籤筒內籤標為2的就較多,0、1、3就較少,抽重2號籤的機率最大,其餘仍有機會選中,讓演算法進行**探索** ::: ### (1)隨機策略梯度法 stochastic policy gradient 神經網路使用了隨機策略梯度法,它的輸出為各動作機率分佈向量。 <img src="https://i.imgur.com/nblR080.png" style="height:135px;"> ### (2)確定策略梯度法(退化機率分佈) deterministic policy gradient 使用了此方法的網路,只有**一種**動作可以執行(會直接傳回執行動作的索引值)。 因為動作不具隨機性,容易造成代理人探索不足。 <img src="https://i.imgur.com/5CAgJr3.png" style="height:120px;">
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up