###### tags: `reinforcement learning` # 深度強化學習 Ch4.1:策略網路 ## 一. 簡介 第二章有提到**策略函數**可以算出一狀態下,各動作的機率分佈。 我們事先不知道這個策略函數,需要先做策略近似,透過學習來近似**策略函數**, 而使用神經網路來近似**策略函數**的稱為**策略網路**。 <br> ## 二. 策略梯度法 :::success **策略梯度法** 運作方式例子:有個100支籤的籤桶,每支籤有標動作編號,有4種動作(編號有可能是0~3),假設動作2有可能是最佳動作,籤筒內籤標為2的就較多,0、1、3就較少,抽重2號籤的機率最大,其餘仍有機會選中,讓演算法進行**探索** ::: ### (1)隨機策略梯度法 stochastic policy gradient 神經網路使用了隨機策略梯度法,它的輸出為各動作機率分佈向量。 <img src="https://i.imgur.com/nblR080.png" style="height:135px;"> ### (2)確定策略梯度法(退化機率分佈) deterministic policy gradient 使用了此方法的網路,只有**一種**動作可以執行(會直接傳回執行動作的索引值)。 因為動作不具隨機性,容易造成代理人探索不足。 <img src="https://i.imgur.com/5CAgJr3.png" style="height:120px;">
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.