# 深度強化學習  TD ERROR 越小越好 qt:完全憑空猜測 yt(td target):部分基於真實r(r=reward) 傳統DQN缺點:1.每次用完就丟很浪費2.st跟st+1會太像 不好 改良:experience relay: 先把一筆transition放進一個很大的buffer 繼將每一個episode中使用的(s,a,r,a')儲存於M中,再從M中抽取mini-batch轉換來最小化損失函式。 use SGD pritority experience relay:  因為error越大代表TD對這個state更不熟 --------------------------------------------------  用TD learning會高估 action value 1. 因為公式是用最大化 2. 用bootstrap 所以如果DQN本來就已經高估了 下一輪只會推到更高  problem:  sol: 1.use target network  就是拿一個新的network專門拿來算TD target 2. double dqn:  code 講解:+=目的=+10 , -= 掉到坑=-10gg w=wall p=player state 1 2 差別 :有reward state2=st+1 y=label=target   
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up