Practical_RL - Lecture 2 : Dynamic Programming

# Practical_RL - Lecture 2 : Dynamic Programming [TOC] &emsp; &emsp; ## Given dynamics, how to find an optimal policy ? &emsp; ![](https://i.imgur.com/qPBtDES.png) &emsp; &emsp; &emsp; ![](https://i.imgur.com/pjhNkKs.png) &emsp; ![](https://i.imgur.com/OjelHP0.png) &emsp; &emsp; ### **Reward discounting : γ** **0 ≤ γ < 1** ![](https://i.imgur.com/ByX2EeY.png) &emsp; &emsp; - 折扣能夠使獎勵的總和變為有限的 ![](https://i.imgur.com/TM80oPR.png) &emsp; &emsp; :::info **為什麼要使用折扣率 γ ?** &emsp; 1. 折扣獎勵方便數學上的運算 2. 避免MDP過程中產生無限的回報 3. 關於未來不確定性的體現 4. 如果獎勵是金融獎勵，立即獎勵可以賺取更多利息而不是延遲獎勵 ::: &emsp; &emsp; - reward only for WHAT, but never for HOW 當我們的目標為 "累積 Reward" 最大化時，agent 的行動模式跟我們的預測可能會出現意料外的差別。在對於agent與環境不全然了解且獎勵設計有誤時，agent 可能會為了得到最多的獎勵而選擇不完成任務，或是採用我們不希望的方法結束任務。 &emsp; &emsp; &emsp; &emsp; ### **State- and Action-value functions :** &emsp; ![](https://i.imgur.com/RdajUT7.png) &emsp; &emsp; **State-value function v(s) :** &emsp; ![](https://i.imgur.com/c4m9VnU.png) &emsp; &emsp; **Action-value function q(s, a) :** &emsp; ![](https://i.imgur.com/jHWS14K.png) &emsp; &emsp; &emsp; ### **[Bellman](https://hackmd.io/MXCru1uRQ4iUeAnMJzVdZA) Expectation Equation :** &emsp; ![](https://i.imgur.com/jOTOrRH.png) &emsp; &emsp; &emsp; &emsp; ![](https://i.imgur.com/IKWCac4.png) &emsp; &emsp; ### **Optimal Value Function :** 強化學習最重要的點在於找到一個最好的Policy (策略)，讓 Reward 可以最大化 &emsp; ![](https://i.imgur.com/EEZA8ij.png) &emsp; &emsp; ![](https://i.imgur.com/cpcWSNk.png) &emsp; ![](https://i.imgur.com/qMUbcWd.png) &emsp; &emsp; &emsp; &emsp; ### **Generalized Policy Iteration :** &emsp; #### 1. Policy Evaluation #### 2. Policy Improvement &emsp; &emsp; ![](https://i.imgur.com/R9irH46.png) &emsp; &emsp; ![](https://i.imgur.com/UPL5cTt.png) &emsp; &emsp; ![](https://i.imgur.com/S5JP6Cm.png) &emsp; -1.7 的計算：0.25 [(-1)+(-1)] 3 + 0.25 [(-1)+0] = -1.75 -2.0 的計算 : 0.25 [(-1)+(-1)] 4 = -2 -2.4 的計算：0.25 [(-1)+(-2)] 2+ 0.25 [(-1)+0] + 0.25 [(-1)+(-1.7)] = -2.425 &emsp; &emsp; ![](https://i.imgur.com/PPMNnbU.png) &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; 參考資料 : http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/MDP.pdf http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/DP.pdf https://docs.google.com/presentation/d/1lz2oIUTvd2MHWKEQSH8hquS66oe4MZ_eRvVViZs2uuE https://blog.csdn.net/mmc2015/article/details/52859611