進度報告 - HackMD

# 進度報告 ## 3/26 先對reinforcement learning做大致上的了解使用強化學習解決解決現實中的問題, 要思考環境有關的一些影響學習的細節, 並修改我們的公式對於強化學習要在一個隨機變化的環境中學習, 我們可能也讓智慧體有機率的做動作選擇(ϵ-貪心算法) ### 筆記 https://hackmd.io/HsLe2_yTT9eDkNLrMiMXdg?view ## 3/28 對於多臂老虎機問題, 直觀的解法可能是**上置信屆演算法**, 通過不斷修改平均值和置信區間來修改我們做選擇的基準而**湯普森採樣**則有更多的隨機性, 但對於分布機率更集中更高的老虎機, 則有更多機會去選擇該老虎機只要我們能把實際問題抽象程馬爾可夫決策過程, 我們就能使用強化學習去解決該問題馬爾可夫過程由<S, P>組成馬爾可夫獎勵過程由<S, P, r, γ>組成在馬爾可夫獎勵過程中, 我們要最大化![](https://i.imgur.com/LNHztwH.png) ### 筆記 https://hackmd.io/dkdX8iDRSCyxG4fsMPVEtg https://hackmd.io/nlt-ijzWSh2DfLbEX2Vvzw ## 3/31 馬爾可夫決策過程, 簡單講就是在獎勵過程的基礎上再加上動作集合即可, 當然還要有決定動作的策略蒙特卡洛方法是一個統計模擬方法, 用來學習某個策略的期望回報 ### 筆記 https://hackmd.io/-307ziNbRhyr5MvxHRl44A ## 佔用度量對於不同的環境, 我們需要對環境做了解, 進而出現了佔用度量, 用來了解不同策略所產生的狀態訪問分佈 ### 筆記 https://hackmd.io/swYdbqyxSHKxpaPLk5496Q?view ## 動態規劃 https://hackmd.io/Wc4Pu2AuR7-yJV6brlAgcQ?view https://hackmd.io/Wdkuw7u0QMKyWHwaAAPSUQ?view ## 價值迭代演算法 https://hackmd.io/YxAoxyVkRiSiIZKq_F32qw?view ## 時序差分 https://hackmd.io/gkRyngBqRsey8aRqekf7yA?view ## DQN算法 https://hackmd.io/OPWVzu4bSxaRRtM9pdyqKQ?view ## DQN 改進算法 https://hackmd.io/z6NzPJSjQJ2okixpSF3KSQ?view ## 策略梯度 https://hackmd.io/KW9omJjwQ5K5Yi2xc0uhbg ## Actor-Critic算法 https://hackmd.io/hWWRmOxmRRi0Y1cB_V5c1w?view ## TRPO算法 https://hackmd.io/qZ61hT6dQqiCwzhD2IDE7A?view ## PPO算法 https://hackmd.io/w7FwfOXPT4WiDiYvdK19vw?view ## DDPG算法 https://hackmd.io/rFAbFTR0QUiB8xgF6WPF3A?view ## SAC算法 https://hackmd.io/-MVAhXKWSiGctShbhmwxgw