# 進度報告 ## 3/26 先對reinforcement learning做大致上的了解 使用強化學習解決解決現實中的問題, 要思考環境有關的一些影響學習的細節, 並修改我們的公式 對於強化學習要在一個隨機變化的環境中學習, 我們可能也讓智慧體有機率的做動作選擇(ϵ-貪心算法) ### 筆記 https://hackmd.io/HsLe2_yTT9eDkNLrMiMXdg?view ## 3/28 對於多臂老虎機問題, 直觀的解法可能是**上置信屆演算法**, 通過不斷修改平均值和置信區間來修改我們做選擇的基準 而**湯普森採樣**則有更多的隨機性, 但對於分布機率更集中更高的老虎機, 則有更多機會去選擇該老虎機 只要我們能把實際問題抽象程馬爾可夫決策過程, 我們就能使用強化學習去解決該問題 馬爾可夫過程由<S, P>組成 馬爾可夫獎勵過程由<S, P, r, γ>組成 在馬爾可夫獎勵過程中, 我們要最大化![](https://i.imgur.com/LNHztwH.png) ### 筆記 https://hackmd.io/dkdX8iDRSCyxG4fsMPVEtg https://hackmd.io/nlt-ijzWSh2DfLbEX2Vvzw ## 3/31 馬爾可夫決策過程, 簡單講就是在獎勵過程的基礎上再加上動作集合即可, 當然還要有決定動作的策略 蒙特卡洛方法是一個統計模擬方法, 用來學習某個策略的期望回報 ### 筆記 https://hackmd.io/-307ziNbRhyr5MvxHRl44A ## 佔用度量 對於不同的環境, 我們需要對環境做了解, 進而出現了佔用度量, 用來了解不同策略所產生的狀態訪問分佈 ### 筆記 https://hackmd.io/swYdbqyxSHKxpaPLk5496Q?view ## 動態規劃 https://hackmd.io/Wc4Pu2AuR7-yJV6brlAgcQ?view https://hackmd.io/Wdkuw7u0QMKyWHwaAAPSUQ?view ## 價值迭代演算法 https://hackmd.io/YxAoxyVkRiSiIZKq_F32qw?view ## 時序差分 https://hackmd.io/gkRyngBqRsey8aRqekf7yA?view ## DQN算法 https://hackmd.io/OPWVzu4bSxaRRtM9pdyqKQ?view ## DQN 改進算法 https://hackmd.io/z6NzPJSjQJ2okixpSF3KSQ?view ## 策略梯度 https://hackmd.io/KW9omJjwQ5K5Yi2xc0uhbg ## Actor-Critic算法 https://hackmd.io/hWWRmOxmRRi0Y1cB_V5c1w?view ## TRPO算法 https://hackmd.io/qZ61hT6dQqiCwzhD2IDE7A?view ## PPO算法 https://hackmd.io/w7FwfOXPT4WiDiYvdK19vw?view ## DDPG算法 https://hackmd.io/rFAbFTR0QUiB8xgF6WPF3A?view ## SAC算法 https://hackmd.io/-MVAhXKWSiGctShbhmwxgw