# 進度報告
## 3/26
先對reinforcement learning做大致上的了解
使用強化學習解決解決現實中的問題, 要思考環境有關的一些影響學習的細節, 並修改我們的公式
對於強化學習要在一個隨機變化的環境中學習, 我們可能也讓智慧體有機率的做動作選擇(ϵ-貪心算法)
### 筆記
https://hackmd.io/HsLe2_yTT9eDkNLrMiMXdg?view
## 3/28
對於多臂老虎機問題, 直觀的解法可能是**上置信屆演算法**, 通過不斷修改平均值和置信區間來修改我們做選擇的基準
而**湯普森採樣**則有更多的隨機性, 但對於分布機率更集中更高的老虎機, 則有更多機會去選擇該老虎機
只要我們能把實際問題抽象程馬爾可夫決策過程, 我們就能使用強化學習去解決該問題
馬爾可夫過程由<S, P>組成
馬爾可夫獎勵過程由<S, P, r, γ>組成
在馬爾可夫獎勵過程中, 我們要最大化
### 筆記
https://hackmd.io/dkdX8iDRSCyxG4fsMPVEtg
https://hackmd.io/nlt-ijzWSh2DfLbEX2Vvzw
## 3/31
馬爾可夫決策過程, 簡單講就是在獎勵過程的基礎上再加上動作集合即可, 當然還要有決定動作的策略
蒙特卡洛方法是一個統計模擬方法, 用來學習某個策略的期望回報
### 筆記
https://hackmd.io/-307ziNbRhyr5MvxHRl44A
## 佔用度量
對於不同的環境, 我們需要對環境做了解, 進而出現了佔用度量, 用來了解不同策略所產生的狀態訪問分佈
### 筆記
https://hackmd.io/swYdbqyxSHKxpaPLk5496Q?view
## 動態規劃
https://hackmd.io/Wc4Pu2AuR7-yJV6brlAgcQ?view
https://hackmd.io/Wdkuw7u0QMKyWHwaAAPSUQ?view
## 價值迭代演算法
https://hackmd.io/YxAoxyVkRiSiIZKq_F32qw?view
## 時序差分
https://hackmd.io/gkRyngBqRsey8aRqekf7yA?view
## DQN算法
https://hackmd.io/OPWVzu4bSxaRRtM9pdyqKQ?view
## DQN 改進算法
https://hackmd.io/z6NzPJSjQJ2okixpSF3KSQ?view
## 策略梯度
https://hackmd.io/KW9omJjwQ5K5Yi2xc0uhbg
## Actor-Critic算法
https://hackmd.io/hWWRmOxmRRi0Y1cB_V5c1w?view
## TRPO算法
https://hackmd.io/qZ61hT6dQqiCwzhD2IDE7A?view
## PPO算法
https://hackmd.io/w7FwfOXPT4WiDiYvdK19vw?view
## DDPG算法
https://hackmd.io/rFAbFTR0QUiB8xgF6WPF3A?view
## SAC算法
https://hackmd.io/-MVAhXKWSiGctShbhmwxgw