There is no commentSelect some text and then click Comment, or simply add a comment to this page from below to start a discussion.
Reinforcement Learning
Introduction
最基本的 RL 可以利用 Markov Decision Process 來描述,也就是有一個 set of states 、 a set of actions ,透過 action 從 state 轉移到 state 的機率為 ,並且定義從透過 從 轉移到 的獎勵是 。 RL 、 supervised-learning 和 unsupervised-learning 可以將機器學習方法分類為這三大類,其他 RL 特別適合用來解決一些難以做 label 並且人類不知道正確答案為何的問題。以下我們先從數學角度切入試圖理解 RL 。
Markov Decision Process
Markov Property
Describe the memoryless property of a stochastic process, it's future evolution is independent of its history. 描述成數學式為以下
Discrete-time Markov Chain
描述 a sequence of random variable with Markov Property ,也就是如果 則 。 白話的描述即是從當前狀態轉移到下一個狀態的機率只依賴當前的狀態,而跟之前任何狀態都無關。 這些 random variable 的集合 又可以稱為 state space of the chain ,並且是可數集。 當 為有限時 ,則轉移的機率分佈可以被定義為 Transition matrix 滿足 每個 row 的和會是 1 ,且 是一個 right stochastic matrix 。
Markov decision process
一個 MDP 可以用一個 4-tuple 來描述, ,其中
: state space
: action space ( 代表從 開始的 available action set)
: Reward
如果我們把每個狀態轉移到下一個狀態會採取的動作固定,則 MDP 會收斂成一個 Markov chain ,其中每個 Markov chain 都可以計算出一組 discount sum 定義如下 Markov Decision Process 的目標是找到一個函式 使得對應產生的 Markov chain 有最大的 discount sum 。 ,代表狀態 會採取動作 。其中一種解法是利用 DP 也就是動態規劃,定義兩個陣列 分別如下