**An Outsider’s Tour of Reinforcement Learning (Part5)**

# **An Outsider’s Tour of Reinforcement Learning (Part5)** [TOC] ## [A Game of Chance to You to Him Is One of Real Skill](http://www.argmin.net/2018/02/14/rl-game/) ### Trajectories and Policies    ![](https://i.imgur.com/nAy0YQk.png)   ![](https://i.imgur.com/q2WLCxm.png)   ![](https://i.imgur.com/nD0WfPw.png)   The trajectory as a sequence of states,control actions and rewards generated by this dynamical system : ![](https://i.imgur.com/pyZEIUC.png) **Policy** : Policy 是指在狀態 s 時，所要做出 action 的選擇，定義為 𝝅 。policy 可以視為在系統感知到狀態 s 後到動作 a 的一個mapping。如果策略是隨機的，policy 是根據每個動作概率 𝝅(a|s) 選擇動作 ![](https://i.imgur.com/22951Hp.png)   ### Iterative Learning Control 疊代學習控制（Iterative Learning Control、ILC）是一種對做重複動作的軌跡跟蹤系統的控制方法。例如機器手臂控制、化工反應過程控制、試驗鑽探等。這些系統都具備多次準確重複同一動作的特性。其動作的目標是在有限的時間區間內，準確的追蹤給定的參考訊號。通過使用先前動作中的數據信息，可以通過疊代尋找到合適的控制輸入。這種模式理論上可以獲得非常精確的跟蹤軌跡，最典型的疊代學習率可以表達為：   ![](https://i.imgur.com/ohUwjRi.png)   $u_k$ 是第 k 次疊代的輸入信號，$e_k$ 是第 k 次過程的跟蹤誤差， L 是學習參數，通常叫做學習增益。   實際的控制中存在著一類估計跟蹤問題，他的控制任務是尋找控制律 u(t) ,使得被控對象的輸出 y(t) 在有限的時間 [0,T] 上沿著整個期望的軌跡實現零誤差軌跡跟蹤。   :::info - 設計執行重複任務的控制系統，並且利用重複的過程來改進設計 - 學習跟踪軌跡，通過先前迭代中與期望軌跡的偏差來調整並改進輸入控制 ::: &emsp; [Quadrocopter Slalom: Learning from prior experience](https://www.youtube.com/watch?v=IZTP7h5cfqg) &emsp; **RL** : 隱藏關於動態系統的信息，假裝我們不了解基本機制並且無法理解控制系統的預期目標。因此，RL需要數百萬個訓練樣例才能達到合理的性能。 &emsp; **ILC** : 一般不需要超過幾十次的迭代就能超越人類的表現。但ILC通常需要合理的模型，並且假設具有 well specified dynamics。 &emsp; :::warning Q : 是否存在 middle ground ? 我們能否 specify 一個較粗略的模型，卻又能在短時間內得知實際的物理系統 ? Q : 我們要如何在建構模型跟所需的迭代次數之中找到平衡 ? ::: &emsp; [.](https://hackmd.io/PjqOQtRyTNixvxEKq0EJRA?view) &emsp; &emsp; 參考資料 : http://www.argmin.net/2018/02/14/rl-game/