# **An Outsider’s Tour of Reinforcement Learning (Part5)**
[TOC]
## [A Game of Chance to You to Him Is One of Real Skill](http://www.argmin.net/2018/02/14/rl-game/)
### Trajectories and Policies



The trajectory as a sequence of states,control actions and rewards generated by this dynamical system :

**Policy** : Policy 是指在狀態 s 時,所要做出 action 的選擇,定義為 𝝅 。policy 可以視為在系統感知到狀態 s 後到動作 a 的一個mapping。如果策略是隨機的,policy 是根據每個動作概率 𝝅(a|s) 選擇動作

### Iterative Learning Control
疊代學習控制(Iterative Learning Control、ILC)是一種對做重複動作的軌跡跟蹤系統的控制方法。例如機器手臂控制、化工反應過程控制、試驗鑽探等。這些系統都具備多次準確重複同一動作的特性。其動作的目標是在有限的時間區間內,準確的追蹤給定的參考訊號。
通過使用先前動作中的數據信息,可以通過疊代尋找到合適的控制輸入。這種模式理論上可以獲得非常精確的跟蹤軌跡,最典型的疊代學習率可以表達為:

$u_k$ 是第 k 次疊代的輸入信號,$e_k$ 是第 k 次過程的跟蹤誤差, L 是學習參數,通常叫做學習增益。
實際的控制中存在著一類估計跟蹤問題,他的控制任務是尋找控制律 u(t) ,使得被控對象的輸出 y(t) 在有限的時間 [0,T] 上沿著整個期望的軌跡實現零誤差軌跡跟蹤。
:::info
- 設計執行重複任務的控制系統,並且利用重複的過程來改進設計
- 學習跟踪軌跡,通過先前迭代中與期望軌跡的偏差來調整並改進輸入控制
:::
 
[Quadrocopter Slalom: Learning from prior experience](https://www.youtube.com/watch?v=IZTP7h5cfqg)
 
**RL** : 隱藏關於動態系統的信息,假裝我們不了解基本機制並且無法理解控制系統的預期目標。因此,RL需要數百萬個訓練樣例才能達到合理的性能。
 
**ILC** : 一般不需要超過幾十次的迭代就能超越人類的表現。但ILC通常需要合理的模型,並且假設具有 well specified dynamics。
 
:::warning
Q : 是否存在 middle ground ? 我們能否 specify 一個較粗略的模型,卻又能在短時間內得知實際的物理系統 ?
Q : 我們要如何在建構模型跟所需的迭代次數之中找到平衡 ?
:::
 
[.](https://hackmd.io/PjqOQtRyTNixvxEKq0EJRA?view)
 
 
參考資料 :
http://www.argmin.net/2018/02/14/rl-game/