---
# System prepended metadata

title: '**An Outsider’s Tour of Reinforcement Learning (Part5)**'

---

# **An Outsider’s Tour of Reinforcement Learning (Part5)**

[TOC]

## [A Game of Chance to You to Him Is One of Real Skill](http://www.argmin.net/2018/02/14/rl-game/)


### Trajectories and Policies
&nbsp;&nbsp;


![](https://i.imgur.com/nAy0YQk.png)
&nbsp;

![](https://i.imgur.com/q2WLCxm.png)
&nbsp;

![](https://i.imgur.com/nD0WfPw.png)
&nbsp;

The trajectory as a sequence of states,control actions and rewards generated by this dynamical system :

![](https://i.imgur.com/pyZEIUC.png) 


**Policy** : Policy 是指在狀態 s 時，所要做出 action 的選擇，定義為 𝝅 。policy 可以視為在系統感知到狀態 s 後到動作 a 的一個mapping。如果策略是隨機的，policy 是根據每個動作概率 𝝅(a|s) 選擇動作

![](https://i.imgur.com/22951Hp.png)
&nbsp;

### Iterative Learning Control

疊代學習控制（Iterative Learning Control、ILC）是一種對做重複動作的軌跡跟蹤系統的控制方法。例如機器手臂控制、化工反應過程控制、試驗鑽探等。這些系統都具備多次準確重複同一動作的特性。其動作的目標是在有限的時間區間內，準確的追蹤給定的參考訊號。

通過使用先前動作中的數據信息，可以通過疊代尋找到合適的控制輸入。這種模式理論上可以獲得非常精確的跟蹤軌跡，最典型的疊代學習率可以表達為：
&nbsp;
![](https://i.imgur.com/ohUwjRi.png)
&nbsp;
$u_k$  是第 k 次疊代的輸入信號，$e_k$ 是第 k 次過程的跟蹤誤差， L 是學習參數，通常叫做學習增益。
&nbsp;
實際的控制中存在著一類估計跟蹤問題，他的控制任務是尋找控制律       u(t) ,使得被控對象的輸出 y(t) 在有限的時間 [0,T] 上沿著整個期望的軌跡實現零誤差軌跡跟蹤。
&nbsp;
:::info
- 設計執行重複任務的控制系統，並且利用重複的過程來改進設計
- 學習跟踪軌跡，通過先前迭代中與期望軌跡的偏差來調整並改進輸入控制
:::
&emsp;
[Quadrocopter Slalom: Learning from prior experience](https://www.youtube.com/watch?v=IZTP7h5cfqg)
&emsp;
**RL**  : 隱藏關於動態系統的信息，假裝我們不了解基本機制並且無法理解控制系統的預期目標。因此，RL需要數百萬個訓練樣例才能達到合理的性能。
&emsp;

**ILC** : 一般不需要超過幾十次的迭代就能超越人類的表現。但ILC通常需要合理的模型，並且假設具有 well specified dynamics。
&emsp;

:::warning
Q : 是否存在 middle ground ? 我們能否 specify 一個較粗略的模型，卻又能在短時間內得知實際的物理系統 ?

Q : 我們要如何在建構模型跟所需的迭代次數之中找到平衡 ?
:::

&emsp;

[.](https://hackmd.io/PjqOQtRyTNixvxEKq0EJRA?view)

&emsp;
&emsp;


參考資料 : 

http://www.argmin.net/2018/02/14/rl-game/

