**An Outsider’s Tour of Reinforcement Learning (Part9)**

# **An Outsider’s Tour of Reinforcement Learning (Part9)** [TOC] ## [Clues for Which I Search and Choose](http://www.argmin.net/2018/03/20/mujocoloco/) ### [MuJoCo (Multi-Joint dynamics with Contact)](http://www.mujoco.org/) MuJoCo是一個物理引擎，旨在促進機器人，生物力學，圖形和動畫以及其他需要快速準確模擬的領域的研究和開發。它提供速度，精度和建模能力的獨特組合，但它不僅僅是一個更好的模擬器。它亦是第一個 full-featured 的模擬器，專為基於模型的優化而設計，特別是通過接觸進行優化。 MuJoCo可以擴展 computationally-intensive 技術，如最優控制，系統識別和自動機制設計，並將它們應用於大量接觸行為的複雜動態系統。它還具有更多傳統應用，例如能夠在控制策略應用於物理機器人、虛擬環境、動畫和遊戲上之前，先測試和驗證它。 [Google's DeepMind AI Just Taught Itself To Walk](https://youtu.be/gn4nRCC9TwQ) :::info - 最佳控制問題是讓一個足式機器人的模擬在一個方向上盡可能走地快和遠 - 但從這些模型中對移動進行規劃是具有挑戰性的，因為模型是分段線性的，使得我們尚不清楚該如何最好地設計目標函數 - 只要機器人的一部分接觸到固體物體時，模型就會發生變化。 ::: [OpenAI Gym](https://gym.openai.com/envs/#mujoco) 一個提供許多測試環境的工具，讓大家有一個共同的環境可以測試自己的 RL 演算法，而不用花時間去搭建自己的測試環境 &emsp; &emsp; &emsp; ![](https://i.imgur.com/dPGppUR.png) &emsp; &emsp; &emsp; statistics of the states and whitening the states before passing them into the neural net that defined the mapping from state to action &emsp; ![](https://i.imgur.com/Ar7EG1Y.png) drop the sampled directions that don’t yield good rewards ![](https://i.imgur.com/T2wAq0m.png) [Simple random search provides a competitive approach to reinforcement learning](https://arxiv.org/abs/1803.07055) [code](https://github.com/modestyachts/ARS) &emsp; :::warning 不要過分相信你的模擬器 - Mujoco不是一個完美的模擬器。Mujoco非常快，對於概念的驗證也非常有用。但為了保證能夠快速，它必須在接觸點周圍進行一些平滑處理(接觸點的不連續性使腿部運動變得困難) - 僅僅因為你可以讓這些模擬器中的一個走路，並不意味著你可以讓一個真正的機器人走路 ::: &emsp; Reward 高，卻並不現實的步態 : &emsp; ![image alt](http://www.argmin.net/assets/rl/mujoco/pegleg.gif)![image alt](http://www.argmin.net/assets/rl/mujoco/ice.gif) ![image alt](http://www.argmin.net/assets/rl/mujoco/backwards.gif)![image alt](http://www.argmin.net/assets/rl/mujoco/cancan.gif) &emsp; 即使是表現最好的模型，它的步態看起來也是非常的愚蠢，可能在現實中無法運作 : &emsp; ![image alt](http://www.argmin.net/assets/rl/mujoco/reward_11600.gif) &emsp; &emsp; :::warning - 由於我們的隨機搜索方法很快，我們可以在許多隨機種子上對他的表現進行評估 - 將注意力過於限制在隨機搜索的隨機種子上通常是非常具有誤導性的，因為你可能會將你的性能表現調整為隨機數生成器的特性 ::: &emsp; &emsp; 參考資料 : http://www.mujoco.org/ https://new.qq.com/omn/20180323/20180323A1B334.html https://www.youtube.com/watch?v=gn4nRCC9TwQ&feature=youtu.be