**An Outsider’s Tour of Reinforcement Learning (Part1)**

# **An Outsider’s Tour of Reinforcement Learning (Part1)** [TOC] ## **[Make it happen](http://www.argmin.net/2018/01/29/taxonomy/)** ![](https://i.imgur.com/hlb6DDK.png)![](https://i.imgur.com/Ttfw2q0.png) &emsp;&emsp;如果你看了hacker news，你會認為可以使用Deep RL來解決任何問題。Deep RL 被聲稱能夠 [achieve superhuman performance on Go](https://deepmind.com/research/alphago/),[beat atari games](https://deepmind.com/research/publications/playing-atari-deep-reinforcement-learning/),[control complex robotic systems](https://blog.openai.com/generalizing-from-simulation/),[automatically tune deep learning systems](https://ai.googleblog.com/2017/11/automl-for-large-scale-image.html),[manage queueing in network stacks](https://www.microsoft.com/en-us/research/publication/resource-management-deep-reinforcement-learning/),[improve energy efficiency in data centers](https://deepmind.com/blog/deepmind-ai-reduces-google-data-centre-cooling-bill-40/)。但是Deep RL是真的如此萬能嗎? 他們又是如何達到這樣的結果 ? &emsp; &emsp;&emsp;強化學習需要討論在機器學習的第一門課程中不常討論的概念。首先，必須考慮隨時間演變的統計模型，並了解時間相關的數據中與性質的依賴關係。其次，需要了解統計學習中的反饋問題，這會使得所有的分析都更具有挑戰性。 &emsp; &emsp; ### **Reinforcement Learning As Predictive Analytics** 機器學習有三個主要核心 :::info * unsupervised learning * supervised learning * reinforcement learning ::: &emsp; &emsp; ![](https://i.imgur.com/H4ix2mY.png) &emsp; &emsp; [brilliant taxonomy of ML ](https://www.slideshare.net/chrishwiggins/machine-learning-summer-school-2016/75) &emsp; &emsp; ![](https://i.imgur.com/J5Gc9QK.png) &emsp; * unsupervised : 從list x 中，以某種方式總結出x中顯著的信息，並創建一個較短的list z，z中的特徵可以是對集群的分類或是將例子映射到用於繪圖的二維狀態。 * supervised : 目標是在新數據上能從x準確預測y，這也是多數人最熟悉的機器學習形式。 * reinforcement learning : 目標是分析x，然後能選出a使r最大化 &emsp; &emsp; &emsp; ![](https://i.imgur.com/8nmM4qW.png) &emsp; &emsp; ![](https://i.imgur.com/kdCOUN3.png) &emsp; * descriptive analytics : 是指以一種使其更具可解釋性的方式匯總數據，無監督學習是一種描述性分析。 * predictive analytics : 旨在估計當前數據的結果，監督式學習是一種預測分析。 * prescriptive analytics : 採取行動以保證結果，這裡描述的RL屬於此類。 &emsp; &emsp; ### **總結** &emsp; &emsp; &emsp;&emsp;無監督學習是三種類型的機器學習問題中最容易的，因為賭注是如此地低。如果需要做的只是總結，那麼將沒有錯誤的答案。描述性分析和無監督學習更依賴於美學而不是具體目標。 &emsp;&emsp;最具挑戰性的分析形式和能夠帶來最大價值的分析是規範分析。規範性分析和強化學習需要干預，並承諾這些行動將直接帶來有價值的回報。良好的決策可以帶來豐厚的回報，但複雜的反饋行動在理論上很難研究，若失敗了將可能造成災難性的後果。 &emsp;&emsp;我們必須對我們的機器學習系統負責，並了解當我們將它們放在世界上時會發生什麼。對RL更多地了解可以幫助我們建立更安全的機器學習系統。 &emsp; :::info Part 2 將從最佳控制的角度描述RL ::: &emsp; &emsp; &emsp; &emsp; &emsp; 參考資料 : http://www.argmin.net/2018/01/29/taxonomy/