###### tags: `reinforcement learning` # 深度強化學習 Ch1 : 基本觀念 <br> ## 1.強化學習介紹 :zap: 強化學習是機器學習中的一種策略,我們會設定要演算法達成的目標,然後根據演算法嘗試的結果給予回饋值 (達成目標給予正回饋、失敗則給負回饋) 直到能順利達成目標獲得正回饋為止。 ## 2.強化學習架構 :zap: ![](https://i.imgur.com/NUebRzl.png) ### :arrow_right: 損失函數 Loss Function Loss Function 會給出一個值來評斷我們與目標的距離,當 Loss 越小就離目標越近。 ### :arrow_right: 環境 Environment & 狀態 State **狀態**是指我們現在訓練目標的情況,例如戰鬥中敵人的數量, 而各種狀態便會形成一個**環境** (也可以說我們將環境切割為一個個的狀態) ### :arrow_right: 動作 Action **動作**是演算法經由各種不同環境的資訊後所作出的決策, 而動作也會改變當前環境的狀態。 ### :arrow_right: 回饋值 Reward **回饋值**是進行動作後所得到的值,來表示此動作的效果如何 如果能成功降低 Loss 則給予正回饋反之負回饋 // Ex : 正回饋(+10)、負回饋(-5) ### :arrow_right: 代理人 Agent 代理人就是我們用來做出決策(決定動作)的演算法, 利用輸入的狀態和回饋值,來訓練此演算法做出最佳的動作來應對環境 <br> ## 3.深度強化學習 :zap: 深度強化學習就是在**代理人**使用**神經網路**作為演算法 當然也有其他演算法可用,但神經網路是目前效果最佳的。