###### tags: `reinforcement learning`
# 深度強化學習 Ch1 : 基本觀念
<br>
## 1.強化學習介紹 :zap:
強化學習是機器學習中的一種策略,我們會設定要演算法達成的目標,然後根據演算法嘗試的結果給予回饋值 (達成目標給予正回饋、失敗則給負回饋)
直到能順利達成目標獲得正回饋為止。
## 2.強化學習架構 :zap:

### :arrow_right: 損失函數 Loss Function
Loss Function 會給出一個值來評斷我們與目標的距離,當 Loss 越小就離目標越近。
### :arrow_right: 環境 Environment & 狀態 State
**狀態**是指我們現在訓練目標的情況,例如戰鬥中敵人的數量,
而各種狀態便會形成一個**環境** (也可以說我們將環境切割為一個個的狀態)
### :arrow_right: 動作 Action
**動作**是演算法經由各種不同環境的資訊後所作出的決策,
而動作也會改變當前環境的狀態。
### :arrow_right: 回饋值 Reward
**回饋值**是進行動作後所得到的值,來表示此動作的效果如何
如果能成功降低 Loss 則給予正回饋反之負回饋 // Ex : 正回饋(+10)、負回饋(-5)
### :arrow_right: 代理人 Agent
代理人就是我們用來做出決策(決定動作)的演算法,
利用輸入的狀態和回饋值,來訓練此演算法做出最佳的動作來應對環境
<br>
## 3.深度強化學習 :zap:
深度強化學習就是在**代理人**使用**神經網路**作為演算法
當然也有其他演算法可用,但神經網路是目前效果最佳的。