###### tags: `reinforcement learning` # 深度強化學習 Ch1 : 基本觀念 <br> ## 1.強化學習介紹 :zap: 強化學習是機器學習中的一種策略,我們會設定要演算法達成的目標,然後根據演算法嘗試的結果給予回饋值 (達成目標給予正回饋、失敗則給負回饋) 直到能順利達成目標獲得正回饋為止。 ## 2.強化學習架構 :zap:  ### :arrow_right: 損失函數 Loss Function Loss Function 會給出一個值來評斷我們與目標的距離,當 Loss 越小就離目標越近。 ### :arrow_right: 環境 Environment & 狀態 State **狀態**是指我們現在訓練目標的情況,例如戰鬥中敵人的數量, 而各種狀態便會形成一個**環境** (也可以說我們將環境切割為一個個的狀態) ### :arrow_right: 動作 Action **動作**是演算法經由各種不同環境的資訊後所作出的決策, 而動作也會改變當前環境的狀態。 ### :arrow_right: 回饋值 Reward **回饋值**是進行動作後所得到的值,來表示此動作的效果如何 如果能成功降低 Loss 則給予正回饋反之負回饋 // Ex : 正回饋(+10)、負回饋(-5) ### :arrow_right: 代理人 Agent 代理人就是我們用來做出決策(決定動作)的演算法, 利用輸入的狀態和回饋值,來訓練此演算法做出最佳的動作來應對環境 <br> ## 3.深度強化學習 :zap: 深度強化學習就是在**代理人**使用**神經網路**作為演算法 當然也有其他演算法可用,但神經網路是目前效果最佳的。
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.