RL

@RL666

XXX

Public team

Joined on Jul 14, 2022

  • 2.1 多臂拉霸機問題 :::success 假設有10台拉霸機,每一台最高獎金為10美金,且它們的平均獎金是不同的,要如何選到平均獎金最高的拉霸機? ::: 策略:隨機選擇一台拉霸機並進行多輪遊戲,一輪遊戲拉一台拉霸一次,記錄每一輪獲得的獎金,計算每一台拉霸機的期望獎金(expected reward) :::warning 公式 $$ Q_k(a)=\frac{r(a1)+r(a2)+...+r(an)}{n} $$ $a$:拉霸機號碼 $Q_k(a)$:a拉霸在第K次遊戲中的期望獎金
     Like 1 Bookmark
  • 1.強化學習介紹 :zap: 強化學習是機器學習中的一種策略,我們會設定要演算法達成的目標,然後根據演算法嘗試的結果給予回饋值 (達成目標給予正回饋、失敗則給負回饋) 直到能順利達成目標獲得正回饋為止。 2.強化學習架構 :zap: :arrow_right: 損失函數 Loss Function Loss Function 會給出一個值來評斷我們與目標的距離,當 Loss 越小就離目標越近。 :arrow_right: 環境 Environment & 狀態 State
     Like 2 Bookmark
  • 1. 簡介 Actor-Critic 綜合了策略梯度法以及 Q-Learning 的特性, 會利用 [價值函數] 來評估 s 狀態的價值 (注意,這邊價值為狀態價值 $V_{\pi}$ ) 並利用 [策略函數] 輸出 s 狀態動作的分布機率來決定 action, 執行動作後,再利用得到的 Return 和剛預測的價值計算 "advantage" 來衡量動作好壞 可以把 actor critic 看成兩個神經網路,分別代表以下功能 : :clown_face: - Actor(演員) : 也就是 [策略函數],用來決定接下來的動作 :female-teacher: - Critic (評論家) : [價值函數] 用來評估狀態的價值
     Like 1 Bookmark
  • 在深度學習中代理人會與環境互動,目標是為了得到最多的回饋值, 為了使 Reward 越大,要使用價值函數去做衡量,而策略函數會幫助我們計算價值。 :::success $s_t$:時間點t的狀態 $a_t$:時間點t所採取的動作 $r_t$:時間點t獲得的reward(回饋) BTW提醒一下 $r_t$ 並不是做了 $a_t$ 產生的回饋而是 $a_{t-1}$ :bangbang:注意: 通常"XX"空間(集合)會寫成大寫 ex : 動作空間 $A$, 狀態空間 $S$
     Like 2 Bookmark
  • 1. 簡介 TD-learning (Temporal-Difference Learning) 是強化學習中很重要的方法類 旗下延伸包含了許多不同的演算法,像 Q-learning、 Sarsa 等。 此方法結合了 [蒙地卡羅方法] 和 [動態規劃] 兩種想法誕生, 因為動態規劃通常會需要一個規律模型,但在強化學習中有太多不確定情況,無法直接取得模型 所以使用了蒙地卡羅方法來做不停地嘗試尋找規律來得出模型。 :::spoiler :secret:動態規劃簡介
     Like 1 Bookmark
  • 一. 簡介 第二章有提到策略函數可以算出一狀態下,各動作的機率分佈。 我們事先不知道這個策略函數,需要先做策略近似,透過學習來近似策略函數, 而使用神經網路來近似策略函數的稱為策略網路。 二. 策略梯度法 :::success 策略梯度法 運作方式例子:有個100支籤的籤桶,每支籤有標動作編號,有4種動作(編號有可能是0~3),假設動作2有可能是最佳動作,籤筒內籤標為2的就較多,0、1、3就較少,抽重2號籤的機率最大,其餘仍有機會選中,讓演算法進行探索 :::
     Like 1 Bookmark
  • 1. 災難型失憶 (1). 發生原因 在之前的訓練過程中,每次執行動作後都會更新 model 權重, 但如此就很有可能發生災難性失憶,如以下情況 : 遊戲 A 遊戲 B [[' ','W',' ',' '], [[' ','W',' ',' '], [' ','+','P','-'], [' ','-','P','+'], [' ',' ',' ',' '], [' ',' ',' ',' '],
     Like 1 Bookmark
  • 1. 實作遊戲介紹 這裡利用 GridWorld 的遊戲來測試 Q-learning 的實作, 可以去作者 Github 下載 GridWorld Script import wget # 下載 Gridworld.py & GridBoard.py wget.download("https://github.com/DeepReinforcementLearning/DeepReinforcementLearningInAction/raw/master/Errata/Gridworld.py") wget.download("https://github.com/DeepReinforcementLearning/DeepReinforcementLearningInAction/raw/master/Errata/GridBoard.py") (1).遊戲規則簡介
     Like 1 Bookmark