# 專題規劃 ============================== ## RL 學習 #### 實做練習 - [x] 2048 作業 - [x] after state - [x] before state - [x] DQN 作業 - [x] DQN - [x] Double DQN - [x] Dueling DQN - [x] PPO 作業 - [ ] TD3 作業 #### 網上資源: - 李弘毅老師影片: https://www.youtube.com/watch?v=z95ZYgPgXOY&list=PLJV_el3uVTsODxQFgzMzPLa16h6B8kWM_ - Shusan Wang 影片: https://www.youtube.com/watch?v=vmkRMvhCW5c&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU #### 需要了解的基本觀念 - [x] 基本環境 - MDP 架構 - environment - state, observation - action - reward - value function, Q function - policy - [x] 觀念 - Bellman Equation - greedy v.s. epsilon-greedy - MC (Monte-Carlo) v.s. TD (Temporal Difference) - TD($\lambda$), n-step TD - value-based v.s. policy-based - on-policy v.s. off-policy - policy gradient - replay buffer - exploration v.s. exploitation - multi-agent ##### MARL - cooperative v.s. competition - problem - Non-stationary - Complexity - CTDE (Centralized Training Decentralized Execution) - IGM (Individual-Global-Maximum) - [x] 常見模型 value based - MC - TD - Q-learning - SARSA - DQN - Double DQN - Dueling DQN policy based - REINFORCE - Actor-Critic - TRPO, PPO - DDPG, TD3 ##### MARL value based - VDN (Value-Decomposition Network) - QMIX policy based - IPPO - COMA - MAPPO - HAPPO ============================ ## 交通概念 號誌控制方法 - [x] 名詞 - phase (時向) - 時制 - 路網 - 流量 - [x] 主要的控制方法 - fix time control: 固定順序跟每個 phase 的時間 - select next phase: 固定 delta time, 每個 delta time 去決定要換到哪個 phase - switch next or not: 固定 delta time 跟 phase 順序,每個 delta time 去決定他要不要換到下一個 - set phase duration: 固定好順序,每次決定 phase 的時長 - [x] 傳統方法 - fix time - Max Pressure - SOTL - SCOOT - [x] 常用的指標 (用於 observation or reward) - queue length - waiting time - throughput - delay ======================== ## 目標: 使用 CityFlow 模擬器,結合 Dynamic Sight Range 的方式,研究是否可以優化號誌控制績效,或是改善訓練效率 - [x] CityFlow - 需要先了解/熟悉 CityFlow 模擬器 - 架接 multi-agent reinforcement learning 到模擬器上 (可能網路上已經有框架可以直接使用) - 可參考: - https://github.com/cityflow-project/CityFlow - https://arxiv.org/abs/1905.05217 - https://cityflow-project.github.io/#about - https://github.com/cityflow-project/CityFlowER - [x] Database 找看看網路上的公開資料集 例如: - 美國-紐約 - 中國-杭州 - 中國-濟南 - [x] DSR - 讀唯辰學長 DSR paper - 看 DSR code - [ ] 實作 ================================= ### 暑假期望 - [x] 熟悉 cityflow - 具備基本的 RL 概念 - 三項作業寫完 - 大概知道經典演算法的概念 - 了解 multi-agent - [x] 了解交通環境 - 如果把 DSR 讀完的話很猛