IJCAI 2021 Reinforcement Learning for Intelligent Transportation Systems (RL4ITS) Workshop 筆記

# IJCAI 2021 Reinforcement Learning for Intelligent Transportation Systems (RL4ITS) Workshop 筆記 ## 問題與動機 ![](https://i.imgur.com/nAVZjv9.png) 現今的交通號誌設計不夠良好，沒有友善利用如圖可見即便左右向是沒有車流的前後向的車流卻還是被block住 ## 傳統的設計方式與RL設計方式 ![](https://i.imgur.com/1Doo0xH.png) - 當前較常使用的控制系統還是pre-designed的可能會根據過往歷史的經驗判斷哪些時段是高峰就開較長的綠燈時間，但車流問題會因為每個城市的發展狀況而有所改變 - 例如該地若新建捷運後可能會較多人搭乘捷運車流量反而會較少 - 傳統在解這個問題時會假設車子的speed是uniform的情況下，去解最小化旅行時間的問題，但這在現實生活中顯然不合理。 ## 用intuition的方法去解這個問題 ![](https://i.imgur.com/SOdO7mJ.png) 透過DQN在路口上學習reward來判斷要執行紅燈或是綠燈若給綠燈或紅燈時若整體的車有加速流動使壅塞趨緩那就是好的反之則不好 ## 主要面臨的問題 ![](https://i.imgur.com/zCMckfo.png) - 如何設計objective function (車流量車子的旅行時間 max_pressure) - 如何學習更快(learn from demostrate) - 如何縮小虛擬環境和現實世界的差距 (透過Inverse Reinforcement Learning) ## 現實跟虛擬的GAP ![](https://i.imgur.com/NxmgA6n.png) - 我們不可能在真實環境上訓練，必須使用虛擬環境 - 希望能直接在虛擬練好model後直接把它apply到現實環境上 - 但是卻存在很大的GAP ![](https://i.imgur.com/gU2LbQl.png) 透過inverse reinforcement learning 來模擬現實環境到虛擬希望能透過更像現實環境的虛擬環境做訓練來達到sim2real的成果 ![](https://i.imgur.com/3Mhiwlb.png) 講者分享了一場在探討robotic中該不該繼續做sim2real這個議題的debate（約45分鐘長）在debate開始前只有12％的人同意sim2real只是在浪費時間但在經過debate後同意的人變成了22％作者也認為終究會存在GAP，因此提出一個新的想法降低難度，只要能夠得到相同的reference就好 ![](https://i.imgur.com/uNyb7f7.png) idea 若能做到在虛擬環境中action A比B好那麼現實環境中A也比B好那即便模擬環境跟現實環境存在差異也沒關係。 ![](https://i.imgur.com/OaniTOK.png) 舉了作者辦的比賽當作例子從而發現前面名次的參賽者幾乎在解決方法的時候只是利用計算資源去搜尋參數，並沒有用任何有關NN的方法，得到不要想去解決現實與虛擬的gap而是嘗試解決問題的結論 # 補充資料 ## DQN模型 ![](https://i.imgur.com/xmPBFt4.png) - input 一個 state 經過神經網路（通常是多個捲積層） - output 出所有動作的估值來提供TD Learning更新模型使用 - 以馬力歐遊戲來舉例，以012當作左上右 output = DQN(state) - 那output[0]、output[1]、output[2]當作當前state執行左、上、右的價值 ## TD Learning ![](https://i.imgur.com/5ytRlhc.png) - 透過 reward跟下個state最大的Q值當作TD-target - 並把 TD target - TD predict 當作TD error - 透過 alpha * TD error來做更新 ## DQFD ![](https://i.imgur.com/qALDSq6.png) reference : https://arxiv.org/abs/1704.03732 ## Inverse Reinforcement Learning - 傳統的 RL在如何定義reward function (objective function)這件事情下了很大的功夫 - 而Inverse Reinforcement Learning 則是先拿專家做的經驗來執行 - 並假設專家做的reward會最大因此在做exploration的任何trajectory都會比專家玩的reward小 - IRL正是基於這樣的假設去推敲出reward funtcion的方法