第三章 先提大的(像是為什麼要用unity和強化學習,可以是想要仿照openai所以利用強化學習)在進步驟 3-1 首先,使用Unity先建設簡單的追逐環境(如何建設),利用座標位子和3dRay去進行觀察(解釋一下Ray的物件(unity內部的物品)),設定好目標,利益如何增加。 進行訓練,訓練內容(圖) 3-2 第二,當確定會追逐玩家,地圖內添加障礙物,利益值如何進行調整,像是有牆壁會怎樣,利益要以抓到玩家的利益值為最高(像是當目標在牆壁前要確定鬼會去抓他)。 進行訓練,訓練內容(圖) 第四章 訓練完的結果,利益值是多少,呈現如何,跟預期有沒有一樣,若不一樣有哪些不一樣,那是甚麼問題,有沒有解決方法。 https://arxiv.org/pdf/1708.05866.pdf https://arshren.medium.com/reinforcement-learning-creating-a-custom-environment-aeeed661d641 https://arxiv.org/pdf/1810.05587.pdf https://arxiv.org/pdf/1909.07528.pdf https://hackmd.io/@5GEBgJrBTv2PyTBl6bTWKw/B1N_oleat https://openai.com/research/emergent-tool-use https://medium.com/@ZH_Shen/%E6%A6%82%E8%BF%B0%E5%A2%9E%E5%BC%B7%E5%BC%8F%E5%AD%B8%E7%BF%92-reinforcement-learning-rl-%E6%9D%8E%E5%BC%98%E6%AF%85-ml2021-13-73cccc59f348 第七章 參考文獻 [1] OpenAI, EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA : https://arxiv.org/pdf/1909.07528.pdf [2] Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage and Anil Anthony Bharath, A Brief Survey of Deep Reinforcement Learning : https://arxiv.org/pdf/1708.05866.pdf [3] The perception-action-learning loop: https://arshren.medium.com/reinforcement-learning-creating-a-custom-environment-aeeed661d641 [4] OpenAI, Proximal Policy Optimization : https://openai.com/research/openai-baselines-ppo [5] Unity ML-Agent : https://github.com/Unity-Technologies/ml-agents 第六章 附錄 A。新增設線原因,座標牆壁中心點的問題。 B。過於簡單的地圖訓練,導致代理人會變成固定行為。 C。曲棍球的球碰撞問題。 曲棍球的球碰撞問題: 球的碰撞設置是訓練的重要問題之一,若沒有設置完好,會導致訓練成效差甚至失敗 我們在起初訓練過程中遇到了曲棍球在擊中時速度太快會導致在一個時間步內未能被偵測到碰撞而穿越牆壁,如圖一和圖二,訓練結果也呈現失敗如圖三 因此我們添加球擁有Rigidbody組件,他能解決球的質量,阻力以及碰撞問題,其中Collision Detection Mode 是 Unity 中 Rigidbody 組件的一個屬性, 用來設定物體之間碰撞的偵測方式。在這個屬性中,Continuous Dynamic 是其中一種模式,如圖四 Continuous Dynamic(持續動態): 這種模式的運作原理是使用一種叫做 "Continuous Collision Detection"(連續碰撞偵測)的技術,Unity 將會持續偵測正在移動的物體與其他物體的碰撞 以確保即使在物體高速運動的情況下,也能夠正確地偵測到碰撞發生,如圖五。 我們也在unity中的project settings里設置物體碰撞 以確保有適當的碰撞層和碰撞矩陣設定,確保球體能夠與需要碰撞的其他物體進行互動,如圖六 ![圖一](https://hackmd.io/_uploads/HJQItQRST.png) ![圖二](https://hackmd.io/_uploads/rk7LFQCra.png) ![圖三](https://hackmd.io/_uploads/SJQIK7RHa.png) ![圖五](https://hackmd.io/_uploads/r1XIFXRrp.png) ![圖六](https://hackmd.io/_uploads/SJXLt7AHa.png) ![圖四](https://hackmd.io/_uploads/H1QUF7AHa.png)