論文勘誤 - HackMD

# 論文勘誤 p27 而三個服務機器人在分別接到任務之後，服務機器人系統（PPO 演算法架構），經由演算，會演算出服務機器人該走的下一步的機率，三個服務機器人各依最高的機率去執行，除非有違法行為，才會依均勻分佈選擇去執行該走的下一步。 -> 訓練的時候會用softmax輸出的機率分佈去進行動作的取樣，測試的時候才會選擇最高機率 --- p28 若非上述情況： rt= - (機器人目前位置與目標位置的距離) 這個reward已經移除 --- p37 ![](https://i.imgur.com/AJOD7bJ.png) https://chriskang028.medium.com/statistic-hypothesis-testing-f766c129d632 --- 問題：模型問題 Q：是否有嘗試過其它的模型，更深的模型深度？是有試過更深或更寬的模型，但訓練時間會拉更長，所以以這個問題的複雜度，我們折衷以目前的模型來做，就足夠解決我們預設的問題。而且我們是要做出強化學習的訓練框架，足以解決路徑規劃與中央程排系統的需求，不是要求最好。算法問題 Q：為什麼使用PPO？而不是其他的強化學習算法？以這個個案需求，使用目前最強的強化學習演算法PPO。 Q：定義違法行為有巨大的效能提昇，這個部份是採用例外處理的方式，為什麼不用RL的方法解決？二者都可以用RL解決，只要訓練的夠久，就沒有問題。但是在工程上，使用例外處理就可以解決。（加了人腦的好處）禁止迴圈：禁止碰撞：類似緊急措施 Q：本論文牽涉到地圖與機器人定位問題，是否有考慮過將RL與SLAM進行整合？ SLAM：感測器收集資料來建地圖，來解決機器人定位問題。但我們論文解決的問題是整合中央排程與路徑規劃的問題。以及多個機器人同時協力使用。目前是 A* ＋SLAM 比較多。參數問題 Q：為什麼訓練時epoch 6000後出現了明顯的效能下降？因為學習參數learning rate我們在2000,6000會各下降1/10, 所以6000之後出現over fitting的現象（調整太夠精細，反而在各種情況表現就下降了）模擬環境問題 Q：來客速率是每30T來一組客人，是否不夠真實？因為我們要做二組的類比，若以常態分布隨機來做，實驗會難以進行。所以會做這樣的設定。實驗問題 Q：為何是與A\*進行比較？為什麼不讓非RL的方法也更新地圖的全局資訊？在實際應用的時候，很難藉由感測器來獲得全局資訊，所以會發生無法使用A STAR系統的機器人。 Q：中央排程使用RL，為什麼能比FIFO還好？具體的差異是在哪？應用問題 Q：這樣的一個訓練框架如何應用到真實的餐廳場景？ * 更真實的3D模擬環境：先以訓練框架可行 * 與SLAM進行整合 * 減少reality gap的問題

Syntax	Example	Reference
# Header	Header	基本排版
- Unordered List	Unordered List
1. Ordered List	Ordered List
- [ ] Todo List	Todo List
> Blockquote	Blockquote
Bold font	Bold font
Italics font	Italics font
~~Strikethrough~~	~~Strikethrough~~
19^th^	19^th
H~2~O	H₂O
++Inserted text++	Inserted text
==Marked text==	Marked text
[link text](https:// "title")	Link
![image alt](https:// "title")	Image
`Code`	`Code`	在筆記中貼入程式碼
```javascript var i = 0; ```	`var i = 0;`
:smile:		Emoji list
{%youtube youtube_id %}	Externals
$L^aT_eX$	L^aT_eX
:::info This is a alert area. :::	This is a alert area.