### Parameter table ![](https://hackmd.io/_uploads/H1uwec1hh.png) ### Decision time 在衛星網絡中的手動切換(Handover)過程中,做出切換決策的時間是非常關鍵的一個參數。 一般來說,衛星手動切換的決策時間需要控制在以下範圍內: GEO衛星網: 50-100毫秒 MEO衛星網: 20-50毫秒 LEO衛星網: 10-20毫秒 這主要基於以下幾個因素: 衛星移動速度:LEO衛星移動最快,需要更快的決策 距離地球通信距離:LEO衛星距離地球更近,傳播延遲更小 業務敏感程度:通常要求的數據業務對時延更敏感 另外,衛星切換過程中も會產生短暫的通信中斷,決策時間需要控制在業務可以容忍的範圍內。 所以對於LEO衛星,手動切換的決策時間需要控制在10-20毫秒以內,才可以保證切換平穩,不會對業務產生太大影響。決策時間過長會導致通信中斷、丟包等問題。 ### RL vs heuristic 1. 啟發式算法需要人工手動設計規則,需要大量域知識並且不一定能夠設計出最優解。RL可以自主學習而無需人工設計。 2. 啟發式算法不容易適應環境變化,如果衛星組網狀態改變,需要重新設計規則。RL可以通過新的訓練快速適應環境變化。 3. RL可以學習到非預期的策略,給人工設計帶來新的思路。啟發式算法限制於設計者經驗,不太可能得到超出預期的新策略。 4. 對於大規模衛星組網,人工設計規則的複雜度會呈指數級增長。RL可以處理高維情況。 5. 啟發式算法容易受限於設計者主觀偏見,RL可以更客觀地學習到真正最優策略。 6. 即使目前啟發式算法表現良好,對比RL的長期發展潛力,RL是更具前瞻性的技術路線選擇。 RL的自主學習能力以及面對未知環境的適應能力,这比依賴人工經驗的啟發式算法更具優勢。