Delanalty Minimization With Reinforcement Learning in UAV-Aided Mobile Network

# Delanalty Minimization With Reinforcement Learning in UAV-Aided Mobile Network 1. **研究方向：** * 本文主要關注利用無人機（UAV）輔助行動網路的研究領域。 * 著眼於優化通訊網路覆蓋範圍、提供及時資料傳輸以及提高用戶吞吐量等問題。 2. **問題：** * 行動網路中的傳統基地台部署不足以有效應對用戶需求，導致延遲和負載問題。 * 難以解決的軌跡優化問題是無人機的關鍵挑戰之一，現有方法主要集中在延遲時間優化，而未能充分考慮資料的緊急性和延遲之間的關係。 3. **解決方法：** * 本文採用強化學習（RL）方法，特別是演員-評論家（AC）方法，來優化無人機的飛行軌跡。 * 引入了新的效能度量指標－延遲懲罰（delanalty），綜合考慮了資料請求的延遲和緊急性，以更全面地評估無人機輔助網路的效能。 * 使用了ε-貪婪策略來加速訓練收斂，並採用深度強化學習（DRL）演算法來處理複雜的非凸問題。 4. **貢獻：** * 提出了一種新的效能度量指標——延遲懲罰（delanalty），用於綜合考慮資料請求的延遲和緊急性。 * 提出了ε-貪婪策略，以加速訓練收斂並防止模型陷入局部最優解。 * 提出了ACDTO演算法，透過聯合考慮資料請求的緊急程度和剩餘請求資料的數量，優化用戶的等待和延遲時間，實現最優的飛行軌跡規劃。 ## Related work 1. UAV作為解碼轉發中繼的NOMA系統： * [21] 關注了基於NOMA的無人機作為解碼轉發中繼，以提高小區邊緣用戶的服務品質和擴展覆蓋範圍。作者聯合優化了中繼部署、頻道分配和中繼分配，以實現最大化容量。此外，研究中採用了交替最佳化方法來解決問題。 2. 快取啟用的UAV NOMA網路： * [22] 研究探討了快取啟用的UAV NOMA網絡，將長期快取放置和資源分配最佳化問題形式化為馬可夫決策過程，並使用了Q-learning和基於函數逼近的演算法來解決動態最佳化問題。 3. 邊緣快取對UAV輔助無線存取網路的影響： * [23] 研究了邊緣快取對UAV輔助無線存取網路的影響，並提出了混合邊緣快取方案以提高頻譜效率。 4. UAV能源效率優化演算法： * [24] 關注了透過調整無人機的軌跡和姿勢來優化其速度、加速度、航向角和傳輸功率，以最大化系統能源效率。 5. 透過深度Q網路最大化覆蓋區域通訊容量： * [25] 提出了一種深度Q網路（DQN）演算法，透過聯合優化空氣動力能量、通訊能量和太陽能收集來最大化覆蓋區域的通訊容量。 6. 多智能體DRL演算法用於UAV軌跡控制： * [26] 提出了一種基於多智能體DRL的軌跡控制演算法，旨在最大化所有用戶設備（UE）之間的公平性以及每個無人機的UE負載的公平性。 7. 多UAV啟用無線快取網路的聯合軌跡和通訊調度方案： * [27] 提出了一種新穎的聯合軌跡和通訊調度方案，將問題形式化為無限時間埃爾高迪隨機微分博弈，以優化用戶的體驗品質。 8. 無人機輔助背散射通訊網路的能源效率問題： * [28] 考慮了無人機輔助背散射通訊網絡，並利用切割平面法、Dinkelbach法和逐次凸逼近技術來解決能源效率問題。 9. 資訊年齡（AoI）測量： * [29][30] 引入了資訊年齡（AoI）度量來捕捉收集數據的新鮮程度，並進一步研究了加權和AoI最小化問題。 10. 透過近似方法解決非凸問題： * [32] 提出了連續凸逼近方案來解決UAV服務的邊緣用戶的最大總速率問題，並實現最大能量效率。同時，[33] 利用半定鬆弛法來解非凸QoS約束。 11. DRL技能在UAV網路中的應用： * 此部分總結了DRL技能在幾種UAV輔助網路場景中的應用，包括學習物聯網設備的流量模式、自適應覆蓋路徑規劃策略、最佳化UAV部署和資源分配、以及共同運算卸載和資源分配方案等。 ## PROBLEM DEFINITION ### System Description **本文旨在解決用戶的延遲時間和請求資料的緊急性問題** ![image](https://hackmd.io/_uploads/HkC67ajb0.png) 考慮三種類型的小區站點, macrocell, microcell, and picocell. 無人機主要用於輔助小區, 為 n 個用戶進行數據傳輸, 例如讓用戶獲得更高的傳輸速率和更低的延遲. 用戶根據請求數據的緊急性分成高中低緊急用戶. 三種不同緊急性的delanalty曲線如下圖 ![image](https://hackmd.io/_uploads/SkiCETi-A.png) 作者說, 如果一個未完成的請求文件具有較低的緊急性，並且等待了很長時間，那麼該文件也會累積一定程度的 delanalty 並吸引無人機。換句話說，度量 delanalty 能夠避免飢餓現象，並保持使用者之間服務的公平性。 *但我並沒有感覺到這個特點* ### Delanalty Minimization Problem 另 N ={1, 2, ..., N} 為 n 個用戶的集合, 用戶在 cell 裡面是隨機分布, T = {1, 2, ..., τ } 為 τ 个相等時間槽的集合, F = { f_1, f_2, ..., f_f } 為用户請求的 f 个内容文件的集合, h 為無人機的固定飛行高度我們的目標是找到讓 D 最小化的飛行軌跡： ![image](https://hackmd.io/_uploads/SytL8asZC.png) Traj 代表無人機的 trajectory, 公式(2)代表無人機的起點和終點位置相同, 這是約束. 變量 mhd 表示無人機在單位時間的單個時間槽內的最大水平位移 delanalty D 被定義成： ![image](https://hackmd.io/_uploads/r1apPpjb0.png) D_{t, n}是第 n 個用戶在時間曹 t 請求文件 f 的延遲懲罰總和, 定義為： ![image](https://hackmd.io/_uploads/BkkBdpobC.png) D_BS 是用戶請求文件的延遲總和 ![image](https://hackmd.io/_uploads/HydBopoWA.png) ![image](https://hackmd.io/_uploads/B1G8sTj-R.png) BS 是基站的集合, BS = {macrocell, microcell, picocell, UAV}. t − reqT_{n,f} 代表數據延遲, dist_{n,BS} 是用戶和基站間的距離（m）, C_BS 是基站的覆蓋範圍, remP_{t,n,f} 是用戶在時間槽 t 請求文件 f 時的剩餘數據部分, reqT_{n,f} 是用户 n 請求文件 f 的时间槽索引假設 macrocell 服務所有文件, 且所有用戶都在其範圍內, 因此公式(5)中的 D_{t, n}至少有一個 D_BS 不是無窮大, *但如果所有用戶都在範圍內理應不會有無窮大* α 是一个常數，表示優先級，而 p 是一个變量，表示請求文件的緊急性. 如果 𝛼 = 3, 則 p 將在{0, 1, 2}中取值 remP_{t,n,f}的表達式為, ***這是一個比例值***： ![image](https://hackmd.io/_uploads/BJMU0poWA.png) filesize_f 是請求文件的數據大小，用於歸一化；remD_{t-1,n,f} 是剩餘數據量，以megabytes 為單位；serveD 是基站數據傳輸的大小，其表達式為 ![image](https://hackmd.io/_uploads/SyXlJCjZC.png) Trans_BS 是基站每個時間槽的傳輸容量（MB/t），在 dist_{n,BS} = 1m 處，W 是 bandwidth（Hz） SNR(聲噪比)與用戶到基站的距離平方成正比, 表達式為： ![image](https://hackmd.io/_uploads/BkoKyAj-A.png) p_0 是 dist_{n,BS} = 1m 的参考 channel power, 根據 Shannon’s theorem, Trans_BS 這樣得到： ![image](https://hackmd.io/_uploads/BkkSxAoWA.png) 傳輸率在 distn,BS = 2^k 時有 ![image](https://hackmd.io/_uploads/r1nYeCoWR.png)