# Delanalty Minimization With Reinforcement Learning in UAV-Aided Mobile Network 1. **研究方向:** * 本文主要關注利用無人機(UAV)輔助行動網路的研究領域。 * 著眼於優化通訊網路覆蓋範圍、提供及時資料傳輸以及提高用戶吞吐量等問題。 2. **問題:** * 行動網路中的傳統基地台部署不足以有效應對用戶需求,導致延遲和負載問題。 * 難以解決的軌跡優化問題是無人機的關鍵挑戰之一,現有方法主要集中在延遲時間優化,而未能充分考慮資料的緊急性和延遲之間的關係。 3. **解決方法:** * 本文採用強化學習(RL)方法,特別是演員-評論家(AC)方法,來優化無人機的飛行軌跡。 * 引入了新的效能度量指標-延遲懲罰(delanalty),綜合考慮了資料請求的延遲和緊急性,以更全面地評估無人機輔助網路的效能。 * 使用了ε-貪婪策略來加速訓練收斂,並採用深度強化學習(DRL)演算法來處理複雜的非凸問題。 4. **貢獻:** * 提出了一種新的效能度量指標——延遲懲罰(delanalty),用於綜合考慮資料請求的延遲和緊急性。 * 提出了ε-貪婪策略,以加速訓練收斂並防止模型陷入局部最優解。 * 提出了ACDTO演算法,透過聯合考慮資料請求的緊急程度和剩餘請求資料的數量,優化用戶的等待和延遲時間,實現最優的飛行軌跡規劃。 ## Related work 1. UAV作為解碼轉發中繼的NOMA系統: * [21] 關注了基於NOMA的無人機作為解碼轉發中繼,以提高小區邊緣用戶的服務品質和擴展覆蓋範圍。 作者聯合優化了中繼部署、頻道分配和中繼分配,以實現最大化容量。 此外,研究中採用了交替最佳化方法來解決問題。 2. 快取啟用的UAV NOMA網路: * [22] 研究探討了快取啟用的UAV NOMA網絡,將長期快取放置和資源分配最佳化問題形式化為馬可夫決策過程,並使用了Q-learning和基於函數逼近的演算法來解決動態最佳化問題。 3. 邊緣快取對UAV輔助無線存取網路的影響: * [23] 研究了邊緣快取對UAV輔助無線存取網路的影響,並提出了混合邊緣快取方案以提高頻譜效率。 4. UAV能源效率優化演算法: * [24] 關注了透過調整無人機的軌跡和姿勢來優化其速度、加速度、航向角和傳輸功率,以最大化系統能源效率。 5. 透過深度Q網路最大化覆蓋區域通訊容量: * [25] 提出了一種深度Q網路(DQN)演算法,透過聯合優化空氣動力能量、通訊能量和太陽能收集來最大化覆蓋區域的通訊容量。 6. 多智能體DRL演算法用於UAV軌跡控制: * [26] 提出了一種基於多智能體DRL的軌跡控制演算法,旨在最大化所有用戶設備(UE)之間的公平性以及每個無人機的UE負載的公平性。 7. 多UAV啟用無線快取網路的聯合軌跡和通訊調度方案: * [27] 提出了一種新穎的聯合軌跡和通訊調度方案,將問題形式化為無限時間埃爾高迪隨機微分博弈,以優化用戶的體驗品質。 8. 無人機輔助背散射通訊網路的能源效率問題: * [28] 考慮了無人機輔助背散射通訊網絡,並利用切割平面法、Dinkelbach法和逐次凸逼近技術來解決能源效率問題。 9. 資訊年齡(AoI)測量: * [29][30] 引入了資訊年齡(AoI)度量來捕捉收集數據的新鮮程度,並進一步研究了加權和AoI最小化問題。 10. 透過近似方法解決非凸問題: * [32] 提出了連續凸逼近方案來解決UAV服務的邊緣用戶的最大總速率問題,並實現最大能量效率。同時,[33] 利用半定鬆弛法來解非凸QoS約束。 11. DRL技能在UAV網路中的應用: * 此部分總結了DRL技能在幾種UAV輔助網路場景中的應用,包括學習物聯網設備的流量模式、自適應覆蓋路徑規劃策略、最佳化UAV部署和資源分配、以及共同運算卸載和資源分配方案等。 ## PROBLEM DEFINITION ### System Description **本文旨在解決用戶的延遲時間和請求資料的緊急性問題** ![image](https://hackmd.io/_uploads/HkC67ajb0.png) 考慮三種類型的小區站點, macrocell, microcell, and picocell. 無人機主要用於輔助小區, 為 n 個用戶進行數據傳輸, 例如讓用戶獲得更高的傳輸速率和更低的延遲. 用戶根據請求數據的緊急性分成高中低緊急用戶. 三種不同緊急性的delanalty曲線如下圖 ![image](https://hackmd.io/_uploads/SkiCETi-A.png) 作者說, 如果一個未完成的請求文件具有較低的緊急性,並且等待了很長時間,那麼該文件也會累積一定程度的 delanalty 並吸引無人機。換句話說,度量 delanalty 能夠避免飢餓現象,並保持使用者之間服務的公平性。 *但我並沒有感覺到這個特點* ### Delanalty Minimization Problem 另 N ={1, 2, ..., N} 為 n 個用戶的集合, 用戶在 cell 裡面是隨機分布, T = {1, 2, ..., τ } 為 τ 个相等時間槽的集合, F = { f_1, f_2, ..., f_f } 為用户請求的 f 个内容文件的集合, h 為無人機的固定飛行高度 我們的目標是找到讓 D 最小化的飛行軌跡: ![image](https://hackmd.io/_uploads/SytL8asZC.png) Traj 代表無人機的 trajectory, 公式(2)代表無人機的起點和終點位置相同, 這是約束. 變量 mhd 表示無人機在單位時間的單個時間槽內的最大水平位移 delanalty D 被定義成: ![image](https://hackmd.io/_uploads/r1apPpjb0.png) D_{t, n}是第 n 個用戶在時間曹 t 請求文件 f 的延遲懲罰總和, 定義為: ![image](https://hackmd.io/_uploads/BkkBdpobC.png) D_BS 是用戶請求文件的延遲總和 ![image](https://hackmd.io/_uploads/HydBopoWA.png) ![image](https://hackmd.io/_uploads/B1G8sTj-R.png) BS 是基站的集合, BS = {macrocell, microcell, picocell, UAV}. t − reqT_{n,f} 代表數據延遲, dist_{n,BS} 是用戶和基站間的距離(m), C_BS 是基站的覆蓋範圍, remP_{t,n,f} 是用戶在時間槽 t 請求文件 f 時的剩餘數據部分, reqT_{n,f} 是用户 n 請求文件 f 的时间槽索引 假設 macrocell 服務所有文件, 且所有用戶都在其範圍內, 因此公式(5)中的 D_{t, n}至少有一個 D_BS 不是無窮大, *但如果所有用戶都在範圍內理應不會有無窮大* α 是一个常數,表示優先級,而 p 是一个變量,表示請求文件的緊急性. 如果 𝛼 = 3, 則 p 將在{0, 1, 2}中取值 remP_{t,n,f}的表達式為, ***這是一個比例值***: ![image](https://hackmd.io/_uploads/BJMU0poWA.png) filesize_f 是請求文件的數據大小,用於歸一化;remD_{t-1,n,f} 是剩餘數據量,以megabytes 為單位;serveD 是基站數據傳輸的大小,其表達式為 ![image](https://hackmd.io/_uploads/SyXlJCjZC.png) Trans_BS 是基站每個時間槽的傳輸容量(MB/t),在 dist_{n,BS} = 1m 處,W 是 bandwidth(Hz) SNR(聲噪比)與用戶到基站的距離平方成正比, 表達式為: ![image](https://hackmd.io/_uploads/BkoKyAj-A.png) p_0 是 dist_{n,BS} = 1m 的参考 channel power, 根據 Shannon’s theorem, Trans_BS 這樣得到: ![image](https://hackmd.io/_uploads/BkkSxAoWA.png) 傳輸率在 distn,BS = 2^k 時有 ![image](https://hackmd.io/_uploads/r1nYeCoWR.png)