# Delanalty Minimization With Reinforcement Learning in UAV-Aided Mobile Network
1. **研究方向:**
* 本文主要關注利用無人機(UAV)輔助行動網路的研究領域。
* 著眼於優化通訊網路覆蓋範圍、提供及時資料傳輸以及提高用戶吞吐量等問題。
2. **問題:**
* 行動網路中的傳統基地台部署不足以有效應對用戶需求,導致延遲和負載問題。
* 難以解決的軌跡優化問題是無人機的關鍵挑戰之一,現有方法主要集中在延遲時間優化,而未能充分考慮資料的緊急性和延遲之間的關係。
3. **解決方法:**
* 本文採用強化學習(RL)方法,特別是演員-評論家(AC)方法,來優化無人機的飛行軌跡。
* 引入了新的效能度量指標-延遲懲罰(delanalty),綜合考慮了資料請求的延遲和緊急性,以更全面地評估無人機輔助網路的效能。
* 使用了ε-貪婪策略來加速訓練收斂,並採用深度強化學習(DRL)演算法來處理複雜的非凸問題。
4. **貢獻:**
* 提出了一種新的效能度量指標——延遲懲罰(delanalty),用於綜合考慮資料請求的延遲和緊急性。
* 提出了ε-貪婪策略,以加速訓練收斂並防止模型陷入局部最優解。
* 提出了ACDTO演算法,透過聯合考慮資料請求的緊急程度和剩餘請求資料的數量,優化用戶的等待和延遲時間,實現最優的飛行軌跡規劃。
## Related work
1. UAV作為解碼轉發中繼的NOMA系統:
* [21] 關注了基於NOMA的無人機作為解碼轉發中繼,以提高小區邊緣用戶的服務品質和擴展覆蓋範圍。 作者聯合優化了中繼部署、頻道分配和中繼分配,以實現最大化容量。 此外,研究中採用了交替最佳化方法來解決問題。
2. 快取啟用的UAV NOMA網路:
* [22] 研究探討了快取啟用的UAV NOMA網絡,將長期快取放置和資源分配最佳化問題形式化為馬可夫決策過程,並使用了Q-learning和基於函數逼近的演算法來解決動態最佳化問題。
3. 邊緣快取對UAV輔助無線存取網路的影響:
* [23] 研究了邊緣快取對UAV輔助無線存取網路的影響,並提出了混合邊緣快取方案以提高頻譜效率。
4. UAV能源效率優化演算法:
* [24] 關注了透過調整無人機的軌跡和姿勢來優化其速度、加速度、航向角和傳輸功率,以最大化系統能源效率。
5. 透過深度Q網路最大化覆蓋區域通訊容量:
* [25] 提出了一種深度Q網路(DQN)演算法,透過聯合優化空氣動力能量、通訊能量和太陽能收集來最大化覆蓋區域的通訊容量。
6. 多智能體DRL演算法用於UAV軌跡控制:
* [26] 提出了一種基於多智能體DRL的軌跡控制演算法,旨在最大化所有用戶設備(UE)之間的公平性以及每個無人機的UE負載的公平性。
7. 多UAV啟用無線快取網路的聯合軌跡和通訊調度方案:
* [27] 提出了一種新穎的聯合軌跡和通訊調度方案,將問題形式化為無限時間埃爾高迪隨機微分博弈,以優化用戶的體驗品質。
8. 無人機輔助背散射通訊網路的能源效率問題:
* [28] 考慮了無人機輔助背散射通訊網絡,並利用切割平面法、Dinkelbach法和逐次凸逼近技術來解決能源效率問題。
9. 資訊年齡(AoI)測量:
* [29][30] 引入了資訊年齡(AoI)度量來捕捉收集數據的新鮮程度,並進一步研究了加權和AoI最小化問題。
10. 透過近似方法解決非凸問題:
* [32] 提出了連續凸逼近方案來解決UAV服務的邊緣用戶的最大總速率問題,並實現最大能量效率。同時,[33] 利用半定鬆弛法來解非凸QoS約束。
11. DRL技能在UAV網路中的應用:
* 此部分總結了DRL技能在幾種UAV輔助網路場景中的應用,包括學習物聯網設備的流量模式、自適應覆蓋路徑規劃策略、最佳化UAV部署和資源分配、以及共同運算卸載和資源分配方案等。
## PROBLEM DEFINITION
### System Description
**本文旨在解決用戶的延遲時間和請求資料的緊急性問題**

考慮三種類型的小區站點, macrocell, microcell, and picocell. 無人機主要用於輔助小區, 為 n 個用戶進行數據傳輸, 例如讓用戶獲得更高的傳輸速率和更低的延遲.
用戶根據請求數據的緊急性分成高中低緊急用戶. 三種不同緊急性的delanalty曲線如下圖

作者說, 如果一個未完成的請求文件具有較低的緊急性,並且等待了很長時間,那麼該文件也會累積一定程度的 delanalty 並吸引無人機。換句話說,度量 delanalty 能夠避免飢餓現象,並保持使用者之間服務的公平性。
*但我並沒有感覺到這個特點*
### Delanalty Minimization Problem
另 N ={1, 2, ..., N} 為 n 個用戶的集合, 用戶在 cell 裡面是隨機分布, T = {1, 2, ..., τ } 為 τ 个相等時間槽的集合, F = { f_1, f_2, ..., f_f } 為用户請求的 f 个内容文件的集合, h 為無人機的固定飛行高度
我們的目標是找到讓 D 最小化的飛行軌跡:

Traj 代表無人機的 trajectory, 公式(2)代表無人機的起點和終點位置相同, 這是約束. 變量 mhd 表示無人機在單位時間的單個時間槽內的最大水平位移
delanalty D 被定義成:

D_{t, n}是第 n 個用戶在時間曹 t 請求文件 f 的延遲懲罰總和, 定義為:

D_BS 是用戶請求文件的延遲總和


BS 是基站的集合, BS = {macrocell, microcell, picocell, UAV}.
t − reqT_{n,f} 代表數據延遲,
dist_{n,BS} 是用戶和基站間的距離(m), C_BS 是基站的覆蓋範圍,
remP_{t,n,f} 是用戶在時間槽 t 請求文件 f 時的剩餘數據部分,
reqT_{n,f} 是用户 n 請求文件 f 的时间槽索引
假設 macrocell 服務所有文件, 且所有用戶都在其範圍內, 因此公式(5)中的 D_{t, n}至少有一個 D_BS 不是無窮大, *但如果所有用戶都在範圍內理應不會有無窮大*
α 是一个常數,表示優先級,而 p 是一个變量,表示請求文件的緊急性. 如果 𝛼 = 3, 則 p 將在{0, 1, 2}中取值
remP_{t,n,f}的表達式為, ***這是一個比例值***:

filesize_f 是請求文件的數據大小,用於歸一化;remD_{t-1,n,f} 是剩餘數據量,以megabytes 為單位;serveD 是基站數據傳輸的大小,其表達式為

Trans_BS 是基站每個時間槽的傳輸容量(MB/t),在 dist_{n,BS} = 1m 處,W 是 bandwidth(Hz)
SNR(聲噪比)與用戶到基站的距離平方成正比, 表達式為:

p_0 是 dist_{n,BS} = 1m 的参考 channel power, 根據 Shannon’s theorem, Trans_BS 這樣得到:

傳輸率在 distn,BS = 2^k 時有
