On enabling 5G Dynamic TDD by leveraging Deep Reinforcement Learning and O-RAN

# On enabling 5G Dynamic TDD by leveraging Deep Reinforcement Learning and O-RAN ## Abstract 在5G與6G的時代中，DTDD會是一種很可靠的做法，他會根據非同步性與動態性的UL\DL流量需求。DTDD是不中斷用戶連線的情況下，去改變TDD配的配置。因此他是平衡了頻寬對於DL\UL在通訊時的流量配置。比較重要的是3GPP其實對這方面的演算法都還沒有提出解答，簡單來說就是沒有人用啦！然後她把DRL這個演算法放到OAI的模擬並使用。然後他是在real-Time的RIC來開法xApp，然後裡面放的東西就是DRL的這個演算法，，然後透過E2介面去控制基站。他們開發的這個東西其實就是跟著E2標準化模型去做。然後基本上這是透過DRL的這個方法去監測DL\UL的Buffer，然後去改變TDD配置來容納當下流量。然後他會把判斷的結果推送到基站，他們在OAI 5G StandAlone平台和Flexric RIC之上實施了此解決方案。據他們所說，這是第一次在真的5G網路上展示透過ML的DTDD，透過O-RAN的架構去建造一個有自組織網路估能的動態TDD配置。 ## Intordution 這幾年SC越來越多，並且隨著工業4.0與5G專網的普及，4G網路主要是在應付以DL為主的流量，5G則是需要適應更多服務，例如無人機等工業用途的需求。所以是需要更多UL流量而不是DL，在這種情況下，使用DTDD對於5G的發展會更有前景，因為這更適合SC，DTDD可以根據流量需求逕行動態調整。DTDD允許基站再不中斷UE連線的情況下進行動態更改duplux的東西。 DTDD使用的靈活性允許基站根據當下的流量對UL\DL進行判斷是適合的配置，然而，5G的規範僅包括允許基站通知UE有關有關U\DL配置的通知，所以在沒有規範的情況下，都是可以自由修改的！於是！他通過了一個叫做深度強化學習的演算法，來強化5G RAN TDD的模式，來補足需要人工切換或判斷當下情況的缺口。這個算法是根據SC的流量(UL\DL)的佔比，來推導出適合的UL\DL模式。透過DRP這個演算法監控DL\UL的流量，並推導出適合的模式，提供最佳化的服務。這個演算法利用的O-RAN架構，在RIC中使用xApp來執行DRL的演算法推斷，同時在OAI中實現的切換DTDD的切換機制。後面的東西我等等再補，因為我有點看不懂架構。 ## SYSTEM DESIGN AND IMPLEMENTATION ![截圖 2023-11-08 上午5.08.22.png](https://hackmd.io/_uploads/B17UvXuXT.png) 上面的框框是RIC，然後這整個架構都是遵守O-RAN的架構，其實作者的作法就是把DRL放進xApp裏面，讓他可以接收到E2訊號跟可以控制基站。他是透過xApp來使用DRP，並且是透過一段時間T的流量，週期的對情境做判斷基站接收到E2只是的消息，然後這包含了DL\UL buffer的狀態，那Buffer放在哪？他是放在第二層的他是放在第二層的RLC當中，那RLC與MAC之間，傳輸的通道就叫做邏輯通道(LC)，他就是透過那個地方來計算UL\DL的量。但是論文寫說DL是取RLC層的LC的Buffer量，然後UL是取MAC layer LC buffer的量，我猜會這樣做的原因是速度的問題，因為2 layer是雙向的，然後xTDD以brffer的狀態當作歷史紀錄匯入並輸出TDD的配置，並傳送TDD pattern給E2的控制訊息。基站的xTDD SE接收到訊號之後，將會在下一個時間週期切換TDD pattern。在gNB端，使用MAI實現DTDD，步驟一，先移除TDD pattern原先週期的資訊。第二步就是改變MAC & PHY lay層的配置。第三步就是使用不同的k2參數發送多的DL control information在相同的DL slot中多安排幾個UL的配置在RIC端，其實就是在描述演算法，他說因為他沒有考慮環境的複雜度，其實就是沒考慮interference，這就有助於他DRL可以根據流量中是條配pattern。然後他分三個東西 #### status ![截圖 2023-11-08 上午5.26.24.png](https://hackmd.io/_uploads/HyJ9jQdXT.png) #### action 這是一個連續的動作，其實就是會回傳一個UL pattern佔用的百分比。 #### Reward 其實獎勵直也很直觀，他的作法就是現在buffer的容量有多少，如果一直沒有達到buffer的容量上限，那就是很棒！就會給比較多的獎勵，反之就會減少 ![截圖 2023-11-08 上午6.57.28.png](https://hackmd.io/_uploads/H1SJ-BOQa.png) 然後他們利用Flexric SDK來當作RIC，因為要放xTDD SM跟xApp。xApp會根據時間的推演學習判斷並適應沒看過的情況。然後他們把xTDD設計的很輕量，然後可以是配多種環境，我在這裡猜他要表達的東西是指換個terminal也可以用，因為畢竟是shell scrpit。然後他有考慮的個的獨立的slot配置，以及UE的數量。還有考慮到緩衝區的流量來預測接下來的配置。 ## DEMONSTRATION 規格 #### Equipment and Settings 由兩個36個CPUs的機器組成，這兩個的歸格都是Intel(R) Xeon(R) Gold 6154 CPU @ 3.00GHz。一個是用來跑gNB的OAI。功能是用來連接AW2S Radio Unit(就是外網？還是核網？)第二台是用來放Kubernetes的，這是用來館OAI跟RIC 5G核心網路。這邊比較不重要。重要的是他是用兩台筆電加上遠端模組當作是UEs。在gNB端，是使用頻寬為20MHz頻率為3.5GHz(n78)的室內環境 #### Experiment Scenario 他們連接了兩個UE在5G網路中，使用1個基站，然後TDD的週期為5ms。一個TDD週期有10個slot。 DRP利用DRL，自動週期性地將這10個slot分配給UL或DL，就有多少個slot專用於UL，其餘的slot專用於DL。然後它分成三種情境： ##### UL dominant traffic 5G最大的UL上限就是28M，所以兩個UEs分別打14Mbps。然後一開始設定的情況是5D1M4U，在這個情況下M的裡面是混合UL&DL的slot，但過了一個週期後，DPL則切換到2D,1M,7L去，因為他發現buffer對於UL的滿度比DL高他會需要3個DL的slot需要傳送DCIs給UL傳輸使用。 ##### DL dominant traffic 最高DL是40 Mdps，一開始也是5D1M4U，過了一段時間後，DRP改變了TDD的模式，改成7D1M2U。結論是因為DRP發現buffer對於DL的滿度比UL高，所以他覺得應該要把比重放多點在DL。 ##### UL/DL equilibrate traffic 差不多的情況下，我的理解是他會先判斷UL，因為UL的Buffer先滿，過段間後Dl的buffer才會滿，哪個先滿哪個就先7，但過了一段時間後，UL\DL Buffer都超過0.5時，DPL就換配置5D,1M,2U的模式達到平衡。因為這樣DRP可以保持gNB、UE的DL\UL都盡可能小，不要buffer overflow ## 結論透過這個模型，實現了DRP，以DRL演算法為基礎的解決方案，解決了動態調整TDD的配置，利用OAI和O-RAN的架構，做出一個SON，能夠動態配置TDD。DRP能夠避免buffer overflw並根據SCs的流量動態適應TDD模式。 ## keyword - OpenAirInterface(OAI):一個開源的模擬5G架構，最早是3GPP基於4G建造出來，以X86架構打造的模擬基站作業系統，現在作者拿了一個模改過的5G的介面來用。 - - Deep Reinforcement Learning(DRL)：是一種機器學習，但是他是類似於深度學習的演算法，跟機器學習差不多，但比較大的差別在於它比機器學習更具適應性，能夠在複雜且動態的環境中做出決策。至於演算法，我就不清楚了，因為他沒有附上來。我後來找到了他的演算法，他是利用計算Buffer的方式來調整TDD，他是一連串很完整的演算法，在另一篇論文就是在描述這個演算法![截圖 2023-11-08 上午12.20.14.png](https://hackmd.io/_uploads/BJT6XkuXp.png) - DRP(Deep Reinforcement Learning-based 5G RAN TDD Pattern)：以DRL判斷後做出變化的TDD配置，其實就是OP - FlexRIC ![截圖 2023-11-08 上午2.43.52.png](https://hackmd.io/_uploads/Sy4_r-OQ6.png) - Self Organized Network：自組織網路，在我看來就是自己一個small cell，然後裡面自己管理各項資源。 - Logical channel:邏輯頻道是介於MAC層和RLC層間的橋樑，主要是用來攜帶各種不同服務的資料。 ![截圖 2023-11-08 上午5.44.37.png](https://hackmd.io/_uploads/B17AyV_QT.png) - Protocol Data Unit, PDU:協定資料單元 - xTDD就我理解就是一個腳本語言，用來切換TDD pattern而已 ## 單字 - Reinforcement 加強 - promising 有希望的 - accommodate 容納 - emerging 新興的

Read more

威士忌的品飲日記

FOSDEM旅程分享心得

MUC

Solving community problems wit