HuMam: Humanoid Motion Control via End-to-End Deep Reinforcement Learning with Mamba

# HuMam: Humanoid Motion Control via End-to-End Deep Reinforcement Learning with Mamba [arXiv:2509.18046](https://arxiv.org/abs/2509.18046) HuMam 為今年九月剛發布的方法。 HuMam 以 Mamba 骨幹訓練人形具身的行走姿勢，並以End-to-End Reinforcement Learning 調整策略。人形具身依照設定好的路徑前進，本篇僅處理行走姿勢。 # Motivation #### End-to-End RL 具有兩項缺點： 1. 學習無法穩定收斂 2. 異質觀測融合困難 3. 具身的機電控制負擔重、高耗能 #### 傳統 Feedforward 骨幹的侷限： 1. 未充分利用觀測的先驗結構 2. 異質觀測融合困難 # Contributions 1. 提出首個以 Mamba 為骨幹的 End-to-End RL 人形具身步態控制器。 2. 通過結構設計，產出兼顧能耗與表現的控制策略。 3. 在虛擬平台 JVRC-1 模型上測試，全面優於傳統 feedforward baseline。 # Method ![螢幕擷取畫面 (33)](https://hackmd.io/_uploads/SkQn5zJybe.png) #### 輸入兩種模態： 1. Robot States：12 個腿部關節位置、速度、機身姿態與角速。 2. External States：下一步、下下一步的腳步目標與相位時鐘。依照設定好的路徑前進。 3. 兩種模態各自 Embedding 後，產生兩個小型 token sequence，送入 Mamba Encoder。 #### 單層 Mamba Encoder 進行特徵融合： 1. 對每個 Token 套用具選擇性閘門的狀態空間動力學。 2. 兩種模態的輸出再經 head 聚合成共享特徵($h_t$)。 3. 僅憑當前時序混合結構特徵，不需堆疊長序列。 #### RL 策略更新與機電控制： 1. PPO Actor new 輸出 12 維關節位置目標($a_t$) 。 2. 以 40 Hz 更新位置目標。經底層 PD 以 1000 Hz 轉為平滑且穩定的關節力矩。 3. 步行時，僅觀測下一步與下下一步，可無限延伸步數。 #### RL 總獎勵由六項組成： 1. 足部受力穩定（$α_{force} = 0.15$） 2. 擺動速度平滑（$α_{vel}=0.15$） 3. 落腳準確（$α_{step}=0.45$） 4. 軀幹姿態($α_{orient}=0.05$) 5. 身高（$α_{height}=0.0$) 6. 上半身穩定（$α_{upper}=0.05$） > 括號內容為權重 # Experiments #### 實驗平台：人形機器人模擬模型 JVRC-1。 #### 實驗設計：以相同的訓練流程分別在 Baseline、HuMam 架構上測試。 1. Baseline：一個強力的 feedforward baseline。未說明更多設計。 2. HuMam：單層 Mamba。為本研究提出的方法。 #### 實驗結果：單層 Mamba 全面優於傳統 feedforward baseline。 1. 任務：前進、後退、橫移、曲線、站立。 2. 數值：學習效率、訓練穩定性、最終報酬、能量消耗、扭矩平滑度。 # 我對於人形具身發展趨勢的觀察一些論文委婉的指出：單純依靠 VLA 模型 (Vision-Language-Action Model) 或 attention 作為機器人大腦的方法，不足以滿足機器人在複雜任務下的需求。(即使在簡單的任務上，表現也不盡理想) 因此近期的研究趨勢逐漸朝向加入「決策仲介層」與「Reinforcement Learning」的方法發展，嘗試在高層的語義決策與低層的機電控制之間設計中介模組，更有效的詮釋馬達動作。(決策仲介層的實作方式有很多，目前是百家爭鳴) 另外，使機器人適應複雜地形、在異質資料上進行 End-to-End 訓練，也是學界努力的方向。