# HuMam: Humanoid Motion Control via End-to-End Deep Reinforcement Learning with Mamba [arXiv:2509.18046](https://arxiv.org/abs/2509.18046) HuMam 為今年九月剛發布的方法。 HuMam 以 Mamba 骨幹訓練人形具身的行走姿勢,並以End-to-End Reinforcement Learning 調整策略。人形具身依照設定好的路徑前進,本篇僅處理行走姿勢。 # Motivation #### End-to-End RL 具有兩項缺點: 1. 學習無法穩定收斂 2. 異質觀測融合困難 3. 具身的機電控制負擔重、高耗能 #### 傳統 Feedforward 骨幹的侷限: 1. 未充分利用觀測的先驗結構 2. 異質觀測融合困難 # Contributions 1. 提出首個以 Mamba 為骨幹的 End-to-End RL 人形具身步態控制器。 2. 通過結構設計,產出兼顧能耗與表現的控制策略。 3. 在虛擬平台 JVRC-1 模型上測試,全面優於傳統 feedforward baseline。 # Method  #### 輸入兩種模態: 1. Robot States:12 個腿部關節位置、速度、機身姿態與角速。 2. External States:下一步、下下一步的腳步目標與相位時鐘。 依照設定好的路徑前進。 3. 兩種模態各自 Embedding 後,產生兩個小型 token sequence,送入 Mamba Encoder。 #### 單層 Mamba Encoder 進行特徵融合: 1. 對每個 Token 套用具選擇性閘門的狀態空間動力學。 2. 兩種模態的輸出再經 head 聚合成共享特徵($h_t$)。 3. 僅憑當前時序混合結構特徵,不需堆疊長序列。 #### RL 策略更新與機電控制: 1. PPO Actor new 輸出 12 維關節位置目標($a_t$) 。 2. 以 40 Hz 更新位置目標。 經底層 PD 以 1000 Hz 轉為平滑且穩定的關節力矩。 3. 步行時,僅觀測下一步與下下一步,可無限延伸步數。 #### RL 總獎勵由六項組成: 1. 足部受力穩定($α_{force} = 0.15$) 2. 擺動速度平滑($α_{vel}=0.15$) 3. 落腳準確($α_{step}=0.45$) 4. 軀幹姿態($α_{orient}=0.05$) 5. 身高($α_{height}=0.0$) 6. 上半身穩定($α_{upper}=0.05$) > 括號內容為權重 # Experiments #### 實驗平台: 人形機器人模擬模型 JVRC-1。 #### 實驗設計: 以相同的訓練流程分別在 Baseline、HuMam 架構上測試。 1. Baseline:一個強力的 feedforward baseline。未說明更多設計。 2. HuMam:單層 Mamba。為本研究提出的方法。 #### 實驗結果: 單層 Mamba 全面優於傳統 feedforward baseline。 1. 任務:前進、後退、橫移、曲線、站立。 2. 數值:學習效率、訓練穩定性、最終報酬、能量消耗、扭矩平滑度。 # 我對於人形具身發展趨勢的觀察 一些論文委婉的指出:單純依靠 VLA 模型 (Vision-Language-Action Model) 或 attention 作為機器人大腦的方法,不足以滿足機器人在複雜任務下的需求。(即使在簡單的任務上,表現也不盡理想) 因此近期的研究趨勢逐漸朝向加入「決策仲介層」與「Reinforcement Learning」的方法發展,嘗試在高層的語義決策與低層的機電控制之間設計中介模組,更有效的詮釋馬達動作。(決策仲介層的實作方式有很多,目前是百家爭鳴) 另外,使機器人適應複雜地形、在異質資料上進行 End-to-End 訓練,也是學界努力的方向。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up