# [研究日誌] Imitation Learning 模仿學習DAY2 # 前言 2025/03/12 11:01 昨日結束在IL的初步理解及範例程式後,今天來展示階段成果。分析實驗問題以及嘗試修改的方向 ---------------------- # Imitation Learning 範例程式結果 我跟著以下網址來進行模擬學習的訓練準備。 https://isaac-sim.github.io/IsaacLab/main/source/overview/teleop_imitation.html 昨天有提到我先蒐集專家數據(操控手臂來演示給機器看)and標注,接著使用Isaac mimic來讓AI擴增專家數據 目前配置 * 現有的專家數據10條 * 對軌跡進行微調(改變起點、加上隨機誤差、改變時間步長) * 生成 100 條新的示範數據 接著使用行為克隆 (Behavior Cloning, BC) 算法,它使用監督學習(Supervised Learning)直接訓練 AI,故沒有獎勵函數,讓 AI 直接模仿人類或專家的示範行為。 結果顯示訓練的並不好,展示結果有晃動及無法完成夾取的問題。 目前問題 - [ ] BC訓練結果無法成功(成功率0%) - [x] 會有梯度爆炸問題(4000-6000) ``` 第二次配置則沒有這個問題 ``` ----------- # 結果分析/可改進方向 1. 專家數據 建議增加專家數據,但會造成訓練成本上升(要操控手臂30+)次來增加多樣性,但研究目標希望以最少的展示來達成夾取。 2. Isaac mimic 增加mimic數據量加入隨機擴增、Domain Randomization等,增加到500條。 3. BC算法 改善以上兩個變因,我會再實驗一次,預期讓BC算出來的成功率先到達50%,在透過RL強化。 4. 使用其他算法(EX:RLfd(Reinforcement Learning from Demonstrations))Dagger等 ---------- # 小結 第二次配置 * 現有專家數據10條 * 生成500+mimic數據 * 使用BC算法training 1000次epoch **最終達成20-30%成功率(尚未多次驗證)** 下週工作 - [ ] 想知道多不同次數的專家數據是否影響成功率,以及領域隨機化是否能增加泛用性 - [ ] 先用程式去抓物體位置,軌跡導航抓取位置 等待spaceMouse - [ ] 想知道hdf5及內部code說明了什麼/紀錄了什麼 - [ ] PPT or Notion影片呈現 先嘗試BC無reward提昇成功率 最後再試試RL