TEAMZ
開発実績一覧へ戻る
フィジカルAI

ヒューマノイドロボット 不整地歩行ポリシー開発

Isaac SimIsaac LabFastSAC29DOFUnitree G1Holosoma
ヒューマノイドロボット 不整地歩行ポリシー開発

Unitree G1(29自由度ヒューマノイドロボット)の不整地歩行ポリシーをNVIDIA Isaac Sim上で強化学習。従来のPPOでは10時間以上かかっていた学習を、FastSAC(オフポリシー強化学習)により約15分で達成。高低差10〜25cmの凹凸地形・坂道・低障害物を含むランダム不整地上で、4,096体並列学習により転倒率ほぼ0%の歩行ポリシーを獲得。さらに150〜400Nの外力にも耐えるPush Recovery能力を実証しました。

メーカーポリシーでは不整地を歩けない


Unitree G1は29自由度のヒューマノイドロボットです。メーカーからは平地向けの歩行コントローラーが提供されていますが、**不整地(凹凸地形・障害物)に対応した歩行ポリシーは提供されていません。** 二足歩行は四脚歩行に比べて本質的に不安定であり、不整地での自律歩行は極めて難しい問題です。


本プロジェクトでは、NVIDIA Isaac Sim上で最新の強化学習手法(FastSAC)を用いて不整地歩行ポリシーを学習。**約15分**という短時間で、凹凸地形・低障害物を含むランダム不整地上で転倒せず歩行し続けるポリシーを獲得しました。


学習済みポリシーによる不整地歩行デモ — 高低差10〜25cmの凹凸地形・坂道をカメラ追従で撮影


対象ロボット


  • Unitree G1 二足歩行ヒューマノイドロボット
  • 29自由度 全身の関節を協調制御
  • 想定用途 建設現場、災害対応、屋内点検、研究開発

  • なぜ二足歩行の不整地対応は難しいのか


    四脚ロボットは常に3点以上で接地できるため本質的に安定です。一方、二足歩行は片足支持の瞬間が必ず存在し、**常に転倒のリスク**を伴います。不整地ではさらに接地面が不規則になるため、リアルタイムに全身のバランスを取り続ける制御が必要です。


    この制御をルールベースでプログラムするのは現実的ではありません。強化学習なら、シミュレーション上で数千体のロボットに多様な地形を同時に体験させ、最適なバランス制御を自動で獲得できます。


    PPOの壁 — 10時間回しても歩けなかった


    当初はB2-W(四脚ロボット)で成功したPPO(Proximal Policy Optimization)をG1にも適用しました。しかし、**30,000イテレーション(10時間以上)回しても地形カリキュラムがレベル0.0から進まず**、不整地歩行に到達できませんでした。GPU回収も2回経験し、コスト$32以上を消費。


    PPOはオンポリシー手法のため、経験データの再利用ができず、二足歩行のような高次元問題ではサンプル効率が極めて低いことが根本原因でした。


    FastSACへの転換 — 15分で不整地歩行を達成


    論文 *"Learning Sim-to-Real Humanoid Locomotion in 15 Minutes"* で提案されたFastSAC(オフポリシー強化学習)に切り替えました。FastSACはリプレイバッファにより過去の経験を効率的に再利用でき、PPOと比較してサンプル効率が桁違いに高いのが特徴です。


    オープンソース実装 **Holosoma**(Amazon Far)を使用し、**約15分**でPPO 10時間超を大幅に上回る結果を達成しました。


    学習の進行 — 転倒から自律歩行へ


    学習初期 — ロボットが転倒し歩行できない

    学習完了 — 不整地を安定して歩行


    Push Recovery — 押されても倒れない


    学習済みポリシーの頑健性テストとして、歩行中のロボットに150〜400Nのランダムな外力(プッシュ)を2〜5秒間隔で胴体・骨盤に印加しました。ポリシーは追加学習なしで外乱に対応し、姿勢を立て直して歩行を継続します。


    Push Recovery テスト — 150〜400Nの外力を受けても姿勢を回復


    成果(数値)


  • 転倒率 ほぼ0%(全エピソードでタイムアウトまで生存)
  • 平均報酬 +181(安定した高スコア)
  • 平均エピソード長 1,001ステップ(上限値 = 一度も転倒しない)
  • 学習時間 約15分(FastSAC) vs PPO 10時間超(不整地未到達)
  • 並列環境数 4,096体を1GPUで同時実行
  • テレイン構成 凹凸地形40%、坂道(滑らか+凹凸)30%、低障害物20%、平地10%(200タイルをランダム生成、高低差10〜25cm)
  • Push Recovery 150〜400Nの外乱に対して追加学習なしで姿勢回復

  • 技術スタック


  • シミュレータ NVIDIA Isaac Sim 5.1(GPU物理演算)
  • 学習基盤 Isaac Lab v2.3.0 + Holosoma(FastSAC)
  • GPU NVIDIA RTX PRO 6000 Blackwell Server Edition(96GB VRAM)
  • クラウド環境 RunPod
  • 並列環境 4,096環境を1GPUで同時実行
  • 制御周波数 50Hz(実機と同等)
  • 学習時間 約15分(FastSAC)

  • B2-Wでの知見をG1に展開


    本プロジェクトは、[B2-W(四脚ロボット)での不整地歩行ポリシー開発](/works/b2w-walking-policy)で得た知見を二足歩行ヒューマノイドに展開したものです。B2-Wでの報酬設計7回のイテレーション(v2〜v7)を通じて、以下の設計原則を確立しました。


  • 転倒許容設計 エピソード即終了を廃止し、転んでも学習を継続
  • Blind Policy 実機センサ誤差に頑健なポリシー設計(Sim-to-Real対策)
  • カリキュラム学習 ペナルティを段階的に引き上げ、安定した動作を促進

  • 四脚→二足というステップアップにより、本質的に難しいヒューマノイドの歩行制御に対しても体系的にアプローチできました。


    Sim-to-Real — シミュレーションから実機への展望


    本プロジェクトは**シミュレーション段階**の成果です。学習済みポリシーはONNX形式で出力可能なため、実機のエッジコンピュータへのデプロイを見据えた設計になっています。


    Blind Policy設計により、シミュレーションと実機のセンサ差(Sim-to-Realギャップ)の最小化を目指していますが、**実機での検証は今後の課題**です。Domain Randomization(物理パラメータの摂動)やノイズ注入など、Sim-to-Realギャップを縮小するための手法を引き続き検討しています。


    こんな課題をお持ちの方へ


  • ヒューマノイドロボットの歩行制御を開発したい
  • 強化学習をロボット制御に適用したいが、ノウハウがない
  • PPOで学習しているが、成果が出ない(学習が収束しない)
  • シミュレーション環境の構築からSim-to-Realまで一貫して任せたい
  • 同様のプロジェクトをご検討ですか?

    お気軽にご相談ください。

    お問い合わせ

    AI Concierge

    Online
    Team-Z AIコンシェルジュです。ROS2を用いたロボティクス開発、AIを活用したシステム構築、エンジニアの技術支援(SES)についてご案内します。どのような課題をお持ちですか?

    Powered by TEAM Z AI