TEAMZ
開発実績一覧へ戻る
フィジカルAI

四脚ロボット 不整地歩行ポリシー開発

Isaac SimIsaac LabPPO16DOFUnitree B2-WSim-to-Real
四脚ロボット 不整地歩行ポリシー開発

Unitree B2-W(車輪付き四脚ロボット)はメーカー提供の歩行ポリシーでは不整地に対応できません。本プロジェクトでは、NVIDIA Isaac Sim上で強化学習(PPO)を用いて不整地歩行ポリシーを新たに学習。2,048並列環境でのカリキュラム学習により、階段・坂道・凹凸地形を自律走破する16自由度の制御ポリシーを獲得しました。

「歩けないロボット」を「不整地を自律走破するロボット」に変える


学習済みポリシーによる不整地走破デモ — 凹凸地形をカメラ追従で撮影


Unitree B2-Wは車輪+脚のハイブリッド四脚ロボットです。メーカーからは平地向けの歩行ポリシーが提供されていますが、**不整地(階段・坂道・凹凸地形)に対応した歩行ポリシーは提供されていません。** ホイールだけで段差に突っ込んでも越えられない——脚と車輪の16自由度を協調させる制御が必要です。


本プロジェクトでは、NVIDIA Isaac Sim上で強化学習(PPO)を用いて不整地歩行ポリシーを新たに学習し、モデルを生成しました。転倒するだけだったロボットが、約8時間の学習で階段・坂道・凹凸地形を自律走破できるようになっています。


対象ロボット


  • Unitree B2-W 産業用車輪付き四脚ロボット
  • 16自由度 脚12関節+車輪4輪の完全協調制御
  • 想定用途 建設現場、災害対応、屋外点検、プラント巡回

  • なぜ強化学習で新たに学習する必要があるのか


    メーカー提供のポリシーは平地での移動に最適化されており、不整地には対応していません。ホイールだけでは段差を越えられず、脚だけでは平地で遅い。「いつ脚を使い、いつ車輪を使うか」を地形に応じてリアルタイムに判断する制御が求められます。


    この判断を人手でプログラムするのは現実的ではありません。地形の種類は無限にあり、ルールの組み合わせが爆発するためです。強化学習なら、シミュレーション上で2,048体のロボットに数千パターンの地形を同時に体験させ、最適な脚・車輪協調制御を自動で獲得できます。


    学習の進行 — 転倒から自律歩行へ


    2,048体のロボットを同時にシミュレーションし、不整地上で試行錯誤を繰り返すことで、ポリシーが段階的に進化します。


    学習初期 — ロボットが転倒し歩行できない

    学習完了 — 不整地を安定して走破


    技術スタック


  • シミュレータ NVIDIA Isaac Sim 5.1(GPU物理演算)
  • 学習基盤 Isaac Lab + RSL-RL(PPO)
  • GPU NVIDIA RTX PRO 6000 Blackwell Server Edition(96GB VRAM)
  • クラウド環境 RunPod
  • 並列環境 2,048環境を1GPUで同時実行
  • 制御周波数 50Hz(実機と同等)
  • 学習時間 約8時間(28,110秒)

  • 成果


  • 平均報酬 +233(学習途中、安定した右肩上がり)
  • 地形カリキュラム レベル6.0 / 10 をクリア(階段・坂道・凹凸)
  • 生存率 100%(全エピソードで転倒せず走破)
  • 出力形式 ONNX / TorchScript(エッジデバイス対応)

  • 報酬設計のブレイクスルー — 7回の失敗を経て


    報酬設計を7回イテレーション(v2〜v7)した結果、初期の設計では「立つが前進しない」局所解に陥ることが判明しました。体高ペナルティの過剰付与、脚と車輪の未分離、転倒即終了の設計が根本原因でした。


    以下の設計変更で局所解を突破し、不整地走破ポリシーの獲得に成功しています。


  • upward報酬 体高ペナルティを廃止し「上向き姿勢」を正の報酬で誘導
  • 転倒許容設計 エピソード即終了を廃止し、転んでも学習を継続させることで探索範囲を最大化
  • 脚/車輪の独立報酬 脚関節には静止ペナルティを与えてホイール駆動を促し、車輪は自由に回転させる
  • Blind Policy 直線速度を観測から除外し、実機センサ誤差に頑健なポリシーを実現(Sim-to-Real対策)
  • 対称性報酬 対角脚の動きを揃え、自然な歩行パターンを獲得

  • Sim-to-Real — 実機への展開


    学習済みポリシーはONNX形式で出力されるため、実機のエッジコンピュータに直接デプロイ可能です。Blind Policy設計により、シミュレーションと実機のセンサ差(Sim-to-Realギャップ)を最小化しています。


    こんな課題をお持ちの方へ


  • 脚ロボット・車輪ロボットの不整地対応を検討している
  • 既存のルールベース制御では対応しきれない環境がある
  • 強化学習をロボット制御に適用したいが、ノウハウがない
  • シミュレーション環境の構築からSim-to-Realまで一貫して任せたい
  • 学習の進行過程

    シミュレーション内の2,048体のロボットが、試行錯誤を通じて歩行を獲得していく様子

    学習開始直後 — ロボットが転倒し、まだ歩行できない状態
    1

    学習開始直後 — ロボットが転倒し、まだ歩行できない状態

    学習初期 — 一部のロボットが立ち上がり始める
    2

    学習初期 — 一部のロボットが立ち上がり始める

    学習中盤 — 多数のロボットが不整地上で歩行を開始
    3

    学習中盤 — 多数のロボットが不整地上で歩行を開始

    学習後半 — より難しい地形にも適応し始める
    4

    学習後半 — より難しい地形にも適応し始める

    学習完了間近 — 安定した歩行ポリシーを獲得
    5

    学習完了間近 — 安定した歩行ポリシーを獲得

    同様のプロジェクトをご検討ですか?

    お気軽にご相談ください。

    お問い合わせ

    AI Concierge

    Online
    Team-Z AIコンシェルジュです。ROS2を用いたロボティクス開発、AIを活用したシステム構築、エンジニアの技術支援(SES)についてご案内します。どのような課題をお持ちですか?

    Powered by TEAM Z AI