TEAMZ
開発実績一覧へ戻る
フィジカルAI

四脚ロボット 不整地歩行ポリシー開発

Isaac SimIsaac LabPPO16DOFUnitree B2-WSim-to-Real
四脚ロボット 不整地歩行ポリシー開発

車輪+脚のハイブリッド四脚ロボット Unitree B2-W を対象に、NVIDIA Isaac Sim 上で強化学習(PPO)を用いた歩行ポリシーを開発。2,048 並列環境でのカリキュラム学習により、階段・坂道・凹凸地形を自律移動する16自由度の制御ポリシーを獲得しました。

「歩けないロボット」を「不整地を自律走破するロボット」に変える


車輪付き四脚ロボットは、平地では高速移動できますが、階段・坂道・凹凸のある現場では途端に動けなくなります。脚と車輪の16自由度をどう協調させるか——これは従来のルールベース制御では解決困難な課題でした。


本プロジェクトでは、強化学習(PPO)により、転倒していたロボットを数時間の学習で不整地を自律走破できるレベルまで到達させることに成功しました。


対象ロボット


  • Unitree B2-W 産業用車輪付き四脚ロボット
  • 16自由度 脚12関節+車輪4輪の完全協調制御
  • 想定用途 建設現場、災害対応、屋外点検、プラント巡回

  • なぜ強化学習が必要なのか


    車輪ロボットは段差で止まり、脚ロボットは平地で遅い。両方を持つハイブリッド機は、「いつ脚を使い、いつ車輪を使うか」を状況に応じて判断する必要があります。


    この判断を人手でプログラムするのは現実的ではありません。地形の種類は無限にあり、ルールの組み合わせが爆発するためです。強化学習なら、シミュレーション上で数千パターンの地形を同時に体験させ、最適な協調制御を自動で獲得できます。


    学習の進行 — 転倒から自律歩行へ


    2,048体のロボットを同時にシミュレーションし、不整地上で試行錯誤を繰り返すことで、ポリシーが段階的に進化します。


    技術スタック


  • シミュレータ NVIDIA Isaac Sim 5.1(GPU物理演算)
  • 学習基盤 Isaac Lab + RSL-RL(PPO)
  • GPU NVIDIA RTX PRO 6000(96GB VRAM)
  • 並列環境 2,048環境を1GPUで同時実行
  • 制御周波数 50Hz(実機と同等)
  • 学習時間 約8〜12時間で収束

  • 成果


  • 平均報酬 +233(学習途中、安定した右肩上がり)
  • 地形カリキュラム レベル6.0 / 10 をクリア(階段・坂道・凹凸)
  • 生存率 100%(全エピソードで転倒せず走破)
  • 出力形式 ONNX / TorchScript(エッジデバイス対応)

  • 報酬設計のブレイクスルー


    初期の報酬設計では「立つが前進しない」局所解に陥りました。以下の設計変更で突破しています。


  • upward報酬 体高ペナルティを廃止し「上向き姿勢」を正の報酬で誘導
  • 転倒許容設計 エピソード即終了を廃止し探索範囲を最大化
  • 脚/車輪の独立報酬 脚を動かすほどペナルティ、車輪は自由に回転
  • Blind Policy 直線速度を観測から除外し、実機センサ誤差に頑健なポリシーを実現
  • 対称性報酬 対角脚の動きを揃え、自然な歩行パターンを獲得

  • Sim-to-Real — 実機への展開


    学習済みポリシーはONNX形式で出力されるため、実機のエッジコンピュータに直接デプロイ可能です。Blind Policy設計により、シミュレーションと実機のセンサ差(Sim-to-Realギャップ)を最小化しています。


    こんな課題をお持ちの方へ


  • 脚ロボット・車輪ロボットの不整地対応を検討している
  • 既存のルールベース制御では対応しきれない環境がある
  • 強化学習をロボット制御に適用したいが、ノウハウがない
  • シミュレーション環境の構築からSim-to-Realまで一貫して任せたい
  • 学習の進行過程

    シミュレーション内の2,048体のロボットが、試行錯誤を通じて歩行を獲得していく様子

    学習開始直後 — ロボットが転倒し、まだ歩行できない状態
    1

    学習開始直後 — ロボットが転倒し、まだ歩行できない状態

    学習初期 — 一部のロボットが立ち上がり始める
    2

    学習初期 — 一部のロボットが立ち上がり始める

    学習中盤 — 多数のロボットが不整地上で歩行を開始
    3

    学習中盤 — 多数のロボットが不整地上で歩行を開始

    学習後半 — より難しい地形にも適応し始める
    4

    学習後半 — より難しい地形にも適応し始める

    学習完了間近 — 安定した歩行ポリシーを獲得
    5

    学習完了間近 — 安定した歩行ポリシーを獲得

    同様のプロジェクトをご検討ですか?

    お気軽にご相談ください。

    お問い合わせ

    AI Concierge

    Online
    Team-Z AIコンシェルジュです。ROS2を用いたロボティクス開発、AIを活用したシステム構築、エンジニアの技術支援(SES)についてご案内します。どのような課題をお持ちですか?

    Powered by TEAM Z AI