
車輪+脚のハイブリッド四脚ロボット Unitree B2-W を対象に、NVIDIA Isaac Sim 上で強化学習(PPO)を用いた歩行ポリシーを開発。2,048 並列環境でのカリキュラム学習により、階段・坂道・凹凸地形を自律移動する16自由度の制御ポリシーを獲得しました。
「歩けないロボット」を「不整地を自律走破するロボット」に変える
車輪付き四脚ロボットは、平地では高速移動できますが、階段・坂道・凹凸のある現場では途端に動けなくなります。脚と車輪の16自由度をどう協調させるか——これは従来のルールベース制御では解決困難な課題でした。
本プロジェクトでは、強化学習(PPO)により、転倒していたロボットを数時間の学習で不整地を自律走破できるレベルまで到達させることに成功しました。
対象ロボット
なぜ強化学習が必要なのか
車輪ロボットは段差で止まり、脚ロボットは平地で遅い。両方を持つハイブリッド機は、「いつ脚を使い、いつ車輪を使うか」を状況に応じて判断する必要があります。
この判断を人手でプログラムするのは現実的ではありません。地形の種類は無限にあり、ルールの組み合わせが爆発するためです。強化学習なら、シミュレーション上で数千パターンの地形を同時に体験させ、最適な協調制御を自動で獲得できます。
学習の進行 — 転倒から自律歩行へ
2,048体のロボットを同時にシミュレーションし、不整地上で試行錯誤を繰り返すことで、ポリシーが段階的に進化します。
技術スタック
成果
報酬設計のブレイクスルー
初期の報酬設計では「立つが前進しない」局所解に陥りました。以下の設計変更で突破しています。
Sim-to-Real — 実機への展開
学習済みポリシーはONNX形式で出力されるため、実機のエッジコンピュータに直接デプロイ可能です。Blind Policy設計により、シミュレーションと実機のセンサ差(Sim-to-Realギャップ)を最小化しています。
こんな課題をお持ちの方へ
学習の進行過程
シミュレーション内の2,048体のロボットが、試行錯誤を通じて歩行を獲得していく様子

学習開始直後 — ロボットが転倒し、まだ歩行できない状態

学習初期 — 一部のロボットが立ち上がり始める

学習中盤 — 多数のロボットが不整地上で歩行を開始

学習後半 — より難しい地形にも適応し始める

学習完了間近 — 安定した歩行ポリシーを獲得