
Unitree G1(29自由度ヒューマノイドロボット)を対象に、NVIDIA Isaac Sim上で強化学習(PPO)を用いて不整地歩行ポリシーを開発。二足歩行ロボットが階段・坂道・凹凸地形を自律歩行する制御ポリシーを獲得しました。
メーカー提供ポリシーでは不整地を歩けない
学習済みポリシーによる不整地歩行デモ — 凹凸地形をカメラ追従で撮影
Unitree G1は29自由度のヒューマノイドロボットです。メーカーからは平地向けの歩行ポリシーが提供されていますが、**不整地(階段・坂道・凹凸地形)に対応した歩行ポリシーは提供されていません。**
二足歩行は本質的に不安定で、四脚ロボットのような車輪による安定性補助もありません。全身のバランス制御——腕の振り、重心移動、足の着地タイミング——を地形に応じてリアルタイムに協調させる必要があります。
本プロジェクトでは、NVIDIA Isaac Sim上で強化学習(PPO)を用いて不整地歩行ポリシーを新たに学習し、ヒューマノイドロボットが凹凸地形を自律歩行できるモデルを生成しました。
対象ロボット
なぜヒューマノイドの不整地歩行が難しいのか
四脚ロボット(B2-W等)は4本の脚と車輪で常に安定した接地点を確保できます。一方、ヒューマノイドは二足歩行のため、常に片足立ちの不安定な状態を繰り返しながら前進する必要があります。
不整地では、足を置く地面の高さが予測できず、わずかな姿勢の崩れが転倒に直結します。この制御を人手でプログラムするのは非常に困難で、強化学習によるシミュレーション上での大量の試行錯誤が不可欠です。
学習の進行 — 転倒から自律歩行へ
2,048体のG1ロボットを同時にシミュレーションし、不整地上で試行錯誤を繰り返すことで、ポリシーが段階的に進化します。
学習初期 — ロボットが転倒し歩行できない
学習完了 — 不整地を安定して歩行
技術スタック
B2-W(四脚ロボット)での知見を活用
本プロジェクトは、先行するB2-W(車輪付き四脚ロボット)での歩行ポリシー開発で得た知見をベースにしています。
成果
Sim-to-Real — 実機への展開
学習済みポリシーはONNX形式で出力されるため、実機のエッジコンピュータに直接デプロイ可能です。Blind Policy設計により、シミュレーションと実機のセンサ差(Sim-to-Realギャップ)を最小化しています。