ヒューマノイドロボット不整地歩行ポリシー開発

Unitree G1（29自由度ヒューマノイドロボット）を対象に、NVIDIA Isaac Sim上で強化学習（PPO）を用いて不整地歩行ポリシーを開発。二足歩行ロボットが階段・坂道・凹凸地形を自律歩行する制御ポリシーを獲得しました。

メーカー提供ポリシーでは不整地を歩けない

学習済みポリシーによる不整地歩行デモ — 凹凸地形をカメラ追従で撮影

Unitree G1は29自由度のヒューマノイドロボットです。メーカーからは平地向けの歩行ポリシーが提供されていますが、**不整地（階段・坂道・凹凸地形）に対応した歩行ポリシーは提供されていません。**

二足歩行は本質的に不安定で、四脚ロボットのような車輪による安定性補助もありません。全身のバランス制御——腕の振り、重心移動、足の着地タイミング——を地形に応じてリアルタイムに協調させる必要があります。

本プロジェクトでは、NVIDIA Isaac Sim上で強化学習（PPO）を用いて不整地歩行ポリシーを新たに学習し、ヒューマノイドロボットが凹凸地形を自律歩行できるモデルを生成しました。

対象ロボット

Unitree G1 — 高性能ヒューマノイドロボット

29自由度 — 脚・腰・腕・手の全身協調制御

想定用途 — 工場巡回、災害現場探索、屋外点検、研究開発

なぜヒューマノイドの不整地歩行が難しいのか

四脚ロボット（B2-W等）は4本の脚と車輪で常に安定した接地点を確保できます。一方、ヒューマノイドは二足歩行のため、常に片足立ちの不安定な状態を繰り返しながら前進する必要があります。

不整地では、足を置く地面の高さが予測できず、わずかな姿勢の崩れが転倒に直結します。この制御を人手でプログラムするのは非常に困難で、強化学習によるシミュレーション上での大量の試行錯誤が不可欠です。

学習の進行 — 転倒から自律歩行へ

2,048体のG1ロボットを同時にシミュレーションし、不整地上で試行錯誤を繰り返すことで、ポリシーが段階的に進化します。

学習初期 — ロボットが転倒し歩行できない

学習完了 — 不整地を安定して歩行

技術スタック

シミュレータ — NVIDIA Isaac Sim 5.1（GPU物理演算）

学習基盤 — Isaac Lab + RSL-RL（PPO）

GPU — NVIDIA RTX 6000 Ada（48GB VRAM）

並列環境 — 2,048環境を1GPUで同時実行

制御周波数 — 50Hz（実機と同等）

学習時間 — 約6〜10時間で収束

B2-W（四脚ロボット）での知見を活用

本プロジェクトは、先行するB2-W（車輪付き四脚ロボット）での歩行ポリシー開発で得た知見をベースにしています。

報酬設計パターン — upward報酬、転倒許容設計、対称性報酬などの設計パターンを適用

Blind Policy — 直線速度を観測から除外し、実機センサ誤差に頑健なポリシーを実現

学習パイプライン — 環境セットアップから動画録画・WEB掲載まで確立済み

成果

不整地自律歩行 — 階段・坂道・凹凸地形で転倒せず歩行

全身バランス制御 — 腕の振りと重心移動を自動で学習

出力形式 — ONNX / TorchScript（エッジデバイス対応）

Sim-to-Real — 実機への展開

学習済みポリシーはONNX形式で出力されるため、実機のエッジコンピュータに直接デプロイ可能です。Blind Policy設計により、シミュレーションと実機のセンサ差（Sim-to-Realギャップ）を最小化しています。

こんな課題をお持ちの方へ

ヒューマノイドロボットの不整地対応を検討している

二足歩行の制御ソフトウェアを開発したいが、ノウハウがない

強化学習をロボット制御に適用したいが、どこから始めればいいかわからない

シミュレーション環境の構築からSim-to-Realまで一貫して任せたい

ヒューマノイドロボット 不整地歩行ポリシー開発