Unitree G1(29自由度ヒューマノイドロボット)の不整地歩行ポリシーをNVIDIA Isaac Sim上で強化学習。従来のPPOでは10時間以上かかっていた学習を、FastSAC(オフポリシー強化学習)により約15分で達成。高低差10〜25cmの凹凸地形・坂道・低障害物を含むランダム不整地上で、4,096体並列学習により転倒率ほぼ0%の歩行ポリシーを獲得。さらに150〜400Nの外力にも耐えるPush Recovery能力を実証しました。
メーカーポリシーでは不整地を歩けない
Unitree G1は29自由度のヒューマノイドロボットです。メーカーからは平地向けの歩行コントローラーが提供されていますが、**不整地(凹凸地形・障害物)に対応した歩行ポリシーは提供されていません。** 二足歩行は四脚歩行に比べて本質的に不安定であり、不整地での自律歩行は極めて難しい問題です。
本プロジェクトでは、NVIDIA Isaac Sim上で最新の強化学習手法(FastSAC)を用いて不整地歩行ポリシーを学習。**約15分**という短時間で、凹凸地形・低障害物を含むランダム不整地上で転倒せず歩行し続けるポリシーを獲得しました。
学習済みポリシーによる不整地歩行デモ — 高低差10〜25cmの凹凸地形・坂道をカメラ追従で撮影
対象ロボット
なぜ二足歩行の不整地対応は難しいのか
四脚ロボットは常に3点以上で接地できるため本質的に安定です。一方、二足歩行は片足支持の瞬間が必ず存在し、**常に転倒のリスク**を伴います。不整地ではさらに接地面が不規則になるため、リアルタイムに全身のバランスを取り続ける制御が必要です。
この制御をルールベースでプログラムするのは現実的ではありません。強化学習なら、シミュレーション上で数千体のロボットに多様な地形を同時に体験させ、最適なバランス制御を自動で獲得できます。
PPOの壁 — 10時間回しても歩けなかった
当初はB2-W(四脚ロボット)で成功したPPO(Proximal Policy Optimization)をG1にも適用しました。しかし、**30,000イテレーション(10時間以上)回しても地形カリキュラムがレベル0.0から進まず**、不整地歩行に到達できませんでした。GPU回収も2回経験し、コスト$32以上を消費。
PPOはオンポリシー手法のため、経験データの再利用ができず、二足歩行のような高次元問題ではサンプル効率が極めて低いことが根本原因でした。
FastSACへの転換 — 15分で不整地歩行を達成
論文 *"Learning Sim-to-Real Humanoid Locomotion in 15 Minutes"* で提案されたFastSAC(オフポリシー強化学習)に切り替えました。FastSACはリプレイバッファにより過去の経験を効率的に再利用でき、PPOと比較してサンプル効率が桁違いに高いのが特徴です。
オープンソース実装 **Holosoma**(Amazon Far)を使用し、**約15分**でPPO 10時間超を大幅に上回る結果を達成しました。
学習の進行 — 転倒から自律歩行へ
学習初期 — ロボットが転倒し歩行できない
学習完了 — 不整地を安定して歩行
Push Recovery — 押されても倒れない
学習済みポリシーの頑健性テストとして、歩行中のロボットに150〜400Nのランダムな外力(プッシュ)を2〜5秒間隔で胴体・骨盤に印加しました。ポリシーは追加学習なしで外乱に対応し、姿勢を立て直して歩行を継続します。
Push Recovery テスト — 150〜400Nの外力を受けても姿勢を回復
成果(数値)
技術スタック
B2-Wでの知見をG1に展開
本プロジェクトは、[B2-W(四脚ロボット)での不整地歩行ポリシー開発](/works/b2w-walking-policy)で得た知見を二足歩行ヒューマノイドに展開したものです。B2-Wでの報酬設計7回のイテレーション(v2〜v7)を通じて、以下の設計原則を確立しました。
四脚→二足というステップアップにより、本質的に難しいヒューマノイドの歩行制御に対しても体系的にアプローチできました。
Sim-to-Real — シミュレーションから実機への展望
本プロジェクトは**シミュレーション段階**の成果です。学習済みポリシーはONNX形式で出力可能なため、実機のエッジコンピュータへのデプロイを見据えた設計になっています。
Blind Policy設計により、シミュレーションと実機のセンサ差(Sim-to-Realギャップ)の最小化を目指していますが、**実機での検証は今後の課題**です。Domain Randomization(物理パラメータの摂動)やノイズ注入など、Sim-to-Realギャップを縮小するための手法を引き続き検討しています。