ロボット学習における幾何学の活用:スタンフォードロボティクスセミナー
ロボット学習における幾何学の活用:スタンフォードロボティクスセミナー
モデルベースとジェネラリストロボティクスの緊張関係
ロボット学習は現在、手書きの幾何学モデルとジェネラリストのビジョン‑言語‑アクション(VLA)モデルという二つの極端に分かれています。従来のモデルベース計画はデータ効率が非常に高く、時にはたった一つのデモンストレーション(例:YODO「You Only Demonstrate Once」アプローチ)だけで済むこともありますが、モデルの前提が現実と合致しない場合に失敗しがちです。一方、最新のVLAはデータから直接学習し、手書きモデルの硬直性を克服しますが、熟練度に達するためには膨大な学習データが必要です。
この研究の核心的な主張は、幾何学的、機械的、あるいは物理的な事前知識を組み込んだ機械学習モデルという中間的な立場が存在するということです。モデルを物理法則—特に対称性と等変性—を尊重するように構造化すれば、データから学習する柔軟性を保ちつつ、モデルベースシステムと同等のデータ効率を実現できます。
等変性による対称性の埋め込み
物理的知識をニューラルネットワークに組み込むために、研究者はノーテルの定理に基づく対称性を埋め込むことができます。この定理は、現実世界の対称性と物理学の保存則(例:空間平行移動対称性は運動量保存則に対応)との対応関係を示します。
等変ニューラルネットワーク層
等変関数とは、入力を変換(例:画像を回転)したときに出力が対応する形で変換される関数です。ロボティクスにおいて、システムの遷移ダイナミクスが回転不変であるなら、最適ポリシーは回転等変であるべきです。
畳み込みカーネルの重みを特定のパターンに制約することで、モデルを等変に強制できます。例えば、標準的な 3×3 畳み込みカーネルは自由変数が 18 個ありますが、C4 群(90 度刻み)に制約した等変バージョンでは自由パラメータは 5 個に減ります。この制約により、入力が回転した場合、出力も自動的に回転し、モデルが異なる向きで同じタスクを「再学習」する必要がなくなります。
四つの幾何学的表現戦略
Platt 教授は、主に MimicGen データセットでベンチマークされた、幾何学を活用してポリシー学習を改善する四つの異なる手法を提示します。
1. 等変拡散ポリシー
この手法は世界を点群としてエンコードし、等変点群トランスフォーマーと U‑Net 出力を利用します。平行移動と有限サブグループの SO(2) に対して等変です。
- 主な成果: データ効率が 10 倍向上。100 件のデモで学習したモデルが、1,000 件のデモで学習した標準拡散ポリシーを上回りました。
- 強み: 高変動タスクにおける姿勢に対する卓越した汎化能力。
- 弱み: 大規模な離散群に対して計算コストが高く、点群の疎さにより RGB ベース手法ほど精度が出ない。
2. Image‑to‑Sphere 埋め込み
RGB 画像を扱うために、画像パッチを二球面に射影し、SO(3) 回転を適用できるようにします。
- メカニズム: 球面調和関数(球面上の関数のフーリエ基底)と Wigner D‑行列を用いてフーリエ空間で畳み込みを行い、データを SO(3) の離散サブグループに戻します。
- 主な成果: データ効率がベースラインの 2 倍向上。
- 洞察: 姿勢に対する汎化をモデルが学習する必要がなくなることで、モデルはタスクロジック(例:スコップに残っている豆の数を観測)に容量を集中できました。
3. Raven:3D レイ表現
Raven は画像パッチを 3D レイ(カメラ原点からパッチ中心へのベクトル)として表現し、各レイに座標系を付与します。
- Geometric Transform Attention(GTA): 標準的なアテンションの代わりに、クエリ、キー、バリューを共通参照フレームに変換してからアテンション演算を行い、結果を元のフレームに戻します。
- 強み: 複数ビューやモダリティ(ピクセル、点、力データ)を組み合わせる際に理論的に一貫しています。
- 弱み: 正確なカメラ較正が必要です。
4. Pix2Act:平面軌道と三角測量
この現在進行中の研究は、複数のハンドカメラの画像平面上でキーポイント軌道を直接推定し、そこから 3D 空間に三角測量することに焦点を当てています。
- データ拡張: モデルがグローバル構造を無視しローカル画像特徴に注目するように、カメラを視軸上で独立に仮想回転させるユニークな拡張手法を使用します。
- 主な成果: 自前の事前学習なしで、CLIP エンコーダを用いた事前学習 LBM モデルを上回りました。
スケーリング法則のシフト
AI におけるスケーリング法則は通常べき乗則に従い、データ量が増えるほど性能が向上します。幾何学的事前知識を組み込む目的はデータを置き換えることではなく、"スケーリング曲線を左にシフトさせる" ことです。
モデルを物理世界に合わせてバイアス(平行移動・回転不変性の知識)を付与すれば、ベースラインでより "インテリジェント" になります。つまり、同じデータ量でも幾何学的に意識したモデルはジェネラリストモデルより高い性能を達成できるということです。このアプローチは、物理的制約を有益なバイアスとして利用することでバイアス‑分散トレードオフを効果的に管理し、特定の成功率に到達するために必要なデータ量を削減します。
要約
Platt 教授は、ロボット学習モデルに幾何学的構造事前知識と等変性を組み込むことで、ジェネラリスト VLA モデルに比べてデータ効率と姿勢に対する汎化性能を大幅に向上させられることを論じています。