利用几何学提升机器人学习：斯坦福机器人研讨会

基于模型与通用机器人之间的张力

机器人学习目前分为两大极端：手工编码的几何模型和通用的视觉‑语言‑动作（VLA）模型。传统的基于模型的规划数据效率极高——有时只需要一次示范（例如 YODO “You Only Demonstrate Once” 方法）——但当模型的假设与现实不符时往往会失效。相反，现代 VLA 直接从数据中学习，克服了手工模型的僵硬性，但它们需要海量的训练数据才能达到熟练水平。

本研究的核心论点是：存在一个中间地带，即结合几何、机械或物理先验的机器学习模型。通过让模型遵守物理定律——尤其是对称性和等变性——可以在保留从数据学习的灵活性的同时，实现基于模型系统的数据效率。

通过等变性嵌入对称性

为了将物理知识引入神经网络，研究者可以基于诺特定理嵌入对称性，该定理在现实世界的对称性与物理学中的守恒定律之间建立对应关系（例如，空间平移对称性对应动量守恒）。

等变神经网络层

等变函数指的是对输入进行变换（例如旋转图像）会导致输出产生相应的变换。在机器人领域，如果系统的转移动力学具有旋转不变性，则最优策略应当是旋转等变的。

通过约束卷积核的权重遵循特定模式，模型可以被迫保持等变性。例如，一个标准的 3×3 卷积核有 18 个自由变量；约束到 C4 群（90 度增量）的等变版本则将自由参数减少到五个。此约束确保当输入被旋转时，输出会自动旋转，从而防止模型在不同方向上“重新学习”同一任务。

四种几何表示策略

Platt 教授展示了四种利用几何学提升策略学习的不同方法，主要在 MimicGen 数据集上进行基准测试。

1. 等变扩散策略

该方法将世界编码为点云，并使用等变点云 Transformer 与 U‑Net 输出。它对平移以及 SO(2) 的有限子群保持等变。

关键结果： 数据效率提升 10 倍。使用 100 条示范训练的模型优于使用 1,000 条示范训练的标准扩散策略。
优势： 在高变异任务中对姿态具有卓越的泛化能力。
劣势： 对大离散群计算成本高，且由于点云稀疏性，精度不如基于 RGB 的方法。

2. 图像到球面嵌入

为处理 RGB 图像，该方法将图像块投影到二球面上，从而可以应用 SO(3) 旋转。

机制： 使用球面调和函数（球面上的傅里叶基）和 Wigner D‑矩阵在傅里叶空间进行卷积，然后再将数据映回 SO(3) 的离散子群。
关键结果： 在数据效率上比基线提升 2 倍。
洞见： 通过消除模型需要学习姿态泛化的需求，模型可以将容量专注于学习实际任务逻辑（例如观察勺子里剩余的豆子数量）。

3. Raven：3D 光线表示

Raven 将图像块表示为 3D 光线——从相机原点指向块中心的向量——每条光线关联一个坐标系。

几何变换注意力（GTA）： 与标准注意力不同，GTA 在执行注意力操作之前将查询、键和值转换到公共参考框架，再转换回去。
优势： 在结合多视角和多模态（如像素、点云和力数据）时在概念上保持一致。
劣势： 需要精确的相机标定。

4. Pix2Act：平面轨迹与三角测量

该工作聚焦于直接在多个手持相机的图像平面上推断关键点轨迹，然后将其三角测量回 3D 空间。

数据增强： 为了迫使模型忽略全局结构、专注于局部图像特征，研究者使用了一种独特的增强方式，即在视觉轴上独立地虚拟旋转相机。
关键结果： 尽管没有任何预训练，仍然超越了使用 CLIP 编码器的预训练 LBM 模型。

改变尺度定律

AI 中的尺度定律通常遵循幂律，即性能随数据规模的增长而提升。引入几何先验的目标不是取代数据，而是“将尺度曲线向左平移”。

通过让模型偏向符合物理世界（融入平移和旋转不变性知识），模型在基线状态下变得更“智能”。这意味着对于任意给定的数据量，具备几何感知的模型应当比通用模型取得更高的性能。这种方法通过将物理约束作为有益的偏置来管理偏差‑方差权衡，从而降低达到特定成功率所需的数据量。

摘要： Platt 教授讨论了将几何结构先验和等变性引入机器人学习模型，如何相较于通用 VLA 模型显著提升数据效率并在姿态上实现更好的泛化。

标题：利用几何学提升机器人学习：斯坦福机器人研讨会

利用几何学提升机器人学习：斯坦福机器人研讨会

利用几何学提升机器人学习：斯坦福机器人研讨会

基于模型与通用机器人之间的张力

通过等变性嵌入对称性

等变神经网络层

四种几何表示策略

1. 等变扩散策略

2. 图像到球面嵌入

3. Raven：3D 光线表示

4. Pix2Act：平面轨迹与三角测量

改变尺度定律

Sources