利用幾何學於機器人學習：斯坦福機器人研討會

模型導向與通用型機器人之間的張力

機器人學習目前分為兩個極端：手寫的幾何模型與通用的視覺‑語言‑動作（VLA）模型。傳統的模型導向規劃極具資料效率——有時只需要一次示範（例如 YODO 「只示範一次」方法）——但當模型的假設與現實不符時往往失效。相對地，現代的 VLA 直接從資料中學習，克服了手寫模型的僵硬性，但它們需要大量的訓練資料才能達到熟練程度。

本研究的核心論點是：存在一個中間地帶——結合幾何、機械或物理先驗的機器學習模型。透過將模型結構化以遵守物理法則——特別是對稱性與等變性——可以在保留從資料學習的彈性的同時，達到模型導向系統的資料效率。

透過等變性嵌入對稱性

為了將物理知識納入神經網路，研究者可以根據諾特定理（Noether's theorem）嵌入對稱性，該定理在現實世界的對稱性與物理學中的守恆定律之間建立了對應關係（例如，空間平移對稱性對應動量守恆）。

等變神經網路層

等變函數指的是，對輸入的變換（例如旋轉圖像）會導致輸出相應的變換。在機器人領域，若系統的轉移動力學具備旋轉不變性，則最佳策略應該是旋轉等變的。

透過限制卷積核的權重遵循特定模式，模型即可被迫具備等變性。例如，標準的 3x3 卷積核有 18 個自由變數；受限於 C4 群（90 度增量）的等變版本則僅剩五個自由參數。此限制確保若輸入被旋轉，輸出會自動旋轉，避免模型必須在不同方向上「重新學習」相同任務。

四種幾何表示策略

Platt 教授提出了四種利用幾何學提升策略學習的方法，主要在 MimicGen 資料集上進行基準測試。

1. 等變擴散策略

此方法將世界編碼為點雲，並使用等變點雲 Transformer 與 U‑Net 輸出。它對平移以及 SO(2) 的有限子群具備等變性。

關鍵結果： 資料效率提升 10 倍。模型在 100 次示範下的表現優於在 1,000 次示範下訓練的標準擴散策略。
優勢： 在高變異任務中對姿態的泛化能力極佳。
劣勢： 對於大型離散群計算成本高，且因點雲稀疏性而較 RGB 方法精度低。

2. 圖像到球面嵌入

為了處理 RGB 圖像，此方法將圖像補丁投射到二球面上，從而允許應用 SO(3) 旋轉。

機制： 使用球面諧波（球面上的傅立葉基）與 Wigner D‑矩陣在傅立葉空間進行卷積，然後再將資料帶回 SO(3) 的離散子群。
關鍵結果： 在資料效率上比基線提升 2 倍。
洞見： 透過移除模型必須學習姿態泛化的需求，模型可以將容量專注於學習實際任務邏輯（例如觀察勺子中剩餘多少豆子）。

3. Raven：3D 光線表示

Raven 將圖像補丁表示為 3D 光線——從相機原點指向補丁中心的向量——每條光線皆關聯一個座標框架。

幾何變換注意力（GTA）： 與標準注意力不同，GTA 在執行注意力運算前，先將 query、key、value 轉換到共同的參考框架，運算完畢後再轉回原始框架。
優勢： 在結合多視角與多模態（例如像素、點雲與力資料）時具備概念上的一致性。
劣勢： 需要精確的相機校準。

4. Pix2Act：平面軌跡與三角測量

此最新工作聚焦於直接在多個手持相機的影像平面上推斷關鍵點軌跡，然後將其三角測量回 3D 空間。

資料增強： 為了迫使模型忽略全局結構、專注於局部影像特徵，研究者使用一種獨特的增強方式，讓相機在其視覺軸上獨立旋轉。
關鍵結果： 儘管未使用任何預訓練，仍優於使用 CLIP 編碼器的預訓練 LBM 模型。

轉移縮放律

AI 中的縮放律通常遵循冪律，即效能隨資料量的函數增長。引入幾何先驗的目標不是取代資料，而是「將縮放曲線向左平移」。

透過使模型偏向符合物理世界（納入平移與旋轉不變性的知識），模型在基線狀態下變得更「聰明」。這意味著對於任何給定的資料量，具備幾何感知的模型應該能達到比通用模型更高的效能。此方法利用物理約束作為有益的偏差，降低達到特定成功率所需的資料量，從而有效管理偏差‑方差權衡。

摘要： Platt 教授討論了將幾何結構先驗與等變性納入機器人學習模型，如何相較於通用 VLA 模型顯著提升資料效率與姿態泛化能力。

標題：利用幾何學於機器人學習：斯坦福機器人研討會

利用幾何學於機器人學習：斯坦福機器人研討會

利用幾何學於機器人學習：斯坦福機器人研討會

模型導向與通用型機器人之間的張力

透過等變性嵌入對稱性

等變神經網路層

四種幾何表示策略

1. 等變擴散策略

2. 圖像到球面嵌入

3. Raven：3D 光線表示

4. Pix2Act：平面軌跡與三角測量

轉移縮放律

Sources