為 VLA 模型打造桌面機器人研究設置

為 VLA 模型打造桌面機器人研究設置

桌面機器人設置概述

開發者 mplappert 在其工作空間旁邊建造了一個機器人研究站,以促進視覺-語言-動作 (VLA) 模型的開發與測試。該設置旨在優先考慮快速迭代與遠端操作的便利性,從而收集策略學習所需的高品質示範數據。

軟體架構:自定義堆疊 vs. ROS2

該專案使用自定義構建的軟體堆疊,而非 Robot Operating System 2 (ROS2)。這種架構選擇是出於對極簡、清晰框架的需求,以避免與業界標準中間件相關的開銷與複雜性。

社群回饋突顯了自定義框架與 ROS2 之間反覆出現的緊張關係:

  • ROS2 的權衡: 雖然 ROS2 提供了一個龐大的生態系統,但一些開發者發現,設置期間節省的初始時間會被長期的維護與複雜性所抵消。一位貢獻者指出,對於自然環境中的自主移動機器人,ROS2 生態系統是一種最終演變成成本的折衷方案。
  • VLA 特定需求: ROS2 通常未針對雙手操作或 VLA 工作負載進行優化。包括史丹佛大學研究人員在內的一些研究人員,已選擇專門為擴散策略 (diffusion policies) 設計的自定義框架,以更好地處理高維度數據與即時控制的需求。

硬體與遠端操作策略

遠端操作介面

該設置專注於透過遠端操作進行高效的數據收集。雖然作者使用 SpaceMouse,但社群成員建議,VR 控制器(例如來自 Quest 3s 的控制器)能為遠端操作提供顯著更好的精確度與直覺性,其作用更像是 6-DOF 追蹤轉接器,而非完整的 VR 體驗。

感測器整合與校準

目前的設置避免了複雜的相機校準(內參與外參)。然而,經驗豐富的機器人工程師建議,校準對於長期策略學習至關重要。為了降低物理錯位的風險——例如由環境振動引起的相機位移——在桌面上使用 Aruco markers 可以追蹤相機的相對外參位置,並為遠端操作數據集提供必要的元數據。

硬體層級與可及性

機器人研究的入門成本因所需的精確度而異:

  • 高階: 專業級機械臂對於可靠的 VLA 研究與可重複任務是必要的。
  • 低階: 預算型套件(例如 HIWONDER 6DOF Robotic Arm)可用於基礎編碼實驗,但精度與可重複性較差,通常被描述為有「齒輪磨損」的感覺。

VLA 模型驗證的需求

對於那些正在構建類似設置以驗證視覺-語言-動作模型的開發者,以下技術需求通常已足夠:

  • 機械臂: 單個機械臂對於基礎的取放任務已足夠,但對於更複雜的操作場景,則需要雙手(雙臂)設置。
  • 視覺: 對於 ACT、DP、PI0/PI05 等模型,RGB 或 Stereo RGB 輸入已足夠。
  • 校準: 雖然某些 VLA 模型不嚴格要求,但校準對於在視覺操作任務中除錯訓練後的策略仍然是最佳實踐。

Sources