为 VLA 模型构建桌面机器人研究装置

为 VLA 模型构建桌面机器人研究装置

桌面机器人装置概述

开发者 mplappert 在其工作区旁边构建了一个机器人研究站,以促进视觉-语言-动作 (VLA) 模型的开发和测试。该装置的设计重点在于快速迭代和易于遥操作,从而能够收集策略学习所需的高质量演示数据。

软件架构:自定义技术栈 vs. ROS2

该项目使用自定义构建的软件技术栈,而不是机器人操作系统 2 (ROS2)。这一架构选择是出于对极简、清晰框架的需求,以避免与行业标准中间件相关的开销和复杂性。

社区反馈强调了自定义框架与 ROS2 之间反复出现的紧张关系:

  • ROS2 的权衡: 虽然 ROS2 提供了一个庞大的生态系统,但一些开发者发现,在设置阶段节省的初始时间会被长期的维护和复杂性所抵消。一位贡献者指出,对于自然环境中的自主移动机器人,ROS2 生态系统是一种最终演变成成本的折中方案。
  • VLA 特定需求: ROS2 通常未针对双臂操作或 VLA 工作负载进行优化。一些研究人员(包括斯坦福大学的研究人员)已选择专门针对扩散策略 (diffusion policies) 的自定义框架,以更好地处理高维数据和实时控制的要求。

硬件与遥操作策略

遥操作接口

该装置专注于通过遥操作进行高效的数据收集。虽然作者使用了 SpaceMouse,但社区成员建议,VR 控制器(例如来自 Quest 3s 的控制器)在遥操作方面提供了显著更好的精度和直觉,其作用更像是一个 6-DOF 追踪器,而不是完整的 VR 体验。

传感器集成与校准

目前的装置避免了复杂的相机校准(内参和外参)。然而,经验丰富的机器人工程师建议,校准对于长期策略学习至关重要。为了减轻物理错位风险——例如由环境振动引起的相机偏移——在桌面上使用 Aruco 标记可以追踪相机相对于外部的位置,并为遥操作数据集提供必要的元数据。

硬件层级与可访问性

机器人研究的准入门槛成本因所需的精度而异:

  • 高端: 专业级机械臂对于可靠的 VLA 研究和可重复任务是必要的。
  • 低端: 预算型套件(例如 HIWONDER 6DOF Robotic Arm)可用于基础的编程实验,但精度和重复性较差,通常被描述为“齿轮磨损”。

VLA 模型验证的要求

对于那些构建类似装置以验证视觉-语言-动作模型的人来说,以下技术要求通常是足够的:

  • 机械臂: 单个机械臂对于基础的取放任务是足够的,但对于更复杂的操纵场景,则需要双臂(两臂)装置。
  • 视觉: 对于 ACT、DP 和 PI0/PI05 等模型,RGB 或立体 RGB 输入是足够的。
  • 校准: 虽然某些 VLA 模型并不严格要求,但校准仍然是视觉操纵任务中调试训练策略的最佳实践。

Sources