为 VLA 模型构建桌面机器人研究装置

桌面机器人装置概述

开发者 mplappert 在其工作区旁边构建了一个机器人研究站，以促进视觉-语言-动作 (VLA) 模型的开发和测试。该装置的设计重点在于快速迭代和易于遥操作，从而能够收集策略学习所需的高质量演示数据。

该项目使用自定义构建的软件技术栈，而不是机器人操作系统 2 (ROS2)。这一架构选择是出于对极简、清晰框架的需求，以避免与行业标准中间件相关的开销和复杂性。

社区反馈强调了自定义框架与 ROS2 之间反复出现的紧张关系：

ROS2 的权衡： 虽然 ROS2 提供了一个庞大的生态系统，但一些开发者发现，在设置阶段节省的初始时间会被长期的维护和复杂性所抵消。一位贡献者指出，对于自然环境中的自主移动机器人，ROS2 生态系统是一种最终演变成成本的折中方案。
VLA 特定需求： ROS2 通常未针对双臂操作或 VLA 工作负载进行优化。一些研究人员（包括斯坦福大学的研究人员）已选择专门针对扩散策略 (diffusion policies) 的自定义框架，以更好地处理高维数据和实时控制的要求。

该装置专注于通过遥操作进行高效的数据收集。虽然作者使用了 SpaceMouse，但社区成员建议，VR 控制器（例如来自 Quest 3s 的控制器）在遥操作方面提供了显著更好的精度和直觉，其作用更像是一个 6-DOF 追踪器，而不是完整的 VR 体验。

目前的装置避免了复杂的相机校准（内参和外参）。然而，经验丰富的机器人工程师建议，校准对于长期策略学习至关重要。为了减轻物理错位风险——例如由环境振动引起的相机偏移——在桌面上使用 Aruco 标记可以追踪相机相对于外部的位置，并为遥操作数据集提供必要的元数据。

机器人研究的准入门槛成本因所需的精度而异：

对于那些构建类似装置以验证视觉-语言-动作模型的人来说，以下技术要求通常是足够的：