로봇 학습에서 기하학 활용하기: 스탠포드 로보틱스 세미나

로봇 학습에서 기하학 활용하기: 스탠포드 로보틱스 세미나

모델 기반 로봇공학과 일반주의 로봇공학 사이의 긴장

로봇 학습은 현재 두 극단 사이에 나뉘어 있습니다: 손으로 코딩한 기하학 모델과 일반주의 비전‑언어‑액션(VLA) 모델입니다. 전통적인 모델 기반 계획은 데이터 효율성이 매우 높으며—때로는 단 하나의 시연만으로도 충분합니다(예: YODO "You Only Demonstrate Once" 접근법)—하지만 모델의 가정이 현실을 반영하지 않을 때 실패하기 쉽습니다. 반면 최신 VLA는 데이터를 직접 학습함으로써 손으로 코딩한 모델의 경직성을 극복하지만, 숙련도를 달성하기 위해 방대한 양의 학습 데이터가 필요합니다.

이 연구의 핵심 논지는 중간 지점이 존재한다는 것입니다: 기하학적, 기계적, 혹은 물리적 사전 지식을 포함하는 머신러닝 모델. 모델을 물리 법칙—특히 대칭성과 등변성—을 존중하도록 구조화함으로써, 데이터로부터 학습하는 유연성을 유지하면서 모델 기반 시스템의 데이터 효율성을 달성할 수 있습니다.

등변성을 통한 대칭성 삽입

신경망에 물리적 지식을 통합하기 위해, 연구자들은 노터의 정리를 기반으로 대칭성을 삽입할 수 있습니다. 노터의 정리는 현실 세계의 대칭성과 물리학의 보존 법칙 사이에 대응 관계가 있음을 밝힙니다(예: 공간 이동 대칭은 운동량 보존에 해당).

등변 신경망 레이어

등변 함수란 입력을 변환(예: 이미지를 회전)하면 출력도 그에 상응하게 변환되는 함수를 말합니다. 로봇공학에서 시스템의 전이 역학이 회전 불변이라면, 최적 정책은 회전 등변이어야 합니다.

컨볼루션 커널의 가중치를 특정 패턴에 맞게 제한함으로써 모델을 등변으로 강제할 수 있습니다. 예를 들어, 일반적인 3×3 컨볼루션 커널은 자유 변수 18개를 가지지만, C4 군(90도 간격)으로 제한된 등변 버전은 자유 파라미터를 5개로 줄입니다. 이 제한은 입력이 회전될 경우 출력도 자동으로 회전되도록 보장하여, 모델이 서로 다른 방향에서 동일한 작업을 "다시 학습"할 필요를 없애줍니다.

네 가지 기하학적 표현 전략

플랫 교수는 주로 MimicGen 데이터셋을 기준으로 정책 학습을 개선하기 위한 네 가지 독특한 기하학 활용 방법을 제시합니다.

1. 등변 확산 정책

이 접근법은 세계를 포인트 클라우드로 인코딩하고 등변 포인트 클라우드 트랜스포머와 U‑Net 출력을 활용합니다. 이는 변위와 SO(2)의 유한 부분군에 대해 등변성을 가집니다.

  • 핵심 결과: 데이터 효율성이 10배 향상되었습니다. 100개의 시연으로 학습된 모델이 1,000개의 시연으로 학습된 표준 확산 정책을 능가했습니다.
  • 강점: 고변동 작업에서 자세에 대한 뛰어난 일반화 능력.
  • 약점: 큰 이산 군에 대해 계산 비용이 많이 들며, 포인트 클라우드의 희소성 때문에 RGB 기반 방법보다 정밀도가 낮습니다.

2. 이미지‑투‑구면 임베딩

RGB 이미지를 다루기 위해, 이 방법은 이미지 패치를 2‑구면에 투사하여 SO(3) 회전을 적용할 수 있게 합니다.

  • 메커니즘: 구면 조화함수(구면 위 함수의 푸리에 기저)와 휘거 D‑행렬을 사용해 푸리에 공간에서 컨볼루션을 수행한 뒤 데이터를 다시 SO(3)의 이산 부분군으로 되돌립니다.
  • 핵심 결과: 데이터 효율성이 2배 향상되었습니다.
  • 통찰: 모델이 자세에 대한 일반화를 학습할 필요가 없어짐으로써, 모델은 실제 작업 논리(예: 스쿱에 남은 콩의 개수 관찰)를 학습하는 데 용량을 집중할 수 있습니다.

3. Raven: 3D 레이 표현

Raven은 이미지 패치를 3D 레이—카메라 원점에서 패치 중심을 향하는 벡터—로 표현하고, 각 레이에 좌표 프레임을 연결합니다.

  • 기하학 변환 어텐션(GTA): 표준 어텐션 대신, GTA는 쿼리, 키, 값을 공통 기준 프레임으로 변환한 뒤 어텐션 연산을 수행하고 다시 원래 프레임으로 되돌립니다.
  • 강점: 여러 시점과 모달리티(예: 픽셀, 포인트, 힘 데이터)를 결합하는 데 논리적으로 일관됩니다.
  • 약점: 정확한 카메라 보정이 필요합니다.

4. Pix2Act: 평면 궤적 및 삼각측량

이 현재 연구는 여러 손에 든 카메라의 이미지 평면에서 직접 키포인트 궤적을 추론한 뒤, 이를 다시 3D 공간으로 삼각측량하는 데 초점을 맞춥니다.

  • 데이터 증강: 모델이 전역 구조를 무시하고 지역 이미지 특징에 집중하도록, 연구진은 카메라를 시각 축을 따라 독립적으로 가상 회전시키는 독특한 증강을 사용합니다.
  • 핵심 결과: 자체 사전 학습이 없음에도 불구하고, CLIP 인코더를 사용하는 사전 학습된 LBM 모델을 능가했습니다.

스케일링 법칙의 전환

AI에서 스케일링 법칙은 일반적으로 데이터 양에 따라 성능이 증가하는 거듭 제곱 법칙을 따릅니다. 기하학적 사전 지식을 통합하는 목표는 데이터를 대체하는 것이 아니라 "스케일링 곡선을 왼쪽으로 이동"시키는 것입니다.

모델을 물리적 세계에 맞추도록 편향(이동 및 회전 불변성에 대한 지식 포함)하면, 모델은 기본 상태에서 더 "지능적"이 됩니다. 이는 동일한 데이터 양에 대해 기하학적으로 인식하는 모델이 일반주의 모델보다 높은 성능을 달성한다는 의미입니다. 이 접근법은 물리적 제약을 유익한 편향으로 활용함으로써 편향‑분산 트레이드오프를 효과적으로 관리하고, 특정 성공률에 도달하는 데 필요한 데이터 양을 감소시킵니다.

요약

플랫 교수는 로봇 학습 모델에 기하학적 구조 사전 지식과 등변성을 도입하면, 일반주의 VLA 모델에 비해 데이터 효율성과 자세에 대한 일반화가 크게 향상될 수 있음을 논의합니다.

제목

로봇 학습에서 기하학 활용하기: 스탠포드 로보틱스 세미나

Sources