Trajectory.ai와 기업 AI에서 지속 학습의 미래

정적 모델에서 살아있는 시스템으로의 전환

AI 제품은 현재 정적이며, 오늘 실수를 한 모델은 사용자가 제공한 수정 사항이 모델 가중치에 반영되지 않기 때문에 내일도 같은 실수를 반복할 가능성이 높습니다. Trajectory.ai의 핵심 논지는 모든 미래 제품이 지속 학습이라는 과정을 통해 실제 사용에 기반해 성장하고 진화하는 살아있는 시스템이 될 것이라는 점입니다.

이러한 패러다임 전환은 법률, 의료, 금융과 같은 전문 분야에서 필수적입니다. 이러한 분야에서는 AI가 80% 정확하다고 해도 0% 정확한 경우와 마찬가지로 쓸모가 없습니다. 마지막 20% 격차를 메우기 위해서는 모델이 실제 운영 환경에서 인간 전문가가 만든 고정밀 교정으로부터 학습해야 합니다.

지속 학습을 위한 Trajectory.ai 플랫폼

Trajectory.ai는 원시 기업 데이터를 모델 개선을 위한 플라이휠로 전환하는 플랫폼을 제공합니다. 이 과정은 에이전트가 수행한 실제 단계와 인간이 이후에 수행한 교정을 **‘trajectory’**라는 표준화된 형식으로 추출하는 전문가 트레이스를 정제하는 것을 포함합니다.

주요 플랫폼 기능

데이터 정제: 다양한 기업 데이터 소스를 trajectory로 변환하여 평가, 판정자, 학습 환경을 만드는 데 활용합니다.
주권 인텔리전스: 기업이 자체 모델을 소유하도록 지원합니다. 예를 들어 Trajectory.ai는 Harvey와 Nvidia와 협력해 NeMoTron 3 Super(12B 파라미터 모델)를 법률 워크플로우에서 최첨단 성능을 달성하도록 훈련했으며, 더 큰 최첨단 모델보다 빠르고 저렴하게 운영됩니다.
신속 온보딩: 플랫폼을 통해 신규 고객이 특화 모델을 훈련하는 데 걸리는 시간이 3개월에서 1주일 이하로 단축되었습니다.

모델 훈련의 기술 혁신

스케일링 셀프-디스틸레이션 정책 최적화 (SDPO)

전통적인 강화학습(RL)은 종종 하나의 보상 수치(예: 이진 ‘좋아요/싫어요’)에 의존하는데, 이는 복잡한 전문가 작업에 대해 너무 잡음이 많습니다. Trajectory.ai는 **Self-Distillation Policy Optimization (SDPO)**을 활용해 보다 세분화된 가이드를 제공합니다.

SDPO에서는 기본 모델에 특권 정보나 ‘힌트’를 제공하여 ‘교사’ 모델을 만든 뒤, ‘학생’ 모델이 이 교사의 로그 확률을 맞추도록 훈련합니다. 이를 통해 모델은 단순 보상 신호가 아니라 실제 텍스트와 구체적인 지시로부터 학습하게 되어, 수렴 속도가 빨라지고 Apex 에이전트와 같은 실제 벤치마크에서 성능이 향상됩니다.

Continuous LoRA 및 훈련 인프라

표준 훈련 파이프라인은 선형적이며, 자원을 할당하고 데이터를 샘플링한 뒤 훈련하고 종료합니다. 지속 학습은 생산 환경에서 배치 단위로 데이터가 들어오기 때문에 비선형적이고 동시적인 접근이 필요합니다.

Trajectory.ai는 Berkeley의 Sky RL 랩 및 Anyscale과 협력해 Continuous LoRA를 구현한 훈련 스택을 오픈소스로 공개했습니다. 이 아키텍처는 훈련 풀과 샘플링 풀을 분리해 여러 훈련 작업을 병렬로 실행할 수 있게 합니다. 테스트 결과, 두 개의 동시 작업에서 벽시계 시간이 절반으로 감소했으며, 성능 저하 없이 8개 이상까지 효율적으로 확장되었습니다.

기업 채택을 위한 로드맵

Trajectory.ai는 제품을 다음 세 단계로 발전시키고 있습니다:

모델 최적화 (현재): 잡음이 많은 생산 신호를 받아 더 나은 모델을 훈련시키는 핵심 역량에 집중합니다.
고객 제어: 제품 관리자가 에이전트의 실패 지점을 식별하고 직접 모델 업데이트를 트리거할 수 있도록 관측 도구와 추상화 레이어를 구축합니다.
Fortune 500 통합: AI‑네이티브 스타트업을 넘어 대규모 기업으로 확장합니다. 목표는 Walmart와 같은 거대 조직 내 수동 프로세스를 관찰하고, 해당 워크플로우를 자동화하는 에이전트와 모델을 동적으로 구축하는 시스템을 만드는 것입니다.

모델 가중치를 넘어 장기 비전은 모델이 작동하는 ‘하네스’(프레임워크)를 최적화하고, 스킬을 향상시키며, 메모리 레이어를 강화해 완전한 지속 학습 솔루션을 구현하는 것입니다.

요약: Ronak Malde, Trajectory.ai CEO는 정적 AI 모델을 넘어 실제 사용자 신호와 셀프‑디스틸레이션을 활용해 법률·금융 등 전문 분야에서 지속적으로 개선되는 살아있는 시스템으로 전환하는 전략을 논의했습니다.

제목: Trajectory.ai와 기업 AI에서 지속 학습의 미래

Trajectory.ai와 기업 AI에서 지속 학습의 미래

Trajectory.ai와 기업 AI에서 지속 학습의 미래

정적 모델에서 살아있는 시스템으로의 전환

지속 학습을 위한 Trajectory.ai 플랫폼

주요 플랫폼 기능

모델 훈련의 기술 혁신

스케일링 셀프-디스틸레이션 정책 최적화 (SDPO)

Continuous LoRA 및 훈련 인프라

기업 채택을 위한 로드맵

Sources