AI21 Maestro: 실제 에이전트에서 정확도, 비용 및 지연 시간 최적화

에이전트 최적화 트레이드오프

AI 에이전트를 최적화하는 과정은 정확도, 비용, 지연 시간이 끊임없이 긴장 관계에 있는 "악순환"을 동반합니다. 하나를 개선하면 다른 두 가지가 흔히 감소합니다. 전통적으로 개발자는 어떤 모델, 도구, 컴퓨팅 스케일링 전략을 사용할지 결정하기 위해 하드코딩된 휴리스틱에 의존해 왔으며, 이로 인해 세 차원 모두에서 효율성 누수가 발생합니다.

에이전트 성능을 위한 전략

에이전트 성능을 향상시키기 위한 최적화는 일반적으로 구성과 스케일링이라는 두 가지 주요 범주로 나뉩니다.

구성 최적화

구성은 에이전트의 하네스를 위한 올바른 구성 요소를 선택하는 것을 의미합니다. 여기에는 다음이 포함됩니다:

모델 선택: 특정 작업에 가장 적합한 성능을 보이는 다양한 LLM을 테스트합니다.
프롬프트 엔지니어링: 프롬프트를 수동으로 조정하거나 DSPy, GEAP와 같은 자동 프롬프트 최적화 도구를 사용합니다.
도구 통합: 에이전트에 제공되는 도구 조합을 선택하고 최적화합니다. 도구가 너무 많으면 성능이 저하되고, 너무 적으면 작업을 해결할 수 없게 됩니다.
가드레일: 실행 프로세스 주변에 체계적인 흐름과 안전 경계를 구현합니다.

추론 시점 컴퓨트 스케일링

스케일링을 통해 개발자는 런타임에 작업에 할당된 컴퓨트를 늘려 "더 많이 사용하면 더 많이 얻는다"는 효과를 얻을 수 있습니다.

수직 스케일링

수직 스케일링은 추론 깊이를 늘리는 데 초점을 맞춥니다. 여기에는 더 긴 추론 체인, ReAct 루프의 반복 횟수 증가, 혹은 하나의 LLM이 출력을 평가하고 다른 LLM이 이를 수정하는 비판‑수정 루프 구현이 포함됩니다.

수평 스케일링

수평 스케일링은 best-of-n 샘플링과 같은 기법을 통해 LLM의 확률적 특성을 활용합니다. 여러 병렬 샘플을 실행하고 LLM‑as‑a‑judge 또는 결정론적 함수(예: 코드 테스트 실행)를 사용해 결과를 순위 매김하면, 에이전트는 훨씬 높은 정확도를 달성할 수 있습니다.

예를 들어, BrowseComp Plus 벤치마크에서 성능이 낮은 모델인 Minimax를 8‑16개의 샘플로 실행하면, 고성능 모델인 GPT‑5를 한 번만 실행했을 때와 동등한 최첨단 정확도를 얻을 수 있으며, 병렬 실행 덕분에 지연 시간이 더 짧을 수도 있습니다.

파레토 프론티어와 앙상블 접근법

다양한 구성(모델 및 도구)을 비용/지연 시간과 정확도에 대해 플롯하면, 개발자는 파레토 프론티어—가성비가 가장 좋은 구성 집합—를 식별할 수 있습니다.

앙상블 접근법—다양한 모델 포트폴리오를 활용하는 방법—은 이 프론티어를 더욱 확장합니다. 서로 다른 모델은 종종 서로 다른 작업 부분집합을 해결하므로, 이를 결합하면 에이전트가 전체적인 정확도를 높이고, 더 작은 저비용 모델을 단순 작업에 사용함으로써 비용과 지연 시간을 줄일 수 있습니다.

AI21 Maestro: 자동 에이전트 최적화

수동 최적화는 비용이 많이 들고 비효율적이며 미래에 대비되지 못합니다. 모델 가격이 변하거나 새로운 모델이 출시되면 수개월에 걸친 수동 튜닝이 무용지물이 될 수 있습니다. AI21 Maestro는 다음과 같은 두 부분 시스템을 통해 이 과정을 자동화합니다:

1. 오프라인 빌드‑타임 최적화

Maestro는 행동 공간(모델, 에이전트, 도구)을 효율적으로 샘플링해 최적 포트폴리오를 찾습니다. 그런 다음 행동 모델을 학습시켜 특정 작업에 대해 정확도, 비용, 지연 시간을 예측하도록 합니다.

2. 예산 인식 런타임 오케스트레이션

추론 시, 행동 모델은 예산을 인식하는 런타임에 연결됩니다. 예측을 활용해 실행 경로를 동적으로 조정합니다. 고정된 하네스 대신, Maestro는 첫 단계에서 다섯 개의 서로 다른 모델을 실행하고, 결과와 남은 예산에 따라 두 번째 파동을 진행할지 여부를 결정하는 등 "비직관적인" 순서를 실행할 수 있습니다.

적용 사례 및 결과

Maestro는 여러 벤치마크와 어려운 과제에 적용되었습니다:

BrowseComp Plus: 수평 스케일링 및 앙상블 전략을 최적화해 최첨단 결과를 달성했습니다.
Deep Research Bench: 수직 스케일링(수정 루프)과 행동 모델을 활용해 다음 수정 사이클이 유익할 시점을 판단, 수익 감소를 방지했습니다.

이를 통해 anytime fashion generation이 가능해졌습니다. 에이전트는 현재 지연 시간이나 예산 제약에 따라 가능한 최고의 후보를 제공합니다. 작업이 간단하면 일찍 멈추고, 복잡하면 더 많은 컴퓨트를 투입합니다.

Maestro 접근법의 주요 장점

자동화: 수동 조정 및 비용이 많이 드는 롤아웃이 필요 없습니다.
효율성: 행동 공간의 관련 부분만 샘플링합니다.
가시성: 비용, 지연 시간, 정확도 간의 트레이드오프를 시각화하는 비주얼라이저를 제공해 개발자가 운영 포인트를 선택할 수 있게 합니다.
미래 대비: 새로운 모델이 출시되면 전체 라우터를 재학습하거나 새로운 모델을 증류할 필요 없이 해당 모델의 구성만 학습하면 됩니다.

AI21 Maestro: 실제 에이전트에서 정확도, 비용 및 지연 시간 최적화

AI21 Maestro: 실제 에이전트에서 정확도, 비용 및 지연 시간 최적화

에이전트 최적화 트레이드오프

에이전트 성능을 위한 전략

구성 최적화

추론 시점 컴퓨트 스케일링

수직 스케일링

수평 스케일링

파레토 프론티어와 앙상블 접근법

AI21 Maestro: 자동 에이전트 최적화

1. 오프라인 빌드‑타임 최적화

2. 예산 인식 런타임 오케스트레이션

적용 사례 및 결과

Maestro 접근법의 주요 장점

Sources