agents: 무엇인지, 어떤 문제를 해결하는지 & 왜 인기를 얻고 있는지

해결하는 문제

LiveKit Agents는 음성, 텍스트, 시각을 통해 사용자와 상호작용할 수 있는 실시간 프로그래밍 가능한 AI 참가자를 구축하기 위한 프레임워크를 제공합니다. 이는 실시간으로 보고, 듣고, 이해할 수 있는 멀티모달 에이전트를 생성하는 프로세스를 단순화하며, 저지연 통신에 필요한 복잡한 인프라를 처리합니다.

작동 방식

이 프레임워크를 통해 개발자는 특정 지침과 도구를 가진 Agent를 정의하고 AgentSession을 통해 이를 관리할 수 있습니다. AgentServer를 사용하여 작업 스케줄링을 조정하고 사용자 세션을 위한 에이전트를 실행합니다. 개발자는 다양한 Speech-to-Text (STT), Large Language Models (LLM), 및 Text-to-Speech (TTS) 제공업체(예: OpenAI, Deepgram, Cartesia)를 혼합하여 사용하거나 통합 추론 API를 사용할 수 있습니다. WebRTC를 통한 저지연 미디어 전송을 위해 통합되며, 전화 통화 상호작용을 위한 전화 기술(SIP)을 지원합니다.

대상 사용자

음성 비서, 자동 고객 서비스 에이전트, 대화형 AI 아바타와 같은 대화형 AI 애플리케이션을 구축하는 개발자를 위해 설계되었습니다.

주요 특징

멀티모달 기능: 음성, 텍스트, 시각 지원 (예: Gemini Live vision).
유연한 통합: STT, LLM, 및 TTS 제공업체를 쉽게 교체할 수 있습니다.
의미론적 발화 종료 감지 (Semantic Turn Detection): 트랜스포머 모델을 사용하여 사용자가 말을 마친 시점을 감지하여 중단을 줄입니다.
MCP 지원: Model Context Protocol (MCP) 서버와 네이티브하게 통합되어 최소한의 코드로 도구를 추가할 수 있습니다.
전화 기술 통합: SIP를 통해 전화를 걸거나 받을 수 있습니다.
내장된 테스트: 비결정론적 LLM 동작을 검증하기 위한 "judges"가 포함된 테스트 프레임워크를 제공합니다.

agents: 무엇인지, 어떤 문제를 해결하는지 & 왜 인기를 얻고 있는지

agents: 무엇인지, 어떤 문제를 해결하는지 & 왜 인기를 얻고 있는지

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources