server: 여러 프레임워크와 하드웨어 플랫폼에 걸쳐 AI 모델 배포를 간소화하는 오픈 소스 추론 서버
server: 여러 프레임워크와 하드웨어 플랫폼에 걸쳐 AI 모델 배포를 간소화하는 오픈 소스 추론 서버
해결하는 문제
Triton Inference Server는 다양한 하드웨어 플랫폼(클라우드, 데이터 센터, 엣지 및 임베디드 장치)과 프레임워크에 걸쳐 모델을 서빙하는 표준화된 방법을 제공함으로써 AI 모델의 배포를 간소화합니다. 이를 통해 프로덕션 환경에서 사용되는 모든 서로 다른 모델 유형이나 프레임워크에 대해 맞춤형 서빙 인프라를 작성할 필요를 없애줍니다.
작동 방식
Triton은 여러 백엔드(TensorRT, PyTorch, ONNX, OpenVINO, Python 등)를 지원하는 서빙 레이어로 작동합니다. 사용자가 모델을 모델 저장소에 배치하고 최적화된 성능을을 위해 구성할 수 있도록 합니다. 클라이언트가 추론 요청을 보내고 응답을 받기 위해 HTTP/REST 및 gRPC 프로토콜을 제공하며, 프로세스 내 사용 사례를 위해 C 및 Java API를 통해 애플리케이션에 직접 연결될 수 있습니다.
대상 사용자
다양한 하드웨어(NVIDIA GPUs, x86/ARM CPUs, AWS Inferentia)와 여러 딥러닝 프레임워크를 지원하며, 대규모로 프로덕션급 AI 모델을 배포해야 하는 AI 팀과 개발자를 위해 설계되었습니다.
주요 특징
- Multi-framework support: TensorRT, PyTorch, ONNX, OpenVINO, Python, RAPIDS FIL 모델을 서빙합니다.
- Optimized performance: 처리량을 최대화하고 지연 시간을 최소화하기 위해 dynamic batching, sequence batching, concurrent model execution 기능을 제공합니다.
- Flexible deployment: 클라우드, 데이터 센터, 엣지 및 임베디드 장치를 지원합니다.
- Extensible architecture: 커스텀 백엔드 및 전/후 처리 작업을 추가하기 위한 Backend API를 제공합니다.
- Model pipelining: Ensembling 또는 Business Logic Scripting (BLS)을 사용하여 복잡한 워크플로우를 구현할 수 있습니다.
- Integrated metrics: GPU 사용률, 서버 처리량 및 지연 시간에 대한 내장된 메트릭을 제공합니다.
Sources
- undefinedtriton-inference-server/server