zml: AI 워크로드를 독점 하드웨어로부터 분리하는 프로덕션 추론 스택

zml: AI 워크로드를 독점 하드웨어로부터 분리하는 프로덕션 추론 스택

해결하는 문제

ZML은 AI 워크로드를 독점 하드웨어로부터 분리하도록 설계된 프로덕션 추론 스택입니다. 개발자는 각 특정 플랫폼에 맞춰 코드베이스를 다시 작성할 필요 없이 다양한 하드웨어 가속기를 통해 모델을 실행할 수 있습니다.

작동 방식

Zig 언어, MLIR, 그리고 Bazel을 사용하여 구축된 ZML은 모델을 여러 하드웨어 백엔드로 직접 컴파일합니다. NVIDIA CUDA, AMD ROCm, Intel OneAPI, Google TPU, 그리고 AWS Trainium/Inferentia 2를 포함한 광범위한 가속기를 지원하여, 선택한 모든 하드웨어에서 최적의 성능을 보장합니다.

대상 사용자

하드웨어 종속성을 피하고 멀티 플랫폼 배포를 위해 단일 코드베이스를 유지하고자 하는 프로덕션 AI 추론 시스템 구축 개발자 및 엔지니어를 대상으로 합니다.

주요 특징

  • 멀티 하드웨어 지원: NVIDIA, AMD, Intel, 그리고 TPU/Trainium 가속기에 대한 네이티브 컴파일 지원.
  • 통합 코드베이스: 하나의 코드베이스를 사용하여 다양한 하드웨어에서 모든 모델을 실행.
  • LLM 지원: Llama 3.1/3.2, Qwen 3.5, 및 LFM 2.5에 대한 즉각적인 지원.
  • 유연한 로딩: VFS 레이어를 통해 Hugging Face, S3, 또는 로컬 디렉토리에서 모델을 로드할 수 있는 기능.
  • 높은 성능: 최적의 실행 속도를 위해 하드웨어로 직접 컴파일됨.

Sources