server: 複数のフレームワークとハードウェアプラットフォームにわたってAIモデルのデプロイを効率化するオープンソースの推論サーバー

server: 複数のフレームワークとハードウェアプラットフォームにわたってAIモデルのデプロイを効率化するオープンソースの推論サーバー

何を解決するか

Triton Inference Serverは、さまざまなハードウェアプラットフォーム(クラウド、データセンター、エッジ、および組み込みデバイス)とフレームワークにわたってモデルをサービングするための標準化された方法を提供することで、AIモデルのデプロイを効率化します。これにより、プロダクション環境で使用されるモデルタイプやフレームワークごとにカスタムのサービングインフラストラクチャを記述する必要がなくなります。

仕組み

Tritonは、複数のバックエンド(TensorRT、PyTorch、ONNX、OpenVINO、およびPythonなど)をサポートするサービングレイヤーとして機能します。ユーザーはモデルをモデルリポジトリに配置し、最適化されたパフォーマンスのために設定を行うことができます。クライアントが推論リクエストを送信してレスポンスを受け取るためのHTTP/RESTおよびgRPCプロトコルを提供し、CおよびJava APIを介してアプリケーションに直接リンクしてプロセス内でのユースケースに使用することもできます。

対象者

NVIDIA GPUs、x86/ARM CPUs、AWS Inferentiaなどの幅広いハードウェアと、複数のディープラーニングフレームワークをサポートし、プロダクショングレードのAIモデルを大規模にデプロイする必要があるAIチームおよび開発者向けに設計されています。

ハイライト

  • Multi-framework support: TensorRT、PyTorch、ONNX、OpenVINO、Python、およびRAPIDS FILのモデルをサービングします。
  • Optimized performance: スループットを最大化し、レイテンシを最小限に抑えるために、ダイナミックバッチング、シーケンスバッチング、および並列モデル実行を特徴としています。
  • Flexible deployment: クラウド、データセンター、エッジ、および組み込みデバイスをサポートします。
  • Extensible architecture: カスタムバックエンドや前処理/後処理操作を追加するためのBackend APIを提供します。
  • Model pipelining: EnsemblingまたはBusiness Logic Scripting (BLS)を使用して、複雑なワークフローを可能にします。
  • Integrated metrics: GPU使用率、サーバーのスループット、およびレイテンシのための組み込みメトリクスを提供します。

Sources