TensorRT: NVIDIA GPU 上で AI モデルを加速するための高性能推論オプティマイザおよびランタイム

TensorRT: NVIDIA GPU 上で AI モデルを加速するための高性能推論オプティマイザおよびランタイム

何を解決するか

TensorRT は、AI 推論ワークフローを加速するように設計されており、NVIDIA GPU へのデプロイ用にディープラーニング モデルのパフォーマンスを最適化します。さまざまなフレームワークからモデルをインポートし、高効率な実行のために最適化するためのツールを提供します。

仕組み

TensorRT は、ONNX、Torch-TensorRT、HuggingFace/Optimum、および Network Definition API を含むいくつかのインポートパスを通じて AI モデルを最適化します。LLM、encoder-NLP、vision、audio、diffusion、および multimodal モデルを含む幅広いモデルタイプをサポートしています。このプロジェクトのオープンソースコンポーネントには、ONNX parser と TensorRT plugins が含まれており、開発者がプラットフォームの機能を拡張することを可能にします。

対象ユーザー

これは、x86_64 および aarch64 (Jetson/DriveOS) プラットフォームを含む NVIDIA ハードウェア上で高性能推論をデプロイする必要がある AI 開発者およびエンジニアを対象としています。

ハイライト

  • 幅広いインポートサポート: ONNX、Torch-TensorRT、および HuggingFace/Optimum と互換性があります。
  • 多様なモデル互換性: LLM、vision、audio、および multimodal モデルをサポートしています。
  • 柔軟なデプロイ: 簡単なインストール用の事前構築済み Python パッケージを提供し、さまざまな OS とハードウェアターゲットのための広範なビルドオプションを提供します。
  • 拡張性: モデルの実行をカスタマイズおよび最適化するために、オープンソースの plugins と ONNX parser を含んでいます。

Sources