sherpa-onnx: 多様なハードウェアと言語にわたって音声認識と合成をサポートする、非常にポータブルなローカル・オーディオAIフレームワーク

sherpa-onnx: 多様なハードウェアと言語にわたって音声認識と合成をサポートする、非常にポータブルなローカル・オーディオAIフレームワーク

何を解決するか

Sherpa-onnxは、さまざまな音声およびオーディオ処理タスクをローカルで実行するための、非常にポータブルで効率的な方法を提供します。音声からテキストへの変換(speech-to-text)やテキストから音声への変換(text-to-speech)などのAI駆動のオーディオ機能を、広範なハードウェアプラットフォームやプログラミング言語にわたって展開できるようにすることで、複雑なクラウド依存関係の必要性を排除します。

仕組み

このプロジェクトは、ONNX Runtimeを活用して、デバイス上で事前学習済みモデルをローカルに実行します。複数のプログラミング言語に対して統一されたAPIセットを提供することで、開発者が機械学習フレームワークの低レベルの詳細を管理することなく、アプリケーションに音声機能を統合できるようにします。

対象者

プライバシーやパフォーマンスのためにローカルでのオフライン処理を必要とする、モバイル(Android, iOS)、デスクトップ(Windows, macOS, Linux)、組み込みシステム(Raspberry Pi, Jetson, RISC-V)、およびウェブブラウザ(WebAssembly)向けのオーディオ対応アプリケーションを構築している開発者。

ハイライト

  • 包括的なオーディオスイート: 音声認識(ASR)、音声合成(TTS)、話者ダイアリゼーション、話者識別、検証、オーディオタギング、音声活動検知(VAD)、音声強調、および音源分離をサポート。
  • 極めて高いポータビリティ: 幅広いアーキテクチャ(x64, x86, ARM, RISC-V)および、HarmonyOSやopenKylinを含むオペレーティングシステムと互換性があります。
  • 幅広い言語サポート: C++, C, Python, Go, C#, Java, Kotlin, JavaScript, Swift, Rust, Dart, および Object Pascal 用のAPIを提供。
  • ハードウェアアクセラレーション: 最適化されたパフォーマンスのために、さまざまなNPU(Rockchip, Qualcomm, Ascend, Axera)およびNVIDIA Jetson GPUをサポート。

Sources