sherpa-onnx: 多様なハードウェアと言語にわたって音声認識と合成をサポートする、非常にポータブルなローカル・オーディオAIフレームワーク
sherpa-onnx: 多様なハードウェアと言語にわたって音声認識と合成をサポートする、非常にポータブルなローカル・オーディオAIフレームワーク
何を解決するか
Sherpa-onnxは、さまざまな音声およびオーディオ処理タスクをローカルで実行するための、非常にポータブルで効率的な方法を提供します。音声からテキストへの変換(speech-to-text)やテキストから音声への変換(text-to-speech)などのAI駆動のオーディオ機能を、広範なハードウェアプラットフォームやプログラミング言語にわたって展開できるようにすることで、複雑なクラウド依存関係の必要性を排除します。
仕組み
このプロジェクトは、ONNX Runtimeを活用して、デバイス上で事前学習済みモデルをローカルに実行します。複数のプログラミング言語に対して統一されたAPIセットを提供することで、開発者が機械学習フレームワークの低レベルの詳細を管理することなく、アプリケーションに音声機能を統合できるようにします。
対象者
プライバシーやパフォーマンスのためにローカルでのオフライン処理を必要とする、モバイル(Android, iOS)、デスクトップ(Windows, macOS, Linux)、組み込みシステム(Raspberry Pi, Jetson, RISC-V)、およびウェブブラウザ(WebAssembly)向けのオーディオ対応アプリケーションを構築している開発者。
ハイライト
- 包括的なオーディオスイート: 音声認識(ASR)、音声合成(TTS)、話者ダイアリゼーション、話者識別、検証、オーディオタギング、音声活動検知(VAD)、音声強調、および音源分離をサポート。
- 極めて高いポータビリティ: 幅広いアーキテクチャ(x64, x86, ARM, RISC-V)および、HarmonyOSやopenKylinを含むオペレーティングシステムと互換性があります。
- 幅広い言語サポート: C++, C, Python, Go, C#, Java, Kotlin, JavaScript, Swift, Rust, Dart, および Object Pascal 用のAPIを提供。
- ハードウェアアクセラレーション: 最適化されたパフォーマンスのために、さまざまなNPU(Rockchip, Qualcomm, Ascend, Axera)およびNVIDIA Jetson GPUをサポート。
Sources
- undefinedk2-fsa/sherpa-onnx