sherpa-onnx:一個高度可移植的本地音訊 AI 框架,支援跨多種硬體與語言的語音辨識與合成
sherpa-onnx:一個高度可移植的本地音訊 AI 框架,支援跨多種硬體與語言的語音辨識與合成
它解決了什麼問題
Sherpa-onnx 提供一種高度可移植且高效的方式,在本地執行各種語音與音訊處理任務。它消除對複雜雲端依賴的需求,讓使用者能在廣泛的硬體平台與程式語言上部署 AI 驅動的音訊功能——例如語音轉文字與文字轉語音。
它如何運作
此專案利用 ONNX Runtime 在裝置上本地執行預訓練模型。它為多種程式語言提供統一的 API,讓開發者能將語音功能整合到應用程式中,而無需管理機器學習框架的底層細節。
目標對象
開發需要在行動裝置(Android、iOS)、桌面(Windows、macOS、Linux)、嵌入式系統(Raspberry Pi、Jetson、RISC‑V)以及網頁瀏覽器(WebAssembly)上建置音訊功能的開發者,且需要本地、離線處理以確保隱私或效能。
重點特色
- 完整的音訊套件:支援語音辨識(ASR)、語音合成(TTS)、說話者分割、說話者辨識、驗證、音訊標記、語音活動偵測(VAD)、語音增強與聲源分離。
- 極致可移植性:相容於多種架構(x64、x86、ARM、RISC‑V)與作業系統,包含 HarmonyOS 與 openKylin。
- 廣泛語言支援:提供 C++、C、Python、Go、C#、Java、Kotlin、JavaScript、Swift、Rust、Dart 與 Object Pascal 等 API。
- 硬體加速:支援多種 NPU(Rockchip、Qualcomm、Ascend、Axera)以及 NVIDIA Jetson GPU,以獲得最佳效能。
Sources
- undefinedk2-fsa/sherpa-onnx