whisper.cpp:OpenAI Whisper 的高效能 C/C++ 離線裝置端語音辨識實作

whisper.cpp:OpenAI Whisper 的高效能 C/C++ 離線裝置端語音辨識實作

它解決了什麼問題

whisper.cpp 提供 OpenAI Whisper 自動語音辨識(ASR)模型的高效能、輕量化實作。它讓使用者能在完全離線且本機裝置上執行語音轉文字轉錄,免除繁重的相依套件或雲端 API 的需求。

工作原理

此專案以純 C/C++ 撰寫,並利用 ggml 機器學習函式庫進行推論。它支援多種硬體加速,以最大化速度,包括 Apple Silicon(透過 Metal 與 Core ML)、NVIDIA GPU(透過 CUDA)、AMD GPU(透過 ROCm)、Vulkan、OpenVINO,以及各種 CPU 內建指令集(AVX、NEON、VSX)。

適用對象

想在各種平台(包括 iOS、Android、Windows、Linux、macOS 與 WebAssembly)中整合高品質語音辨識,且不依賴外部伺服器的開發者與使用者。

重點特色

  • 零執行時記憶體配置:針對效能與速度進行最佳化。
  • 廣泛硬體支援:原生加速幾乎涵蓋所有主要 GPU 與 NPU 架構。
  • 整數量化:降低記憶體與磁碟佔用,適合較小裝置。
  • 跨平台:可在高階 GPU、Raspberry Pi 以及行動手機等各種設備上運行。
  • 即時能力:提供持續麥克風輸入轉錄的範例。

Sources