IBM Granite Speech 4.1 版本發布:高吞吐量 ASR 模型
IBM Granite Speech 4.1 版本發布:高吞吐量 ASR 模型
IBM 已發布 Granite Speech 4.1,這是一套包含三個 2B 參數的自動語音辨識 (ASR) 模型,專為邊緣部署而設計。這些模型讓開發者可以根據其特定的效能瓶頸選擇變體,無論是追求原始準確度、需要說話者歸屬,或是極致的處理吞吐量。
Granite Speech 4.1 2B:高準確度的主力模型
Granite Speech 4.1 2B 為基礎模型,並且目前在 Hugging Face 的 Open ASR 排行榜上以 5.33% 的字錯誤率 (WER) 領先。此平均 WER 被視為比 LibriSpeech 等基準更可靠的實際表現指標。
主要效能與特性
- 處理速度: 模型達到約 231 的實時因子 (RTFX),意味著一秒的計算可處理近四分鐘的音訊。這使得一小時的音訊可在約 16 秒內完成轉錄。
- 多語言支援: 支援七種語言的轉錄:英語、法語、德語、西班牙語、葡萄牙語與日語。
- 翻譯: 提供英語與其他支援語言之間的雙向語音翻譯。
- 關鍵字偏向: 使用者可在提示中傳入姓名、縮寫或技術術語清單,以加強模型正確辨識領域特定內容的能力。
- 架構: 採用標準的自回歸架構。
Granite Speech 4.1 2B Plus:說話者分段與時間戳記
Plus 變體針對需要了解誰在何時說話的結構化稿本進行了最佳化,例如播客或會議錄音。
專屬功能
- 說話者歸屬 ASR(分段): 模型提供說話者標籤(例如「Speaker 1」‧「Speaker 2」),讓使用者能將文字歸屬給特定個體。
- 詞級時間戳記: 每個詞都會標註結束時間。據稱其時間戳記精度優於許多現有模型,包括 Whisper 的專門版本。
- 增量解碼: 模型支援將先前已轉錄的文字作為前綴傳入。這對於被切割成多段的長音訊特別有用,可確保說話者編號與內容在各段之間保持一致。
權衡
為了啟用上述功能,Plus 模型作出以下妥協:
- 語言支援: 減少至五種語言(不再支援日語)。
- 功能性: 移除翻譯能力。
- 準確度: 字錯誤率略高於基礎 2B 模型。
Granite Speech 4.1 2B NAR:極致吞吐量
Granite Speech 4.1 2B NAR 為非自回歸 (NAR) 模型,旨在達到最大吞吐量,能在極短時間內處理海量音訊。
非自回歸 LLM 基礎編輯 (NLE)
與逐字產生 token 的標準自回歸模型不同,NAR 模型使用稱為「非自回歸 LLM 基礎編輯 (NLE)」的技術。此流程分為兩步:
- 草稿生成: 以凍結且低成本的 CTC 編碼器對音訊進行處理,產生草稿稿本。
- 編輯: 模型利用雙向注意力對草稿進行複製、插入、刪除或取代等編輯,較傳統一次性平行預測提升了準確度。
效能與權衡
- 吞吐量: 在使用 H100 GPU 並搭配批次處理時,模型宣稱實時因子為 1,820,讓一小時的音訊可在約兩秒內完成轉錄。
- 限制: NAR 模型不支援翻譯、關鍵字偏向、說話者歸屬或詞級時間戳記。
部署與實作
所有 Granite Speech 4.1 模型皆足夠小巧,可在各種 GPU 上執行,雖然 NAR 模型通常需要 Flash Attention 以獲得最佳效能。實作透過 Hugging Face 的 Transformers 套件搭配 AutoProcessor 完成。
微調與客製化
IBM 提供筆記本以進行微調,使用者可透過既有稿本作為訓練資料,將模型調整至特定聲音、口音或高度專業領域(例如法庭稿本)。
Sources
- undefinedGranite 4.1 - The Fastest ASR?