IBM Granite Speech 4.1 版本發布:高吞吐量 ASR 模型

IBM Granite Speech 4.1 版本發布:高吞吐量 ASR 模型

IBM 已發布 Granite Speech 4.1,這是一套包含三個 2B 參數的自動語音辨識 (ASR) 模型,專為邊緣部署而設計。這些模型讓開發者可以根據其特定的效能瓶頸選擇變體,無論是追求原始準確度、需要說話者歸屬,或是極致的處理吞吐量。

Granite Speech 4.1 2B:高準確度的主力模型

Granite Speech 4.1 2B 為基礎模型,並且目前在 Hugging Face 的 Open ASR 排行榜上以 5.33% 的字錯誤率 (WER) 領先。此平均 WER 被視為比 LibriSpeech 等基準更可靠的實際表現指標。

主要效能與特性

  • 處理速度: 模型達到約 231 的實時因子 (RTFX),意味著一秒的計算可處理近四分鐘的音訊。這使得一小時的音訊可在約 16 秒內完成轉錄。
  • 多語言支援: 支援七種語言的轉錄:英語、法語、德語、西班牙語、葡萄牙語與日語。
  • 翻譯: 提供英語與其他支援語言之間的雙向語音翻譯。
  • 關鍵字偏向: 使用者可在提示中傳入姓名、縮寫或技術術語清單,以加強模型正確辨識領域特定內容的能力。
  • 架構: 採用標準的自回歸架構。

Granite Speech 4.1 2B Plus:說話者分段與時間戳記

Plus 變體針對需要了解誰在何時說話的結構化稿本進行了最佳化,例如播客或會議錄音。

專屬功能

  • 說話者歸屬 ASR(分段): 模型提供說話者標籤(例如「Speaker 1」‧「Speaker 2」),讓使用者能將文字歸屬給特定個體。
  • 詞級時間戳記: 每個詞都會標註結束時間。據稱其時間戳記精度優於許多現有模型,包括 Whisper 的專門版本。
  • 增量解碼: 模型支援將先前已轉錄的文字作為前綴傳入。這對於被切割成多段的長音訊特別有用,可確保說話者編號與內容在各段之間保持一致。

權衡

為了啟用上述功能,Plus 模型作出以下妥協:

  • 語言支援: 減少至五種語言(不再支援日語)。
  • 功能性: 移除翻譯能力。
  • 準確度: 字錯誤率略高於基礎 2B 模型。

Granite Speech 4.1 2B NAR:極致吞吐量

Granite Speech 4.1 2B NAR 為非自回歸 (NAR) 模型,旨在達到最大吞吐量,能在極短時間內處理海量音訊。

非自回歸 LLM 基礎編輯 (NLE)

與逐字產生 token 的標準自回歸模型不同,NAR 模型使用稱為「非自回歸 LLM 基礎編輯 (NLE)」的技術。此流程分為兩步:

  1. 草稿生成: 以凍結且低成本的 CTC 編碼器對音訊進行處理,產生草稿稿本。
  2. 編輯: 模型利用雙向注意力對草稿進行複製、插入、刪除或取代等編輯,較傳統一次性平行預測提升了準確度。

效能與權衡

  • 吞吐量: 在使用 H100 GPU 並搭配批次處理時,模型宣稱實時因子為 1,820,讓一小時的音訊可在約兩秒內完成轉錄。
  • 限制: NAR 模型不支援翻譯、關鍵字偏向、說話者歸屬或詞級時間戳記。

部署與實作

所有 Granite Speech 4.1 模型皆足夠小巧,可在各種 GPU 上執行,雖然 NAR 模型通常需要 Flash Attention 以獲得最佳效能。實作透過 Hugging Face 的 Transformers 套件搭配 AutoProcessor 完成。

微調與客製化

IBM 提供筆記本以進行微調,使用者可透過既有稿本作為訓練資料,將模型調整至特定聲音、口音或高度專業領域(例如法庭稿本)。

Sources