IBM Granite Speech 4.1 版本發布：高吞吐量 ASR 模型

IBM Granite Speech 4.1 版本發布：高吞吐量 ASR 模型

IBM 已發布 Granite Speech 4.1，這是一套包含三個 2B 參數的自動語音辨識 (ASR) 模型，專為邊緣部署而設計。這些模型讓開發者可以根據其特定的效能瓶頸選擇變體，無論是追求原始準確度、需要說話者歸屬，或是極致的處理吞吐量。

Granite Speech 4.1 2B：高準確度的主力模型

Granite Speech 4.1 2B 為基礎模型，並且目前在 Hugging Face 的 Open ASR 排行榜上以 5.33% 的字錯誤率 (WER) 領先。此平均 WER 被視為比 LibriSpeech 等基準更可靠的實際表現指標。

主要效能與特性

處理速度： 模型達到約 231 的實時因子 (RTFX)，意味著一秒的計算可處理近四分鐘的音訊。這使得一小時的音訊可在約 16 秒內完成轉錄。
多語言支援： 支援七種語言的轉錄：英語、法語、德語、西班牙語、葡萄牙語與日語。
翻譯： 提供英語與其他支援語言之間的雙向語音翻譯。
關鍵字偏向： 使用者可在提示中傳入姓名、縮寫或技術術語清單，以加強模型正確辨識領域特定內容的能力。
架構： 採用標準的自回歸架構。

Granite Speech 4.1 2B Plus：說話者分段與時間戳記

Plus 變體針對需要了解誰在何時說話的結構化稿本進行了最佳化，例如播客或會議錄音。

專屬功能

說話者歸屬 ASR（分段）： 模型提供說話者標籤（例如「Speaker 1」‧「Speaker 2」），讓使用者能將文字歸屬給特定個體。
詞級時間戳記： 每個詞都會標註結束時間。據稱其時間戳記精度優於許多現有模型，包括 Whisper 的專門版本。
增量解碼： 模型支援將先前已轉錄的文字作為前綴傳入。這對於被切割成多段的長音訊特別有用，可確保說話者編號與內容在各段之間保持一致。

權衡

為了啟用上述功能，Plus 模型作出以下妥協：

語言支援： 減少至五種語言（不再支援日語）。
功能性： 移除翻譯能力。
準確度： 字錯誤率略高於基礎 2B 模型。

Granite Speech 4.1 2B NAR：極致吞吐量

Granite Speech 4.1 2B NAR 為非自回歸 (NAR) 模型，旨在達到最大吞吐量，能在極短時間內處理海量音訊。

非自回歸 LLM 基礎編輯 (NLE)

與逐字產生 token 的標準自回歸模型不同，NAR 模型使用稱為「非自回歸 LLM 基礎編輯 (NLE)」的技術。此流程分為兩步：

草稿生成： 以凍結且低成本的 CTC 編碼器對音訊進行處理，產生草稿稿本。
編輯： 模型利用雙向注意力對草稿進行複製、插入、刪除或取代等編輯，較傳統一次性平行預測提升了準確度。

效能與權衡

吞吐量： 在使用 H100 GPU 並搭配批次處理時，模型宣稱實時因子為 1,820，讓一小時的音訊可在約兩秒內完成轉錄。
限制： NAR 模型不支援翻譯、關鍵字偏向、說話者歸屬或詞級時間戳記。

部署與實作

所有 Granite Speech 4.1 模型皆足夠小巧，可在各種 GPU 上執行，雖然 NAR 模型通常需要 Flash Attention 以獲得最佳效能。實作透過 Hugging Face 的 Transformers 套件搭配 AutoProcessor 完成。

微調與客製化

IBM 提供筆記本以進行微調，使用者可透過既有稿本作為訓練資料，將模型調整至特定聲音、口音或高度專業領域（例如法庭稿本）。

Sources

undefinedGranite 4.1 - The Fastest ASR?