NVIDIA Nemotron 3.5 ASR 版本說明

概觀

NVIDIA Nemotron 3.5 ASR 是一款 6 億參數的串流自動語音辨識（ASR）模型，旨在以自行託管的解決方案取代整套語音轉文字系統。此模型由 NVIDIA NeMo 語音團隊開發，支援單一 checkpoint 即可轉錄 40 種語言，並針對低延遲至關重要的即時串流使用情境進行了特別優化。

具快取感知的串流以降低延遲

Nemotron 3.5 ASR 採用「具快取感知的串流」技術，消除傳統緩衝串流中出現的計算冗餘。

重疊區塊的問題

傳統的非串流編碼器會以重疊區塊的方式處理即時音訊。這需要系統先轉錄一段音訊視窗，然後將視窗向前滑動，對重疊的部分再次轉錄。此類重複處理會提升計算成本，並為轉錄帶來顯著的延遲。

快取感知的解決方案

具快取感知的串流運作方式類似於 LLM 解碼時的 KV 快取。模型不會重新處理重疊區塊，而是快取編碼器的自注意力與激活狀態，隨著新音訊的到來重複使用這些快取。模型會對快取的表示進行注意，而不是從原始音訊重新計算，NVIDIA 表示此方式在 H100 GPU 上可提升效能至 17 倍。

執行時設定與語言支援

延遲與準確度的取捨

使用者可在執行時調整注意力上下文大小（區塊大小），以在延遲與準確度之間取得平衡，無需重新訓練模型。可選的區塊大小包括：

80 毫秒
160 毫秒
320 毫秒
560 毫秒
稍超過 1 秒

較小的區塊（例如 80 ms）可提供更快的逐字回應，而較大的區塊（例如 1 s）則會一次轉錄完整片語，且可能提升準確度。

多語言能力

模型的語言支援依生產就緒程度分層：

即插即用： 19 種語言可完美運作，並支援可選的自動偵測。
生產等級： 另有 13 種語言受到支援。
適應階段： 8 種語言（如泰語）已完成預訓練，但需進行微調才能在正式生產環境中使用。

用於領域特定準確度的詞彙提升

詞彙提升是一種解碼時技術，用於改善罕見詞彙的轉錄，例如產品名稱、藥品名稱、姓氏或技術術語，這些詞彙在訓練資料中可能不常見。

詞彙提升的運作方式

與微調不同，詞彙提升不需要改變權重或重新訓練。它使用提升樹來產生並評分候選詞。使用者提供一份特定詞彙或片語的清單，並指定相對的「強度」值，系統會在音訊與目標片語相近時，對這些 token 的分數加入正向偏置。如此可提升模型預測正確專業術語的機率，減少被發音相似的常見詞取代的情況。

語者分割與歸屬

Nemotron 3.5 ASR 可整合至語者分割流程，提供語者層級的歸屬資訊。這可透過 NeMo 框架或外部模型實現。

主要功能包括：

語者分段： 將錄音中的不同說話者切分並回傳（適合 Podcast 等情境）。
嵌入捕捉： 捕捉已知語者的嵌入（例如使用者在錄音開始時說出自己的名字），以在整個文字稿中為該語者指派身份。

NVIDIA Nemotron 3.5 ASR 版本說明

NVIDIA Nemotron 3.5 ASR 版本說明

概觀

具快取感知的串流以降低延遲

重疊區塊的問題

快取感知的解決方案

執行時設定與語言支援

延遲與準確度的取捨

多語言能力

用於領域特定準確度的詞彙提升

詞彙提升的運作方式

語者分割與歸屬

Sources