NVIDIA Nemotron 3.5 ASR 版本說明
NVIDIA Nemotron 3.5 ASR 版本說明
概觀
NVIDIA Nemotron 3.5 ASR 是一款 6 億參數的串流自動語音辨識(ASR)模型,旨在以自行託管的解決方案取代整套語音轉文字系統。此模型由 NVIDIA NeMo 語音團隊開發,支援單一 checkpoint 即可轉錄 40 種語言,並針對低延遲至關重要的即時串流使用情境進行了特別優化。
具快取感知的串流以降低延遲
Nemotron 3.5 ASR 採用「具快取感知的串流」技術,消除傳統緩衝串流中出現的計算冗餘。
重疊區塊的問題
傳統的非串流編碼器會以重疊區塊的方式處理即時音訊。這需要系統先轉錄一段音訊視窗,然後將視窗向前滑動,對重疊的部分再次轉錄。此類重複處理會提升計算成本,並為轉錄帶來顯著的延遲。
快取感知的解決方案
具快取感知的串流運作方式類似於 LLM 解碼時的 KV 快取。模型不會重新處理重疊區塊,而是快取編碼器的自注意力與激活狀態,隨著新音訊的到來重複使用這些快取。模型會對快取的表示進行注意,而不是從原始音訊重新計算,NVIDIA 表示此方式在 H100 GPU 上可提升效能至 17 倍。
執行時設定與語言支援
延遲與準確度的取捨
使用者可在執行時調整注意力上下文大小(區塊大小),以在延遲與準確度之間取得平衡,無需重新訓練模型。可選的區塊大小包括:
- 80 毫秒
- 160 毫秒
- 320 毫秒
- 560 毫秒
- 稍超過 1 秒
較小的區塊(例如 80 ms)可提供更快的逐字回應,而較大的區塊(例如 1 s)則會一次轉錄完整片語,且可能提升準確度。
多語言能力
模型的語言支援依生產就緒程度分層:
- 即插即用: 19 種語言可完美運作,並支援可選的自動偵測。
- 生產等級: 另有 13 種語言受到支援。
- 適應階段: 8 種語言(如泰語)已完成預訓練,但需進行微調才能在正式生產環境中使用。
用於領域特定準確度的詞彙提升
詞彙提升是一種解碼時技術,用於改善罕見詞彙的轉錄,例如產品名稱、藥品名稱、姓氏或技術術語,這些詞彙在訓練資料中可能不常見。
詞彙提升的運作方式
與微調不同,詞彙提升不需要改變權重或重新訓練。它使用提升樹來產生並評分候選詞。使用者提供一份特定詞彙或片語的清單,並指定相對的「強度」值,系統會在音訊與目標片語相近時,對這些 token 的分數加入正向偏置。如此可提升模型預測正確專業術語的機率,減少被發音相似的常見詞取代的情況。
語者分割與歸屬
Nemotron 3.5 ASR 可整合至語者分割流程,提供語者層級的歸屬資訊。這可透過 NeMo 框架或外部模型實現。
主要功能包括:
- 語者分段: 將錄音中的不同說話者切分並回傳(適合 Podcast 等情境)。
- 嵌入捕捉: 捕捉已知語者的嵌入(例如使用者在錄音開始時說出自己的名字),以在整個文字稿中為該語者指派身份。