NVIDIA Nemotron 3.5 ASR 发布说明
NVIDIA Nemotron 3.5 ASR 发布说明
概述
NVIDIA Nemotron 3.5 ASR 是一个 6 亿参数的流式自动语音识别(ASR)模型,旨在以自托管的方式取代完整的语音转文字堆栈。该模型由 NVIDIA NeMo 语音团队开发,支持单个检查点对 40 种语言进行转录,并专门针对低延迟至关重要的实时流式使用场景进行优化。
面向缓存的流式以实现低延迟
Nemotron 3.5 ASR 使用“面向缓存的流式”技术,消除传统缓冲流式中的计算冗余。
重叠块的问题
传统的非流式编码器通过将实时音频分成重叠块来处理。这要求系统转录一个音频窗口,向前滑动窗口,并多次重新转录重叠部分。重复的处理会增加计算成本,并给转录带来显著的延迟。
面向缓存的解决方案
面向缓存的流式工作方式类似于 LLM 解码中的 KV 缓存。模型不再重新处理重叠部分,而是缓存编码器的自注意力和激活状态,并在新音频到来时复用这些状态。模型关注缓存的表示,而不是从原始音频重新计算,NVIDIA 报告称这在 H100 GPU 上可提升性能至多 17 倍。
运行时配置与语言支持
延迟与准确率的权衡
用户可以在运行时调整注意力上下文大小(块大小),在延迟和准确率之间取得平衡,而无需重新训练模型。可用的块大小包括:
- 80 毫秒
- 160 毫秒
- 320 毫秒
- 560 毫秒
- 略超过 1 秒
较小的块(例如 80 ms)提供更快的逐词响应,而较大的块(例如 1 s)则会转录完整短语,可能拥有更高的准确率。
多语言能力
模型的语言支持按生产就绪程度分层:
- 开箱即用: 19 种语言可完美工作,并支持可选的自动检测。
- 生产级: 额外支持 13 种语言。
- 适配: 8 种语言(如泰语)已预训练,但需要微调才能在正式生产中使用。
词汇提升以实现领域特定的准确性
词汇提升是一种解码时技术,用于改善罕见词汇的转录,如产品名称、药品名称、姓氏或技术术语,这些词在训练数据中可能并不常见。
词汇提升的工作原理
与微调不同,词汇提升不需要权重更改或重新训练。它使用提升树来生成并为候选项打分。通过向模型提供特定词汇或短语的列表以及相应的“强度”值,系统会在音频接近目标短语时为这些 token 添加正向偏置,从而提高模型预测正确专业术语的概率,而不是预测听起来相似的更常见词。
说话人分割与归属
Nemotron 3.5 ASR 可集成到分割流水线中,以提供说话人级别的归属。这可以通过 NeMo 框架或外部模型实现。
关键功能包括:
- 说话人分段: 将录音中的不同说话人分段并返回(适用于播客)。
- 嵌入捕获: 捕获已知说话人的嵌入(例如用户在录音开始时说出自己的名字),并在整个转录过程中将该身份分配给该说话人。