NVIDIA Nemotron 3.5 ASR 发布说明

概述

NVIDIA Nemotron 3.5 ASR 是一个 6 亿参数的流式自动语音识别（ASR）模型，旨在以自托管的方式取代完整的语音转文字堆栈。该模型由 NVIDIA NeMo 语音团队开发，支持单个检查点对 40 种语言进行转录，并专门针对低延迟至关重要的实时流式使用场景进行优化。

Nemotron 3.5 ASR 使用“面向缓存的流式”技术，消除传统缓冲流式中的计算冗余。

传统的非流式编码器通过将实时音频分成重叠块来处理。这要求系统转录一个音频窗口，向前滑动窗口，并多次重新转录重叠部分。重复的处理会增加计算成本，并给转录带来显著的延迟。

面向缓存的流式工作方式类似于 LLM 解码中的 KV 缓存。模型不再重新处理重叠部分，而是缓存编码器的自注意力和激活状态，并在新音频到来时复用这些状态。模型关注缓存的表示，而不是从原始音频重新计算，NVIDIA 报告称这在 H100 GPU 上可提升性能至多 17 倍。

用户可以在运行时调整注意力上下文大小（块大小），在延迟和准确率之间取得平衡，而无需重新训练模型。可用的块大小包括：

较小的块（例如 80 ms）提供更快的逐词响应，而较大的块（例如 1 s）则会转录完整短语，可能拥有更高的准确率。

模型的语言支持按生产就绪程度分层：

词汇提升是一种解码时技术，用于改善罕见词汇的转录，如产品名称、药品名称、姓氏或技术术语，这些词在训练数据中可能并不常见。

与微调不同，词汇提升不需要权重更改或重新训练。它使用提升树来生成并为候选项打分。通过向模型提供特定词汇或短语的列表以及相应的“强度”值，系统会在音频接近目标短语时为这些 token 添加正向偏置，从而提高模型预测正确专业术语的概率，而不是预测听起来相似的更常见词。

Nemotron 3.5 ASR 可集成到分割流水线中，以提供说话人级别的归属。这可以通过 NeMo 框架或外部模型实现。

关键功能包括：