IBM Granite Speech 4.1 发布：高吞吐量 ASR 模型

IBM 已发布 Granite Speech 4.1，这是一套面向边缘部署的三款 2B 参数自动语音识别（ASR）模型。开发者可以根据具体的性能瓶颈——无论是原始准确率、需要说话人归属，还是极端处理吞吐量——选择相应的变体。

Granite Speech 4.1 2B：高准确率的主力模型

Granite Speech 4.1 2B 是基础模型，当前在 Hugging Face 的 Open ASR 排行榜上以 5.33% 的词错误率（WER）领先。该平均 WER 被视为比 LibriSpeech 等基准更可靠的真实场景性能指标。

Plus 变体针对结构化转录进行了优化，在需要明确谁在何时发言的场景（如播客或会议录音）中尤为关键。

为实现这些功能，Plus 模型做出以下让步：

Granite Speech 4.1 2B NAR 是一种非自回归（NAR）模型，旨在实现最大吞吐量，能够在极短时间内处理海量音频。

不同于逐 token 生成的标准自回归模型，NAR 模型采用称为非自回归 LLM‑based 编辑（NLE）的技术。该过程分两步进行：

所有 Granite Speech 4.1 模型体积足够小，可在多种 GPU 上运行，尽管 NAR 模型通常需要 Flash Attention 以获得最佳性能。实现方式通过 Hugging Face Transformers 库的 AutoProcessor 完成。

IBM 提供了微调笔记本，用户可利用现有转录数据对模型进行特定声音、口音或高度专业化领域（如法庭记录）的适配训练。

摘要： IBM 已发布 Granite Speech 4.1，这是一套面向边缘部署的三款 2B 参数 ASR 模型，提供针对准确率、说话人分段和极致吞吐量的专门变体。

标题： IBM Granite Speech 4.1 发布：高吞吐量 ASR 模型