IBM Granite Speech 4.1 发布:高吞吐量 ASR 模型

IBM Granite Speech 4.1 发布:高吞吐量 ASR 模型

IBM 已发布 Granite Speech 4.1,这是一套面向边缘部署的三款 2B 参数自动语音识别(ASR)模型。开发者可以根据具体的性能瓶颈——无论是原始准确率、需要说话人归属,还是极端处理吞吐量——选择相应的变体。

Granite Speech 4.1 2B:高准确率的主力模型

Granite Speech 4.1 2B 是基础模型,当前在 Hugging Face 的 Open ASR 排行榜上以 5.33% 的词错误率(WER)领先。该平均 WER 被视为比 LibriSpeech 等基准更可靠的真实场景性能指标。

关键性能与特性

  • 处理速度: 模型实现约 231 的实时因子(RTFX),即一秒计算可处理近四分钟音频。这意味着一小时音频可在约 16 秒内转录完成。
  • 多语言支持: 支持七种语言的转录:英语、法语、德语、西班牙语、葡萄牙语和日语。
  • 翻译: 提供英语与其他支持语言之间的双向语音翻译。
  • 关键词偏置: 用户可在提示中传入姓名、缩写或技术术语列表,以加权模型正确识别领域特定内容。
  • 架构: 使用标准自回归架构。

Granite Speech 4.1 2B Plus:说话人分段与时间戳

Plus 变体针对结构化转录进行了优化,在需要明确谁在何时发言的场景(如播客或会议录音)中尤为关键。

专业能力

  • 说话人归属 ASR(分段): 模型提供说话人标签(例如 “Speaker 1”、"Speaker 2"),使用户能够将文本归属到具体个人。
  • 词级时间戳: 每个词都标记有结束时间。官方声称其时间戳精度优于许多现有模型,包括 Whisper 的专用版本。
  • 增量解码: 模型支持将先前转录的文本作为前缀传入。这在将长音频切分为块处理时尤为有用,可确保说话人编号和内容在各段之间保持一致。

权衡

为实现这些功能,Plus 模型做出以下让步:

  • 语言支持: 缩减至五种语言(不再支持日语)。
  • 功能性: 移除翻译能力。
  • 准确率: 词错误率略高于基础 2B 模型。

Granite Speech 4.1 2B NAR:极致吞吐量

Granite Speech 4.1 2B NAR 是一种非自回归(NAR)模型,旨在实现最大吞吐量,能够在极短时间内处理海量音频。

非自回归 LLM‑based 编辑(NLE)

不同于逐 token 生成的标准自回归模型,NAR 模型采用称为非自回归 LLM‑based 编辑(NLE)的技术。该过程分两步进行:

  1. 草稿生成: 冻结的、低成本 CTC 编码器对音频进行处理,生成草稿转录。
  2. 编辑: 模型利用双向注意力对草稿进行复制、插入、删除或替换,从而在准确率上优于传统的一次性并行预测。

性能与权衡

  • 吞吐量: 在使用批处理的 H100 GPU 上,模型声称实时因子为 1,820,能够在约两秒内转录完一小时音频。
  • 局限性: NAR 模型不支持翻译、关键词偏置、说话人归属或词级时间戳。

部署与实现

所有 Granite Speech 4.1 模型体积足够小,可在多种 GPU 上运行,尽管 NAR 模型通常需要 Flash Attention 以获得最佳性能。实现方式通过 Hugging Face Transformers 库的 AutoProcessor 完成。

微调与定制

IBM 提供了微调笔记本,用户可利用现有转录数据对模型进行特定声音、口音或高度专业化领域(如法庭记录)的适配训练。

摘要: IBM 已发布 Granite Speech 4.1,这是一套面向边缘部署的三款 2B 参数 ASR 模型,提供针对准确率、说话人分段和极致吞吐量的专门变体。

标题: IBM Granite Speech 4.1 发布:高吞吐量 ASR 模型

Sources