超越提示词:原生交互模型的崛起

超越提示词:原生交互模型的崛起

多年来,人机交互的范式一直是“轮次”(turn)。用户提供一个提示词,模型进行处理,然后模型生成响应。即使在最先进的多模态系统中,这一过程通常也是由一系列独立的组件编排而成的——用于寻找句子结尾的语音活动检测(VAD)、语音转文本编码器、用于推理的大语言模型(LLM)以及用于语音回传的文本转语音解码器。

这种“脚手架”式的方法造成了协作瓶颈。它迫使人类去适应机器僵化的时序,阻碍了自然人类协作所特有的那种流畅、同步的信息交换。 Thinking Machines 通过引入 Interaction Models(交互模型)挑战了这一现状,这是一种研究预览版系统,旨在通过原生方式而非通过外部封装来处理交互性。

协作瓶颈

大多数前沿 AI 实验室都优先考虑自主性——即模型在无需人类干预的情况下完成长任务的能力。虽然这很有价值,但这种关注点往往忽略了专业工作的现实,即需求很少能在预先完全明确。高价值的输出通常源于澄清与反馈的协作循环。

如今的界面往往将人类排除在循环之外,因为它们缺乏实时交互的“带宽”。正如研究中所指出的,有效的沟通依赖于三大支柱:

  1. 共存性 (Copresence): 实时与相同的对象或数据进行交互。
  2. 同时性 (Contemporality): 在信息产生时即刻接收。
  3. 同步性 (Simultaneity): 同时产生和接收信息。

当 AI 被限制在单线程、基于轮次的体验中时,它会失去感知用户说话或行动细微差别的能力,从而有效地将高带宽的协作过程转变为类似于通过电子邮件解决复杂分歧的低带宽交换。

架构:时间对齐的微轮次

为了解决带宽问题,Thinking Machines 开发了一个能够在音频、视频和文本中进行连续循环感知的系统。其核心创新在于 Time-Aligned Micro-Turn(时间对齐的微轮次)。

模型不再等待完整的用户轮次,而是以 200ms 为一个块进行处理和生成。输入和输出 token 被视为连续流,交织进行处理和生成。这使得模型能够原生处理并发性:它可以在倾听的同时说话,在说话时对视觉线索做出反应,或者在检测到用户语音中的错误时进行插话。

双模型系统

为了在响应速度与深度智能之间取得平衡,该架构将工作负载分配给两个组件:

  • The Interaction Model: 一个实时系统,负责维持存在感、处理即时对话并管理多模态流。
  • The Background Model: 一个异步系统,负责持续推理、复杂的工具使用以及长程规划。

当任务需要更深层的思考时,交互模型会将上下文委托给后台模型。结果随后会流式传输回来,并由交互模型在自然的时刻将其编织进对话中,从而避免了当前 AI agent 常见的突发性上下文切换。

技术优化

实现这种级别的响应速度需要重大的工程变革:

  • Encoder-Free Early Fusion: 模型避免使用独立的编码器(如 Whisper),而是倾向于极简的预处理,使用 dMel 处理音频,使用 hMLP 处理图像 patch,并与 transformer 一起进行协同训练。
  • Inference Optimization: 为了避免频繁的小规模 prefill 开销,团队实现了“streaming sessions”,将块追加到 GPU 内存中的持久序列中,该功能已向 SGLang 上游提交。
  • Deterministic Kernels: 使用 batch-invariant kernels 确保训练器与采样器之间的位级对齐,这对于实时流式环境下的稳定性至关重要。

交互性的新维度

原生交互模型的能力超出了简单的聊天。由于模型是时间感知且多模态的,它可以执行基于轮次(turn-based)的系统无法完成的任务:

  • 时间感知: 模型可以追踪流逝的时间,使其能够充当呼吸教练(例如,“每 4 秒提醒我呼吸一次”)或为用户的活动计时。
  • 同步语音: 它可以在用户说话时提供实时翻译或纠正发音错误。
  • 视觉主动性: 不同于依赖音频线索的当前 API,这些模型可以根据视觉变化触发语音——例如在视频流中计数俯卧撑,或者在用户代码中出现 bug 的瞬间发出警报。

基准测试与性能

在测试中,TML-Interaction-Small 模型(一个拥有 12B 活跃参数的 276B MoE 模型)展示了交互质量的显著飞跃。在衡量中断和反馈(backchanneling)行为的 FD-bench V1.5 上,它在响应速度和质量方面都优于数个前沿模型。

至关重要的是,它代表了一个新的前沿,即高智能(指令遵循)与高交互性(低延迟和流畅的轮次切换)可以共存。以往的“实时”模型往往为了速度牺牲智能,而该架构在 Audio MultiChallenge 和 IFEval 等智能基准测试中保持了极具竞争力的性能。

前行之路

尽管取得了进展,团队也承认存在若干障碍。长会话会导致上下文迅速累积,需要更复杂的上下文管理。此外,体验高度依赖于网络可靠性;流中的任何延迟都可能降低交互的流畅感。

随着社区的反应,一些观察者指出,虽然演示(例如计数次数)可能看起来有些刻意,但底层的架构变革才是关键所在。通过将交互性引入模型本身,扩展模型规模和数据将自然使其成为一个更好的协作伙伴,而不仅仅是一个更聪明的计算器。正如一位社区成员所言:

"The architecture is a transformer that takes in text, image, and audio input and produces text and audio output, all trained together, and it works in near real-time through interleaving inputs and outputs rather than pure generation of the output from a given prompt."

通过将交互视为模型架构的一等公民,Thinking Machines 正在使 AI 趋向于人类实际工作的方式:不再是一系列提示词和响应,而是一种持续的、共享的体验。

Sources