超越提示詞:原生互動模型的崛起
超越提示詞:原生互動模型的崛起
多年來,人機互動的範式一直是「輪次」(turn)。使用者提供一個提示詞,模型進行處理,然後模型生成回應。即使在最先進的多模態系統中,這個過程通常也是由多個獨立組件編排而成的序列——用於尋找句子結尾的語音活動檢測(VAD)、語音轉文字編碼器、用於推理的大語言模型(LLM),以及用於說話的回饋文字轉語音解碼器。
這種「腳手架」(scaffolding)方法造成了協作瓶頸。它迫使人類去適應機器僵化的時序,阻礙了自然人類協作所特有的流暢、同步的資訊交換。 Thinking Machines 正在透過引入 Interaction Models 來挑戰這一現狀,這是一種研究預覽系統,旨在以原生方式處理互動性,而非透過外部包裝器。
協作瓶頸
大多數前沿 AI 實驗室都優先考慮自主性——即模型在無需人類干預的情況下完成長任務的能力。雖然這很有價值,但這種關注點往往忽略了專業工作的現實,即需求很少在事前被完全明確化。高價值的輸出通常源於澄清與回饋的協作循環。
現今的介面往往將人類排除在循環之外,因為它們缺乏即時互動的「頻寬」。正如研究中所指出的,有效的溝通依賴於三大支柱:
- 共存性 (Copresence): 即時地與相同的對象或數據進行互動。
- 同時性 (Contemporality): 在資訊產生的同時接收資訊。
- 同步性 (Simultaneity): 同時產生與接收資訊。
當 AI 被限制在單執行緒、基於輪次的體驗中時,它會失去感知使用者說話或行動細微差別的能力,有效地將高頻寬的協作過程轉變為類似於透過電子郵件解決複雜分歧的低頻寬交換。
架構:時間對齊的微輪次
為了解决頻寬問題,Thinking Machines 開發了一套在音訊、影片和文字中進行連續循環感知與回應的系統。其核心創新是 Time-Aligned Micro-Turn。
模型不再等待完整的用戶輪次,而是以 200ms 的區塊進行處理與生成。輸入與輸出 token 被視為連續流,交錯進行處理與生成。這使得模型能夠原生處理並行性:它可以在聆聽時說話,在反應視覺線索時說話,或者在使用者說話時偵測到錯誤時插話。
雙模型系統
為了在反應能力與深度智能之間取得平衡,該架構將工作負載分配給兩個組件:
- The Interaction Model: 一個維持存在感、處理即時對話並管理多模態流的即時系統。
- The Background Model: 一個處理持續推理、複雜工具使用與長週期規劃的非同步系統。
當任務需要更深層的思考時,互動模型會將上下文傳遞給背景模型。結果隨後會串流回傳,並由互動模型在自然的時機點將其編織進對話中,從而避免了目前 AI 代理常見的突兀上下文切換。
技術優化
實現這種程度的反應能力需要重大的工程轉變:
- Encoder-Free Early Fusion: 模型避免使用獨立的編碼器(如 Whisper),而是傾向於極小化的預處理,使用 dMel 處理音訊,並使用 hMLP 處理圖像塊,並與 transformer 同時進行協同訓練。
- Inference Optimization: 為了避免頻繁小規模 prefill 的開銷,團隊實施了「串流會話」(streaming sessions),將區塊附加到 GPU 記憶體中的持久序列中,這項功能已向 SGLang 上游傳輸。
- Deterministic Kernels: 使用 batch-invariant kernels 確保訓練器與採樣器之間的位元對齊,這對於即時串流環境中的穩定性至關重要。
互動性的新維度
原生互動模型的技術能力超出了簡單的聊天。由於模型具備時間感知能力與多模態特性,它可以執行基於輪次的系統無法完成的任務:
- 時間感知: 模型可以追蹤經過的時間,使其能夠擔任呼吸教練(例如,「提醒我每 4 秒呼吸一次」)或為使用者的活動計時。
- 同時語音: 它可以在使用者說話時提供即時翻譯或糾正發音錯誤。
- 視覺主動性: 不同於目前依賴音訊線索的 API,這些模型可以根據視覺變化觸發說話——例如在影片串流中計算俯臥撑次數,或在使用者程式碼中出現錯誤的瞬間提醒使用者。
基準測試與性能
在測試中,TML-Interaction-Small 模型(一個具有 12B active parameters 的 276B MoE)展示了互動品質的顯著飛躍。在衡量中斷與回饋行為的 FD-bench V1.5 上,它在反應能力與品質方面都超越了數個前沿模型。
至關重要的是,它代表了一個新的前沿,即高智能(指令遵循)與高互動性(低延遲與流暢的輪次切換)可以共存。雖然之前的「即時」模型往往為了速度犧牲智能,但此架構在 Audio MultiChallenge 和 IFEval 等智能基準測試中仍保持了具備競爭力的性能。
未來的路徑
儘管取得了進展,團隊也承認存在若干障礙。長會話會導致上下文快速累積,需要更複雜的上下文管理。此外,體驗高度依賴於網路可靠性;串流中的任何延遲都可能降低互動的流暢感。
隨著社群的反應,一些觀察者指出,雖然演示(例如計算次數)可能看起來有些刻意,但底層架構的轉變才是關鍵。透過將互動性納入模型本身,擴大模型規模與數據量將自然使其成為更好的協作者,而不僅僅是一個更聰明的計算機。正如一位社群成員所言:
"The architecture is a transformer that takes in text, image, and audio input and produces text and audio output, all trained together, and it works in near real-time through interleaving inputs and outputs rather than pure generation of the output from a given prompt."
透過將互動視為模型架構的一等公民,Thinking Machines 正在使 AI 趨向於人類實際工作的方式:不再是一連串的提示詞與回應,而是一個持續、共享的體驗。