プロンプトを超えて:ネイティブ・インタラクション・モデルの台頭
プロンプトを超えて:ネイティブ・インタラクション・モデルの台頭
長年、人間とAIのインタラクションのパラダイムは「ターン(発話の区切り)」でした。ユーザーがプロンプトを提供し、モデルがそれを処理し、モデルが応答を生成します。最も高度なマルチモーダル・システムにおいてさえ、このプロセスは、文の終わりを見つけるための voice activity detection (VAD)、speech-to-text エンコーダー、推論のための large language model (LLM)、そして話し戻すための text-to-speech デコーダーといった、個別のコンポーネントが振り付けられたようなシーケンスであることが多いのです。
この「足場かけ(scaffolding)」アプローチは、コラボレーションのボトルネックを生み出します。それは人間に、機械の硬直したタイミングへの適応を強いて、自然な人間のコラボレーションを特徴づける流動的で同時的な情報のやり取りを妨げてしまいます。Thinking Machinesは、外部のラッパーを介さず、インタラクティビティをネイティブに処理するシステムの研究プレビューであるInteraction Modelsを導入することで、この現状に挑戦しています。
コラボレーションのボトルネック
多くの最先端 AI ラボは、自律性(モデルが人間の介入なしに長いタスクを完了する能力)を優先してきました。これは価値のあることですが、この焦点は、要件が事前に完全に指定されることが稀な専門的な仕事の現実を無視しがちです。価値の高いアウトプットは、通常、明確化とフィードバックのコラボレーション・ループから生まれます。
今日のインターフェースは、リアルタイムのインタラクションのための「帯域幅」が不足しているため、しばしば人間をループから外してしまいます。研究で指摘されているように、効果的なコミュニケーションは、3つの柱に依存しています:
- Copresence(共在性): リアルタイムで同じオブジェクトやデータとやり取りすること。
- Contemporality(同時性): 情報が生成されるのと同時に受け取ること。
- Simultaneity(同時性): 情報の生成と受信を同時に行うこと。
AIがシングルスレッドのターン制体験に制限されると、ユーザーがどのように話したり行動したりするかというニュアンスを感知する能力を失い、高帯域幅のコラボレーション・プロセスを、メールで複雑な意見の相違を解決しようとするような低帯域幅のやり取りへと実質的に変えてしまいます。
アーキテクチャ:時間整合型マイクロ・ターン
帯域幅の問題を解決するために、Thinking Machinesは、オーディオ、ビデオ、テキストのすべてにおいて連続的なループで感知し、応答するシステムを開発しました。核心となる革新は、Time-Aligned Micro-Turnです。
ユーザーの完全なターンを待つ代わりに、モデルは200msのチャンクで処理と生成を行います。入力と出力のトークンは連続的なストリームとして扱われ、処理と生成がインターリーブ(交互に配置)されます。これにより、モデルは並行性をネイティブに扱うことができます。つまり、聞きながら話すことができ、視覚的な合図に反応しながら話したり、ユーザーの音声における間違いを検知した瞬間に口を挟むことができます。
デュアル・モデル・システム
応答性と深い知能のバランスを取るために、このアーキテクチャはワークロードを2つのコンポーネントに分割します:
- The Interaction Model: プレゼンスを維持し、即座の対話を行い、マルチモーダル・ストリームを管理するリアルタイム・システム。
- The Background Model: 持続的な推論、複雑なツールの使用、および長期的な計画を扱う非同期システム。
タスクがより深い思考を必要とする場合、インタラクション・モデルはコンテキストをバックグラウンド・モデルに委任します。その結果はストリームとして戻り、インタラクション・モデルによって自然なタイミングで会話に織り込まれます。これにより、現在のAIエージェントに共通する唐突なコンテキスト・スイッチを避けるけることができます。
技術的最適化
このレベルの応答性を実現するには、大幅なエンジニアリングの転換が必要でした:
- Encoder-Free Early Fusion: モデルは、単独のエンコーダー(Whisper など)を避け、最小限の前処理を好んで、オーディオには dMel を、画像パッチには hMLP を使用し、これらを transformer と共に共同訓練しています。
- Inference Optimization: 頻繁で小さな prefill のオーバーヘッドを避けるため、チームは、GPU メモリ内の永続的なシーケンスにチャンクを追記していく「streaming sessions」を実装しました。これは、彼らが SGLang へアップストリームしました。
- Deterministic Kernels: バッチ不変(batch-invariant)なカーネルの使用は、トレーナーとサンプラーの間のビット単位の整合性を保証し、これはリアルタイム、ストリーミング環境における安定性に不可欠です。
インタラクティビティの新しい次元
ネイティブ・インタラクション・モデルの能力は、単純なチャットを超えて広がります。モデルが時間認識能力を持ち、マルチモーダルであるため、ターン制システムでは不可能なタスクを実行できます:
Time Awareness(時間認識): モデルは経過時間を追跡できるため、呼吸のコーチング(例:「4秒ごとに呼吸することを忘れないで」)や、ユーザーの活動の時間を計るなどの役割をうてれます。
Simultaneous Speech(同時発話): ユーザーが話している最中に、ライブ翻訳や誤った発音の修正をリアルタイムで行うことができます。
Visual Proactivity(視覚的能動性): オーディオの合図に依存する現在の API とは異なり、これらのモデルは、ビデオストリームで腕立て伏せの回数を数えたり、コードにバグが瞬時にあらわれるとユーザーに警告したりするなど、視覚的な変化に基づいて発話を開始することができます。
ベンチマークとパフォーマンス
テストにおいて、TML-Interaction-Small モデル(12B active parameters を持つ 276B MoE)は、インタラクションの質において大きな飛躍を示しました。中断やバックチャネル(相槌)の挙動を測定する FD-bench V1.5 において、応答性と品質の両面で、いくつかの最先端モデルを凌駕しました。
決定的なことは、これが、高い知能(指示への追従性)と高いインタラクティビティ(低レイテンシと流動的なターン・テイキング)が共存する新しいフロンティアを象徴していることです。従来の「リアルタイム」モデルは、しばしば速度のために知能を犠牲にしてきましたが、このアーキテクチャは、Audio MultiChallenge や IFEval のような知能ベンチマークにおいて、競争力のあるパフォーマンスを維持しています。
前進への道
進歩はありますが、チームはいくつかの課題を認識しています。長いセッションは急速なコンテキストの蓄積を、必要とし、より洗練されたコンテキスト・マネジメントが必要です。さらに、体験はネットワークの信頼性に大きく依存しています。ストリームのレイテンシが少しでも発生すると、流動的なインタラクションの感覚が損なわれてしまいます。
コミュニティの反応として、一部の観察者は、回数を数えるといったデモモが contrived(作為的)であるように見えるかもしれないが、根本的なアーキテクチャのアーキテクチャの転換が重要であると指摘しています。モデルのサイズとデータのスキャリング-アップが、単なる賢い計算機ではなく、より良いコラボレーターとして機能させることになります。あるコミュニティ・メンバーが次のように述べています:
"The architecture is a transformer that takes in text, image, and audio input and produces text and audio output, all trained together, and it works in near real-time through interleaving inputs and outputs rather than pure generation of the output from a given prompt."
インタラクションをモデル・アーキテクチャの第一級市民として扱うことで、Thinking Machinesは、AIを人間が実際に働く方法に近づけています。それは、プロンプトと応答の連続ではなく、連続的で共有された体験としてです。
SUMMARY: Thinking Machines は、ターン制のインターフェースからネイティブなインタラクティビティへと移行し、リアルタイム、マルチモーダルなコラボレーションのために設計された新しいクラスの AI モデルを導入しています。
TITLE: プロンプトを超えて:ネイティブ・インタラクション・モデルの台頭