Gemini Omni Flash API リリース

Googleは、開発者が高度なビデオ生成および編集機能をプログラムで利用できるようにするGemini Omni Flash APIをリリースしました。従来のビデオモデルとは異なり、Gemini Omni Flashは対話的な編集と高忠実度の世界シミュレーションに焦点を当てており、ショット間の整合性を維持しながらビデオの特定の要素を変更することを可能にします。

Gemini Omni Flashのコア機能

Gemini Omni Flashは、Veoのような他のモデルとは異なる4つの主要な技術的強みを持っています。

対話的なビデオ編集

対話的な編集により、シーンの他の部分を変更することなく、ビデオ内の特定の要素を修正することが可能になります。これには以下が含まれます：

キャラクターの入れ替え: 同じブロッキングと背景を維持しながら、被写体を変更すること（例：黒猫を茶トラの猫に変更する）。
リライティング（再照明）: シーンの時間帯や照明条件を変更すること。
属性の変更: 環境を維持しながら、衣服やキャラクターを変更すること（例：赤いドレスを着た女性に男性を入れ替える）。

マルチモーダル・リファレンス入力

このモデルは、複数の種類の入力を同時に使用してビデオ生成を条件付けすることができます：

Image-to-Video: 静止画を視覚的スタイルや被写体のリファレンスとして使用する。
Cross-Reference Integration: ビデオと、場所を示す新しい画像、および特定の被写体（例：特定のペット）を示す別の画像を組み合わせて、合成シーンを作成する。
Audio Translation: 安全性のためにディープフェイクのリップシンクは制限されていますが、モデルは話された音声を他の言語に翻訳することができます。

世界モデルとシミュレーション

Gemini Omni Flashは、現実世界の物理的特性をシミュレートして、信じがたいほどリアルな環境を作成しようと試みます。主な例として、雨や水たまりなどの環境効果の追加が挙げられます。モデルはキャラクターやオブジェクトの正確な反射を伴ってこれらをレンダリングし、光と表面の相互作用への理解を示しています。

テキストとロゴのレンダリングの統合

このモデルは、ビデオ内にテキストやブランドロゴを挿入し、追跡することができます。既存の看板を修正して特定の英語テキストを表示させたり、特定のブランド資産（例：Go Go Curryのロゴ）をシーンに統合したりすることができますが、トラッキングの精度やフォントの正確性は変動することがあります。

Interactions APIによる技術的実装

Gemini Omni Flashは、標準的なテキストチャットではなく、出力がビデオであるマルチターン・タスク向けに設計された新しい Interactions API を利用しています。

ビデオ生成モード

Text-to-Video: テキストプロンプトからビデオと音声を生成する。
Image-to-Video: リファレンス画像（NanoBananaなどのモデルで生成されたもの）とテキストプロンプトを使用して、シーンをアニメーション化する。
Multi-Reference Generation: 複数の画像（例：被写体とオブジェクト）をリファレンスとして渡し、最終的なビデオ出力をガイドする。

マルチターン編集ワークフロー

開発者は、インタラクションを繋ぎ合わせることで、ビデオを反復的に洗練させることができます：

初期生成: テキストまたは画像からベースとなるビデオを作成する。
編集プロンプト: 前回のインタラクションをコンテキストとして渡し、特定の詳細を変更するためのテキストプロンプトを提供（例：「猫をピューマの子猫に変更する」）。
スタイライゼーション: 既存のビデオにスタイル・リファレンス（例：水彩画）を適用し、動きを変化させずに視覚的な美学を変更する。

既存の映像の編集

このAPIは、アップロードされたビデオが10秒以内であれば、既存のビデオの編集をサポートしています。ユーザーは、リファレンスビデオとテキストプロンプトを使用して、特殊効果を追加したり、ナラティブを変化させたりすることができます（例：実写の録画の中で、コンピュータの画面から猫が這い出てくるアニメーションを追加する）。

現在の制限と制約

期間: ビデオ生成は現在、最大10秒に制限されています。
安全性に関する制限: Googleはディープフェイク作成に対する厳格なガードを実装しています。モデルは、提供された音声ファイルと提供された顔の画像に対してリップシンクを行いません。
一貫性: 強力な機能ですが、モデルは複雑なマルチターン・スタイルの転送中に、時折アーティファクト（ノイズ）が発生したり、混乱が生じる場合があります。

Gemini Omni Flash API リリース

Gemini Omni Flash API リリース

Gemini Omni Flashのコア機能

対話的なビデオ編集

マルチモーダル・リファレンス入力

世界モデルとシミュレーション

テキストとロゴのレンダリングの統合

Interactions APIによる技術的実装

ビデオ生成モード

マルチターン編集ワークフロー

既存の映像の編集

現在の制限と制約

Sources