Gemini Omni Flash API 发布

Gemini Omni Flash API 发布

Google 发布了 Gemini Omni Flash API，使开发者能够通过编程方式访问先进的视频生成和编辑功能。与传统的视频模型不同，Gemini Omni Flash 专注于对话式编辑和高保真世界模拟，允许用户在保持镜头一致性的同时修改视频中的特定元素。

Gemini Omni Flash 的核心能力

Gemini Omni Flash 通过四个主要的技术优势，使其区别于 Veo 等其他模型：

对话式视频编辑

对话式编辑允许在不改变场景其余部分的情况下修改视频内的特定元素。这包括：

角色替换： 在保持相同的调度和背景的同时，更改主体（例如，将黑猫改为橘猫）。
重打光： 改变场景中的一天中的时间或光照条件。
属性修改： 在保留环境的同时，更改服装或角色（例如，将一名男子替换为穿着红裙子的女性）。

多模态参考输入

该模型可以同时根据多种类型的输入来约束视频生成：

图生视频 (Image-to-Video)： 使用静态图像作为视觉风格或主体的参考。
跨参考集成： 将一段视频与一张用于位置的新图像以及另一张用于特定主体（例如，特定的宠物）的图像相结合，以创建一个合成场景。
音频翻译： 虽然出于安全考虑限制了深度伪造 (deep-fake) 的唇形同步，但该模型可以将口语音频翻译成其他语言。

世界模型与模拟

Gemini Omni Flash 试图模拟现实世界的物理属性，以创建可信的环境。一个关键的例子是添加雨水和水洼等环境效果，模型可以渲染出角色和物体准确的反射，展示了对光线和表面交互的理解。

集成的文本与 Logo 渲染

该模型可以在视频中插入并追踪文本或品牌 Logo。它可以修改现有的标志以显示特定的英文文本，或将特定的品牌资产（例如 Go Go Curry 的 Logo）集成到场景中，尽管追踪的精度和字体的准确性可能会有所不同。

通过 Interactions API 进行技术实现

Gemini Omni Flash 利用了全新的 Interactions API，专为输出为视频而非标准文本聊天的多轮任务而设计。

视频生成模式

文本生视频 (Text-to-Video)： 根据文本提示词生成视频和音频。用户可以指定长宽比（例如 16:9 或适用于社交媒体的纵向比例）和时长。
图生视频 (Image-to-Video)： 使用参考图像（通过 NanoBanana 等模型生成）和文本提示词来使场景动起来。
多参考生成： 允许将多张图像（例如一个主体和一个物体）作为参考，以引导最终的视频输出。

多轮编辑工作流

开发者可以将多次交互串联起来，迭代地优化视频：

初始生成： 从文本或图像创建基础视频。
编辑提示词： 将之前的交互作为上下文，并提供文本提示词来更改特定细节（例如，“将猫变成美洲狮幼崽”）。
风格化： 对现有视频应用风格参考（例如，水彩画），在不改变动作的情况下改变其视觉美学。

当前的局限性与约束

时长： 视频生成目前上限为 10 秒。
安全限制： Google 已实施严格的防护措施以防止深度伪造 (deep-fake) 的创建；模型不会将提供的音频文件与提供的面部图像进行唇形同步。
一致性： 虽然功能强大，但模型在进行复杂的、多轮的风格迁移时，偶尔可能会产生伪影或出现混乱。

Sources

undefinedIntroducing the Gemini Omni Flash API