Gemini Omni Flash API 發佈

Gemini Omni Flash API 發佈

Google 已發佈 Gemini Omni Flash API，讓開發者能夠以程式化方式存取先進的影片生成與編輯功能。與傳統的影片模型不同，Gemini Omni Flash 專注於對話式編輯與高保真度的世界模擬，允許使用者在保持鏡頭一致性的同時，修改影片中的特定元素。

Gemini Omni Flash 的核心能力

Gemini Omni Flash 與 Veo 等其他模型相比，具有四項主要的技術優勢：

對話式影片編輯

對話式編輯允許在不改變場景其餘部分的情況下，修改影片中的特定元素。這包括：

角色替換： 在保持相同的動作佈局與背景的同時，更換主體（例如：將黑貓換成橘貓）。
重新打光： 改變場景的時間或光照條件。
屬性修改： 在保留環境的同時，更換服裝或角色（例如：將一名男子換成穿著紅裙的女子）。

多模態參考輸入

該模型可以同時根據多種類型的輸入來進行影片生成條件化：

圖生影片 (Image-to-Video)： 使用靜態圖像作為視覺風格或主體的參考。
跨參考整合： 將一段影片與一張用於地點的新圖像，以及另一張用於特定主體（例如：特定寵物）的圖像結合，以創建合成場景。
音訊翻譯： 雖然基於安全考量限制了深偽 (deep-fake) 唇形同步，但該模型可以將說話的音訊翻譯成其他語言。

世界模型與模擬

Gemini Omni Flash 試圖模擬現實世界的物理屬性，以創建可信的賴的環境。一個關鍵的例子是添加雨水與水窪等環境效果，模型會以角色與物體精確的反射來渲染這些效果，展現出對光線與表面交互作用的理解。

整合式文字與 Logo 渲染

該模型可以在影片中插入並追蹤文字或品牌 Logo。它可以修改現有的招牌以顯示特定的英文文字，或將特定的品牌資產（例如：Go Go Curry 的 Logo）整合到場景中，儘管追蹤的精確度與字體準確度可能會有所不同。

透過 Interactions API 進行技術實作

Gemini Omni Flash 使用全新的 Interactions API，專為多輪對話任務設計，其輸出為影片而非標準的文字聊天。

影片生成模式

文字生影片 (Text-to-Video)： 從文字提示詞生成影片與音訊。使用者可以指定長寬比（例如：16:9 或適合社群媒體的直向比例）與持續時間。
圖生影片 (Image-to-Video)： 使用參考圖像（透過 NanoBanana 等模型生成）與文字提示詞來驅動場景動畫化。
多重參考生成： 允許將多張圖像（例如：一個主體與一個物體）作為參考來引導最終的影片輸出。

多輪編輯工作流

開發者可以串聯多次互動來迭代地精煉影片：

初始生成： 從文字或圖像創建基礎影片。
編輯提示詞： 將前一次的互動作為上下文，並提供文字提示詞來更改特定細節（例如：「將貓變成幼年美洲獅」）。
風格化： 對現有影片應用風格參考（例如：水彩畫），以在不改變動作的情況下改變其視覺美學。

編輯現有素材

該 API 支持編輯上傳的影片，前提是影片長度為 10 秒或更短。使用者可以提供參考影片與文字提示詞來添加特效或改變敘事（例如：在真實世界的錄影中，讓一隻貓從電腦螢幕中爬出來）。

目前的限制與約束

持續時間： 影片生成目前上限為 10 秒。
安全限制： Google 已實施嚴格的防護措施以防止深偽 (deep-fake) 製作；模型不會將提供的音訊檔與提供的臉部圖像進行唇形同步。
一致性： 雖然功能強大，但模型在進行複雜的多輪風格遷移時，偶爾會產生偽影或出現混亂。

Sources

undefinedIntroducing the Gemini Omni Flash API