Gemini Omni Flash API 發佈

Gemini Omni Flash API 發佈

Google 已發佈 Gemini Omni Flash API,讓開發者能夠以程式化方式存取先進的影片生成與編輯功能。與傳統的影片模型不同,Gemini Omni Flash 專注於對話式編輯與高保真度的世界模擬,允許使用者在保持鏡頭一致性的同時,修改影片中的特定元素。

Gemini Omni Flash 的核心能力

Gemini Omni Flash 與 Veo 等其他模型相比,具有四項主要的技術優勢:

對話式影片編輯

對話式編輯允許在不改變場景其餘部分的情況下,修改影片中的特定元素。這包括:

  • 角色替換: 在保持相同的動作佈局與背景的同時,更換主體(例如:將黑貓換成橘貓)。
  • 重新打光: 改變場景的時間或光照條件。
  • 屬性修改: 在保留環境的同時,更換服裝或角色(例如:將一名男子換成穿著紅裙的女子)。

多模態參考輸入

該模型可以同時根據多種類型的輸入來進行影片生成條件化:

  • 圖生影片 (Image-to-Video): 使用靜態圖像作為視覺風格或主體的參考。
  • 跨參考整合: 將一段影片與一張用於地點的新圖像,以及另一張用於特定主體(例如:特定寵物)的圖像結合,以創建合成場景。
  • 音訊翻譯: 雖然基於安全考量限制了深偽 (deep-fake) 唇形同步,但該模型可以將說話的音訊翻譯成其他語言。

世界模型與模擬

Gemini Omni Flash 試圖模擬現實世界的物理屬性,以創建可信的賴的環境。一個關鍵的例子是添加雨水與水窪等環境效果,模型會以角色與物體精確的反射來渲染這些效果,展現出對光線與表面交互作用的理解。

整合式文字與 Logo 渲染

該模型可以在影片中插入並追蹤文字或品牌 Logo。它可以修改現有的招牌以顯示特定的英文文字,或將特定的品牌資產(例如:Go Go Curry 的 Logo)整合到場景中,儘管追蹤的精確度與字體準確度可能會有所不同。

透過 Interactions API 進行技術實作

Gemini Omni Flash 使用全新的 Interactions API,專為多輪對話任務設計,其輸出為影片而非標準的文字聊天。

影片生成模式

  • 文字生影片 (Text-to-Video): 從文字提示詞生成影片與音訊。使用者可以指定長寬比(例如:16:9 或適合社群媒體的直向比例)與持續時間。
  • 圖生影片 (Image-to-Video): 使用參考圖像(透過 NanoBanana 等模型生成)與文字提示詞來驅動場景動畫化。
  • 多重參考生成: 允許將多張圖像(例如:一個主體與一個物體)作為參考來引導最終的影片輸出。

多輪編輯工作流

開發者可以串聯多次互動來迭代地精煉影片:

  1. 初始生成: 從文字或圖像創建基礎影片。
  2. 編輯提示詞: 將前一次的互動作為上下文,並提供文字提示詞來更改特定細節(例如:「將貓變成幼年美洲獅」)。
  3. 風格化: 對現有影片應用風格參考(例如:水彩畫),以在不改變動作的情況下改變其視覺美學。

編輯現有素材

該 API 支持編輯上傳的影片,前提是影片長度為 10 秒或更短。使用者可以提供參考影片與文字提示詞來添加特效或改變敘事(例如:在真實世界的錄影中,讓一隻貓從電腦螢幕中爬出來)。

目前的限制與約束

  • 持續時間: 影片生成目前上限為 10 秒。
  • 安全限制: Google 已實施嚴格的防護措施以防止深偽 (deep-fake) 製作;模型不會將提供的音訊檔與提供的臉部圖像進行唇形同步。
  • 一致性: 雖然功能強大,但模型在進行複雜的多輪風格遷移時,偶爾會產生偽影或出現混亂。

Sources