Gemini Omni Flash API 發佈
Gemini Omni Flash API 發佈
Google 已發佈 Gemini Omni Flash API,讓開發者能夠以程式化方式存取先進的影片生成與編輯功能。與傳統的影片模型不同,Gemini Omni Flash 專注於對話式編輯與高保真度的世界模擬,允許使用者在保持鏡頭一致性的同時,修改影片中的特定元素。
Gemini Omni Flash 的核心能力
Gemini Omni Flash 與 Veo 等其他模型相比,具有四項主要的技術優勢:
對話式影片編輯
對話式編輯允許在不改變場景其餘部分的情況下,修改影片中的特定元素。這包括:
- 角色替換: 在保持相同的動作佈局與背景的同時,更換主體(例如:將黑貓換成橘貓)。
- 重新打光: 改變場景的時間或光照條件。
- 屬性修改: 在保留環境的同時,更換服裝或角色(例如:將一名男子換成穿著紅裙的女子)。
多模態參考輸入
該模型可以同時根據多種類型的輸入來進行影片生成條件化:
- 圖生影片 (Image-to-Video): 使用靜態圖像作為視覺風格或主體的參考。
- 跨參考整合: 將一段影片與一張用於地點的新圖像,以及另一張用於特定主體(例如:特定寵物)的圖像結合,以創建合成場景。
- 音訊翻譯: 雖然基於安全考量限制了深偽 (deep-fake) 唇形同步,但該模型可以將說話的音訊翻譯成其他語言。
世界模型與模擬
Gemini Omni Flash 試圖模擬現實世界的物理屬性,以創建可信的賴的環境。一個關鍵的例子是添加雨水與水窪等環境效果,模型會以角色與物體精確的反射來渲染這些效果,展現出對光線與表面交互作用的理解。
整合式文字與 Logo 渲染
該模型可以在影片中插入並追蹤文字或品牌 Logo。它可以修改現有的招牌以顯示特定的英文文字,或將特定的品牌資產(例如:Go Go Curry 的 Logo)整合到場景中,儘管追蹤的精確度與字體準確度可能會有所不同。
透過 Interactions API 進行技術實作
Gemini Omni Flash 使用全新的 Interactions API,專為多輪對話任務設計,其輸出為影片而非標準的文字聊天。
影片生成模式
- 文字生影片 (Text-to-Video): 從文字提示詞生成影片與音訊。使用者可以指定長寬比(例如:16:9 或適合社群媒體的直向比例)與持續時間。
- 圖生影片 (Image-to-Video): 使用參考圖像(透過 NanoBanana 等模型生成)與文字提示詞來驅動場景動畫化。
- 多重參考生成: 允許將多張圖像(例如:一個主體與一個物體)作為參考來引導最終的影片輸出。
多輪編輯工作流
開發者可以串聯多次互動來迭代地精煉影片:
- 初始生成: 從文字或圖像創建基礎影片。
- 編輯提示詞: 將前一次的互動作為上下文,並提供文字提示詞來更改特定細節(例如:「將貓變成幼年美洲獅」)。
- 風格化: 對現有影片應用風格參考(例如:水彩畫),以在不改變動作的情況下改變其視覺美學。
編輯現有素材
該 API 支持編輯上傳的影片,前提是影片長度為 10 秒或更短。使用者可以提供參考影片與文字提示詞來添加特效或改變敘事(例如:在真實世界的錄影中,讓一隻貓從電腦螢幕中爬出來)。
目前的限制與約束
- 持續時間: 影片生成目前上限為 10 秒。
- 安全限制: Google 已實施嚴格的防護措施以防止深偽 (deep-fake) 製作;模型不會將提供的音訊檔與提供的臉部圖像進行唇形同步。
- 一致性: 雖然功能強大,但模型在進行複雜的多輪風格遷移時,偶爾會產生偽影或出現混亂。