Gemini Omni Flash API 출시

Gemini Omni Flash API 출시

Google은 개발자가 고급 비디오 생성 및 편집 기능을 프로그래밍 방식으로 사용할 수 있도록 하는 Gemini Omni Flash API를 출시했습니다. 기존 비디오 모델과 달리, Gemini Omni Flash는 대화형 편집과 고충실도 세계 시뮬레이션에 중점을 두어 사용자가 샷 전체의 일관성을 유지하면서 비디오의 특정 요소를 수정할 수 있도록 합니다.

Gemini Omni Flash의 핵심 기능

Gemini Omni Flash는 Veo와 같은 다른 모델과 차별화되는 네 가지 주요 기술적 강점을 가지고 있습니다:

대화형 비디오 편집

대화형 편집을 통해 장면의 나머지 부분을 변경하지 않고 비디오 내의 특정 요소를 수정할 수 있습니다. 여기에는 다음이 포함됩니다:

  • 캐릭터 교체: 동일한 블로킹과 배경을 유지하면서 피사체를 변경합니다 (예: 검은 고양이를 치즈 고양이로 변경).
  • 조명 재설정: 장면의 시간대나 조명 조건을 변경합니다.
  • 속성 수정: 환경을 보존하면서 의류나 캐릭터를 변경합니다 (예: 빨간 드레스를 입은 남성을 여성으로 교체).

멀티모달 참조 입력

이 모델은 여러 유형의 입력을 동시에 사용하여 비디오 생성을 제어할 수 있습니다:

  • Image-to-Video: 정적 이미지를 시각적 스타일이나 피사체의 참조로 사용합니다.
  • 교차 참조 통합: 위치를 위한 비디오와 특정 피사체(예: 특정 반려동물)를 위한 다른 이미지를 결합하여 합성 장면을 생성합니다.
  • 오디오 번역: 안전을 위해 딥페이크 립싱크는 제한되지만, 모델은 음성 오디오를 다른 언어로 번역할 수 있습니다.

세계 모델 및 시뮬레이션

Gemini Omni Flash는 믿을 수 있는 환경을 만들기 위해 실제 세계의 물리적 특성을 시뮬레이션하려고 시도합니다. 주요 예로는 비와 웅덩이와 같은 환경 효과를 추가하는 것이 있으며, 모델은 캐릭터와 사물의 정확한 반사광을 통해 이를 렌더링하여 빛과 표면 상호작용에 대한 이해를 보여줍니다.

통합 텍스트 및 로고 렌더링

모델은 비디오 내에 텍스트나 브랜드 로고를 삽입하고 추적할 수 있습니다. 기존 표지판을 수정하여 영어로 특정 텍스트를 표시하거나 특정 브랜드 자산(예: Go Go Curry 로고)을 장면 내에 통합할 수 있지만, 추적의 정밀도와 폰트 정확도는 다를 수 있습니다.

Interactions API를 통한 기술적 구현

Gemini Omni Flash는 표준 텍스트 채팅이 아닌 비디오가 출력되는 멀티턴 작업을 위해 설계된 새로운 Interactions API를 활용합니다.

비디오 생성 모드

  • Text-to-Video: 텍스트 프롬프트로부터 비디오와 오디오를 생성합니다. 사용자는 종횡비(예: 16:9 또는 소셜 미디어를 위한 세로형)와 지속 시간을 지정할 수 있습니다.
  • Image-to-Video: 참조 이미지(NanoBanana와 같은 모델을 통해 생성됨)와 텍스트 프롬프트를 사용하여 장면을 애니메이션화합니다.
  • Multi-Reference Generation: 여러 이미지(예: 피사체와 사물)를 참조로 전달하여 최종 비디오 출력을 가이드할 수 있습니다.

멀티턴 편집 워크플로우

개발자는 상호작용을 연결하여 비디오를 반복적으로 개선할 수 있습니다:

  1. 초기 생성: 텍스트 또는 이미지로부터 기본 비디오를 생성합니다.
  2. 편집 프롬프트: 이전 상호작용을 컨텍스트로 전달하고 특정 세대을 변경하기 위한 텍스트 프롬프트를 제공합니다 (예: "고양이를 퓨마 새끼로 바꾸어라").
  3. 스타일화: 기존 비디오에 스타일 참조(예: 수채화)를를 적용하여 움직임을 변경하지 않고 시각적 미학을 변경합니다.

기존 푸티지 편집

API는 업로드된 비디오가 10초 이하인 경우 편집을 지원합니다. 사용자는 참조 비디오와 텍스트 프롬프트를 사용하여 특수 효과를를 가이드하거나 서사를 변경할 수 있습니다 (예: 실제 녹화 영상에서 컴퓨터 화면에서 기어 나오는 고양이를 애니메이션화함).

현재 한계 및 제약 사항

  • 지속 시간: 비디오 생성은 현재 최대 10초로 제한됩니다.

  • 안전 제한: Google은 딥페이크 제작에 대한 엄격한 가드레일을 구현했습니다. 모델은 제공된 오디오 파일과 제공된 얼굴 이미지를 립싱크하지 않습니다.

  • 일관성: 강력하지만, 모델은 복잡한 복합 멀티턴 스타일 전송 과정에서 가끔히 아티팩트가 발생하거나 혼란을 될 수 있습니다.

Sources