Google DeepMind Gemma 4 Release and Open AI Strategy

Gemma 4: Optimizing Intelligence per Parameter

Google DeepMind는 현재까지 가장 강력한 오픈 모델이라고 설명되는 Gemma 4를 출시했습니다. 이번 출시의 주요 목표는 "파라미터당 지능"을 극대화하는 것으로, 높은 수준의 기능을 더 작은 규모에 담아 효율적인 배포를 가능하게 하는 것이었습니다.

Effective vs. Active Parameters

Gemma 4는 전통적인 트랜스포머 아키텍처에 레이어별 임베딩을 도입하는 변형을 적용했습니다. 초기 대규모 임베딩 레이어에만 의존하는 대신, 모델은 각 레이어마다 임베딩 테이블을 추가합니다.

이러한 아키텍처 변화는 활성 파라미터와 유효 파라미터를 구분할 수 있게 합니다:

Active Parameters: GPU에 로드되어 실제 연산에 사용되는 파라미터(예: 50억 파라미터 모델 중 20억 파라미터).
Effective Parameters: 모델이 사용할 수 있는 전체 파라미터이며, 나머지 파라미터(예: 30억)는 CPU나 디스크에 존재합니다.

레이어별 임베딩이 전체 행렬 곱셈이 아니라 조회 테이블 형태로 동작하기 때문에 추론 속도가 매우 빠릅니다. 이 설계는 Android 폰, Raspberry Pi, 기타 엣지 하드웨어와 같은 온‑디바이스 사용 사례에 최적화되었습니다.

On-Device AI and Gemini Nano

Google의 온‑디바이스 AI 전략은 모델을 운영체제에 직접 통합하는 데 초점을 맞추고 있습니다. 고급 Pixel 및 Samsung 기기에 내장된 Gemini Nano는 Gemma 아키텍처를 기반으로 합니다.

Use Cases for Local Models

Gemini와 같은 대형 모델이 복잡하고 장시간 실행되는 작업 및 깊은 사실 지식을 처리하는 반면, Gemma 4와 같은 로컬 모델은 다음을 목표로 합니다:

Offline Functionality: 인터넷 연결 없이 AI 기능 제공.
Privacy: 개발자가 코드를 API로 전송하지 않고 전체 개발 환경을 로컬에 유지 가능.
Agentic Capabilities: 함수 호출, 시스템 지시, 대화 능력을 디바이스에서 직접 제공.

Google은 현재 Gemma 4를 Android Studio의 에이전트 모드에 통합하고 있으며, 개발자는 llama.cpp 또는 vLLM을 통해 오프라인 모델을 사용해 Android 애플리케이션 작성을 지원받을 수 있습니다.

Multimodality and Tokenization

Gemma 4는 Gemini 3의 연구를 활용해 특히 작은 모델 크기(2B, 4B)에서 멀티모달 능력을 강화했습니다.

Multimodal Capabilities

Audio: 음성 인식, 음성‑텍스트 번역, 일반 음성 이해(오디오 파일에 대한 질문) 지원.
Vision: 객체 탐지, 포인팅, 캡션 생성 지원.
Limitations: 현재 이미지 세그멘테이션이나 단일 프롬프트에서 영상‑음성 복합 입력은 지원되지 않습니다.

Multilingual Tokenization

Gemma 4는 Gemini 토크나이저를 기반으로 하며, 140개 언어에 대해 높은 효율성을 보입니다. 이 토크나이저는 다양한 언어에서 올바른 토큰을 포착하도록 설계되어, 동남아시아 언어와 같이 특정 언어에 대한 파인튜닝 시 유사 크기의 다른 베이스 모델보다 뛰어난 성능을 발휘할 수 있는 훌륭한 출발점이 됩니다.

Research Frontiers: Text Diffusion and Interpretability

Google DeepMind는 표준 자동회귀 트랜스포머를 넘어선 대체 아키텍처를 탐구하고 있습니다.

Diffusion Models for Text

DeepMind는 텍스트 생성용 확산 트랜스포머 모델을 실험하고 있습니다. 현재는 초기 단계이며 자동회귀 모델보다 품질이 낮은 경우가 많지만, 주요 장점은 속도입니다. 이 연구는 특히 "fill‑in‑the‑middle" 코드 생성과 같이 모델이 전통적인 순차 생성보다 더 효율적으로 코드 블록을 생성할 수 있는 작업에 유용합니다.

Mechanistic Interpretability with GemmaScope

모델 작동 방식을 더 잘 이해하기 위해 Google은 GemmaScope를 공개했습니다. 이 도구는 토큰별로 다양한 레이어의 활성값을 분석할 수 있게 해줍니다. Gemma 3 모델에 대한 방대한 활성값 데이터셋을 제공함으로써, 커뮤니티가 대규모 연산 자원 없이도 트랜스포머 아키텍처가 정보를 어떻게 처리하는지 실험할 수 있도록 지원합니다.

The State of Fine-Tuning and Model Architecture

Trends in Fine-Tuning

커뮤니티 내에서 변화가 관찰되고 있습니다. 2023‑2024년에 파인튜닝이 매우 인기 있었지만, 이제 많은 개발자는 Gemma 4와 같은 모델이 일반 대화 작업에 대해 "그대로 사용해도" 충분히 좋은 성능을 보인다고 생각합니다. 파인튜닝은 현재 의료(예: Med‑Gemma 1.5)와 금융 등 특수 도메인에 주로 집중되고 있습니다.

Dense vs. Sparse (MoE) Architectures

Google은 모델의 밀집형 버전과 Mixture‑of‑Experts(MoE) 버전을 모두 제공합니다. 주요 트레이드오프는 다음과 같습니다:

Dense Models (예: 31B): 가장 높은 원시 지능을 제공하며, 양자화 시 소비자용 GPU에 맞출 수 있도록 설계되었습니다.
MoE Models (예: 27B with 4B active): 매우 빠른 추론을 제공하지만, 라우팅 메커니즘이 역전파와 분포 이동을 복잡하게 만들어 지시 수행을 위한 파인튜닝이 더 어려운 경향이 있습니다.

Developer Ecosystem and Global Growth

Google DeepMind는 전 세계적으로 Developer Experience(DevEx) 팀을 확대하고 있으며, 런던, 파리, 취리히, 샌프란시스코, 뉴욕, 싱가포르와 같은 허브에서 높은 자율성을 가진 인재에 집중하고 있습니다.

최근 Kaggle이 DeepMind에 통합됨에 따라, Google은 Kaggle의 커뮤니티 기반 벤치마크와 해커톤을 활용해 모델의 부족한 부분을 식별하고, 커뮤니티 피드백을 직접 모델링 프로세스로 되돌리는 것을 목표로 하고 있습니다.

SUMMARY: Omar Sanseviero of Google DeepMind discusses the launch of Gemma 4, featuring a new transformer architecture that enables efficient parameter offloading for on-device AI, and outlines Google's broader strategy for open models and research.

TITLE: Google DeepMind Gemma 4 Release and Open AI Strategy

Google DeepMind Gemma 4 출시 및 Open AI 전략