Google DeepMind Gemma 4 Release and Open AI Strategy

Gemma 4: Optimizing Intelligence per Parameter

Google DeepMind は Gemma 4 をリリースしました。これはこれまでで最も高性能なオープンモデルとされています。リリースの主目的は「パラメータあたりのインテリジェンス」を最大化し、少ないフットプリントに高度な能力を詰め込んで効率的なデプロイを可能にすることです。

Effective vs. Active Parameters

Gemma 4 は従来のトランスフォーマーアーキテクチャに変更を加え、レイヤーごとの埋め込みを実装しています。大きな初期埋め込み層だけに依存するのではなく、各レイヤーに埋め込みテーブルを追加します。

このアーキテクチャの変化により、アクティブパラメータ と 有効パラメータ を区別できるようになります:

Active Parameters（アクティブパラメータ）: GPU にロードされて計算に使用されるパラメータ（例: 50 億パラメータモデルのうち 20 億パラメータ）。
Effective Parameters（有効パラメータ）: モデルが利用できる総パラメータ数で、残りは CPU やディスク上に保持されます（例: 30 億パラメータ）。

レイヤーごとの埋め込みは行列乗算を必要とせずルックアップテーブルとして機能するため、推論は非常に高速です。この設計は Android スマートフォン、Raspberry Pi、その他エッジハードウェアといったオンデバイス利用ケースに特化して最適化されています。

On-Device AI and Gemini Nano

Google のオンデバイス AI 戦略は、モデルを OS に直接統合することに重点を置いています。高性能 Pixel や Samsung デバイスに組み込まれている Gemini Nano は、Gemma アーキテクチャをベースに構築されています。

Use Cases for Local Models

Gemini のようなフラッグシップモデルが複雑で長時間実行されるタスクや深い事実知識を扱うのに対し、Gemma 4 のようなローカルモデルは次のような用途を想定しています:

オフライン機能: インターネット接続がなくても AI 機能を提供。
プライバシー: 開発者がコードやデータを API に送信せず、ローカルで完結できる。
エージェント機能: 関数呼び出し、システム指示、会話能力をデバイス上で直接提供。

Google は現在、Gemma 4 を Android Studio のエージェントモードに統合中で、開発者は llama.cpp や vLLM などを介してオフラインモデルを利用し、Android アプリ開発を支援できます。

Multimodality and Tokenization

Gemma 4 は Gemini 3 の研究成果を活かし、特に小型モデル（2B・4B）におけるマルチモーダル能力を強化しています。

Multimodal Capabilities

Audio（音声）: 音声認識、音声から翻訳テキストへの変換、一般的な音声理解（音声ファイルに関する質問）をサポート。
Vision（画像）: オブジェクト検出、指示、キャプション生成をサポート。
Limitations（制限）: 現時点では画像セグメンテーションや、単一プロンプトでの動画＋音声入力はサポートされていません。

Multilingual Tokenization

Gemma 4 は Gemini トークナイザーをベースにしたトークナイザーを使用しており、140 言語に対して高い効果を発揮します。このトークナイザーは多様な言語で正確なトークンを捉えるよう設計されており、東南アジア言語など特定言語へのファインチューニング時に、同規模の他のベースモデルを上回る性能を示すことがあります。

Research Frontiers: Text Diffusion and Interpretability

Google DeepMind は標準的な自己回帰トランスフォーマー以外の代替アーキテクチャも模索しています。

Diffusion Models for Text

DeepMind はテキスト生成用のディフュージョントランスフォーマーモデルを実験的に開発しています。現段階では品質は自己回帰モデルに劣りますが、主な利点は速度です。この研究は「fill‑in‑the‑middle」型コード生成など、従来の逐次生成よりも高速にコードブロックを生成できるタスクに有用です。

Mechanistic Interpretability with GemmaScope

モデルの動作理解を深めるため、Google は GemmaScope を公開しました。このツールはトークンごとに層別のアクティベーションを解析でき、Gemma 3 系列モデルの大規模アクティベーションデータセットを提供します。これにより、膨大な計算資源を必要とせずにトランスフォーマーが情報をどのように処理するかをコミュニティが実験できるようになります。

The State of Fine-Tuning and Model Architecture

Trends in Fine-Tuning

コミュニティ内での傾向が変化しています。2023‑2024 年にファインチューニングは非常に盛んでしたが、現在は Gemma 4 のようなモデルが一般的な会話タスクで「そのまま」十分に機能することが多くなっています。ファインチューニングは主に医療（例: Med‑Gemma 1.5）や金融など、専門データが必要な領域に集中しています。

Dense vs. Sparse (MoE) Architectures

Google は密結合（dense）モデルと Mixture‑of‑Experts（MoE）モデルの両方を提供しています。主なトレードオフは次の通りです:

Dense Models（例: 31B）: 生のインテリジェンスが最も高く、量子化すれば一般消費者向け GPU に収まります。
MoE Models（例: 27B with 4B active）: 推論が極めて高速です。ただし、ルーティング機構が逆伝播や分布シフトを複雑にするため、指示に従うファインチューニングは難しいとされています。

Developer Ecosystem and Global Growth

Google DeepMind は開発者体験（DevEx）チームを世界規模で拡大しており、ロンドン、パリ、チューリッヒ、サンフランシスコ、ニューヨーク、シンガポールといった拠点で高いエージェンシーを持つ人材に注力しています。

最近の Kaggle の DeepMind への統合により、Google は Kaggle のコミュニティ主導ベンチマークやハッカソンを活用し、モデルのギャップを特定し、コミュニティからのフィードバックを直接モデリングプロセスに取り込むことを目指しています。

Google DeepMind Gemma 4 リリースと Open AI 戦略