Google DeepMind Gemma 4 发布与 Open AI 战略

Gemma 4：每参数智能优化

Google DeepMind 已发布 Gemma 4，称其为迄今为止最强大的开源模型。此次发布的主要目标是最大化“每参数智能”，即在更小的体积中装入高水平能力，以便实现高效部署。

有效参数 vs. 活动参数

Gemma 4 通过在每层实现嵌入来修改传统的 Transformer 架构。模型不再仅依赖于一个大的初始嵌入层，而是在每一层都添加一个嵌入表。

这种架构转变使得活动参数和有效参数得以区分：

活动参数：实际加载到 GPU 上进行计算的参数（例如，在 50 亿参数的模型中有 20 亿参数是活动的）。
有效参数：模型可用的全部参数，其余部分（例如 30 亿）驻留在 CPU 或磁盘上。

由于这些层级嵌入充当查找表，而不是需要完整矩阵乘法，推理仍然极其快速。该设计专为设备端使用场景优化，如 Android 手机、Raspberry Pi 以及其他边缘硬件。

设备端 AI 与 Gemini Nano

Google 的设备端 AI 战略侧重于将模型直接集成到操作系统中。Gemini Nano 内置于高端 Pixel 和 Samsung 设备，基于 Gemma 架构构建。

本地模型的使用场景

虽然 Gemini 等旗舰模型处理复杂、长时任务和深度事实知识，本地模型如 Gemma 4 的定位是：

离线功能：在无网络连接的情况下提供 AI 能力。
隐私：让开发者能够将完整的开发环境保持在本地，避免将代码发送至 API。
代理能力：在设备上直接提供函数调用、系统指令和对话能力。

Google 正在将 Gemma 4 集成到 Android Studio 的代理模式中，允许开发者使用离线模型（通过 llama.cpp 或 vLLM）来辅助编写 Android 应用。

多模态与分词

Gemma 4 借鉴 Gemini 3 的研究，提升了在较小模型规模（2B 与 4B）下的多模态能力。

多模态能力

音频：支持语音识别、语音转译文本以及一般的语音理解（可对音频文件提问）。
视觉：支持目标检测、指向以及图像描述。
局限性：目前模型不支持图像分割或在单一提示中同时输入视频与音频。

多语言分词

Gemma 4 使用基于 Gemini 分词器的 tokenizer，对 140 种语言表现出极高的效果。该分词器能够在多语言环境中捕获正确的 token，使得基础模型成为微调特定语言（如东南亚语言）的优秀起点，往往能超越同等规模的其他基础模型。

研究前沿：文本扩散与可解释性

Google DeepMind 正在探索超越标准自回归 Transformer 的替代架构。

文本扩散模型

DeepMind 正在实验用于文本生成的扩散 Transformer 模型。虽然目前仍处于早期阶段，整体质量通常低于自回归模型，但其主要优势在于速度。该研究对“填空式”代码生成等任务尤为有用，模型能够比传统的顺序生成更高效地生成代码块。

机械可解释性与 GemmaScope

为提升对模型工作原理的理解，Google 发布了 GemmaScope。该工具允许研究者基于 token 分析不同层的激活。通过提供大量 Gemma 3 模型的激活数据集，Google 让社区能够在无需巨额算力的情况下实验 Transformer 如何处理信息。

微调与模型架构的现状

微调趋势

社区出现了明显的转变。虽然微调在 2023‑2024 年非常流行，但许多开发者发现 Gemma 4 在一般对话任务上“开箱即用”已经足够。微调现在主要集中在特定领域，如医疗（例如 Med‑Gemma 1.5）和金融，需要专门的数据。

密集 vs. 稀疏（MoE）架构

Google 同时提供密集模型和混合专家（Mixture‑of‑Experts，MoE）版本。权衡包括：

密集模型（如 31B）：提供最高的原始智能，量化后可适配消费级 GPU。
MoE 模型（如 27B，活跃 4B）：推理速度极快。但 MoE 在指令遵循的微调上更具挑战，因为路由机制会使反向传播和分布转移更加复杂。

开发者生态系统与全球增长

Google DeepMind 正在全球扩展其开发者体验（DevEx）团队，重点关注伦敦、巴黎、苏黎世、旧金山、纽约和新加坡等中心的高自主性人才。

随着 Kaggle 最近并入 DeepMind，Google 旨在利用 Kaggle 的社区驱动基准和黑客马拉松，识别模型短板，并将社区的有机反馈直接带回模型研发流程。

Google DeepMind Gemma 4 发布与 Open AI 战略

Google DeepMind Gemma 4 发布与 Open AI 战略

Gemma 4：每参数智能优化

有效参数 vs. 活动参数

设备端 AI 与 Gemini Nano

本地模型的使用场景

多模态与分词

多模态能力

多语言分词

研究前沿：文本扩散与可解释性

文本扩散模型

机械可解释性与 GemmaScope

微调与模型架构的现状

微调趋势

密集 vs. 稀疏（MoE）架构

开发者生态系统与全球增长

Sources