Google DeepMind Gemma 4 发布与 Open AI 战略

Google DeepMind Gemma 4 发布与 Open AI 战略

Gemma 4:每参数智能优化

Google DeepMind 已发布 Gemma 4,称其为迄今为止最强大的开源模型。此次发布的主要目标是最大化“每参数智能”,即在更小的体积中装入高水平能力,以便实现高效部署。

有效参数 vs. 活动参数

Gemma 4 通过在每层实现嵌入来修改传统的 Transformer 架构。模型不再仅依赖于一个大的初始嵌入层,而是在每一层都添加一个嵌入表。

这种架构转变使得活动参数和有效参数得以区分:

  • 活动参数:实际加载到 GPU 上进行计算的参数(例如,在 50 亿参数的模型中有 20 亿参数是活动的)。
  • 有效参数:模型可用的全部参数,其余部分(例如 30 亿)驻留在 CPU 或磁盘上。

由于这些层级嵌入充当查找表,而不是需要完整矩阵乘法,推理仍然极其快速。该设计专为设备端使用场景优化,如 Android 手机、Raspberry Pi 以及其他边缘硬件。

设备端 AI 与 Gemini Nano

Google 的设备端 AI 战略侧重于将模型直接集成到操作系统中。Gemini Nano 内置于高端 Pixel 和 Samsung 设备,基于 Gemma 架构构建。

本地模型的使用场景

虽然 Gemini 等旗舰模型处理复杂、长时任务和深度事实知识,本地模型如 Gemma 4 的定位是:

  • 离线功能:在无网络连接的情况下提供 AI 能力。
  • 隐私:让开发者能够将完整的开发环境保持在本地,避免将代码发送至 API。
  • 代理能力:在设备上直接提供函数调用、系统指令和对话能力。

Google 正在将 Gemma 4 集成到 Android Studio 的代理模式中,允许开发者使用离线模型(通过 llama.cpp 或 vLLM)来辅助编写 Android 应用。

多模态与分词

Gemma 4 借鉴 Gemini 3 的研究,提升了在较小模型规模(2B 与 4B)下的多模态能力。

多模态能力

  • 音频:支持语音识别、语音转译文本以及一般的语音理解(可对音频文件提问)。
  • 视觉:支持目标检测、指向以及图像描述。
  • 局限性:目前模型不支持图像分割或在单一提示中同时输入视频与音频。

多语言分词

Gemma 4 使用基于 Gemini 分词器的 tokenizer,对 140 种语言表现出极高的效果。该分词器能够在多语言环境中捕获正确的 token,使得基础模型成为微调特定语言(如东南亚语言)的优秀起点,往往能超越同等规模的其他基础模型。

研究前沿:文本扩散与可解释性

Google DeepMind 正在探索超越标准自回归 Transformer 的替代架构。

文本扩散模型

DeepMind 正在实验用于文本生成的扩散 Transformer 模型。虽然目前仍处于早期阶段,整体质量通常低于自回归模型,但其主要优势在于速度。该研究对“填空式”代码生成等任务尤为有用,模型能够比传统的顺序生成更高效地生成代码块。

机械可解释性与 GemmaScope

为提升对模型工作原理的理解,Google 发布了 GemmaScope。该工具允许研究者基于 token 分析不同层的激活。通过提供大量 Gemma 3 模型的激活数据集,Google 让社区能够在无需巨额算力的情况下实验 Transformer 如何处理信息。

微调与模型架构的现状

微调趋势

社区出现了明显的转变。虽然微调在 2023‑2024 年非常流行,但许多开发者发现 Gemma 4 在一般对话任务上“开箱即用”已经足够。微调现在主要集中在特定领域,如医疗(例如 Med‑Gemma 1.5)和金融,需要专门的数据。

密集 vs. 稀疏(MoE)架构

Google 同时提供密集模型和混合专家(Mixture‑of‑Experts,MoE)版本。权衡包括:

  • 密集模型(如 31B):提供最高的原始智能,量化后可适配消费级 GPU。
  • MoE 模型(如 27B,活跃 4B):推理速度极快。但 MoE 在指令遵循的微调上更具挑战,因为路由机制会使反向传播和分布转移更加复杂。

开发者生态系统与全球增长

Google DeepMind 正在全球扩展其开发者体验(DevEx)团队,重点关注伦敦、巴黎、苏黎世、旧金山、纽约和新加坡等中心的高自主性人才。

随着 Kaggle 最近并入 DeepMind,Google 旨在利用 Kaggle 的社区驱动基准和黑客马拉松,识别模型短板,并将社区的有机反馈直接带回模型研发流程。

Sources