Google DeepMind Gemma 4 發布與 Open AI 策略

Google DeepMind Gemma 4 發布與 Open AI 策略

Gemma 4:每參數智慧最佳化

Google DeepMind 已發布 Gemma 4,稱其為迄今為止最具能效的開源模型。此發布的主要目標是最大化「每參數智慧」,確保高階能力能被壓縮至更小的體積,以便於高效部署。

有效參數 vs. 活躍參數

Gemma 4 透過在每層加入嵌入表的方式,對傳統 Transformer 架構進行了修改。模型不再僅依賴於大型的初始嵌入層,而是在每一層都添加一個嵌入表。

此架構變化使得活躍參數與有效參數得以區分:

  • 活躍參數:實際載入 GPU 進行計算的參數(例如在 50 億參數模型中有 20 億參數是活躍的)。
  • 有效參數:模型可使用的全部參數,其餘部分(例如 30 億)則存放在 CPU 或磁碟上。

由於這些每層嵌入表僅作為查找表,而非需要完整的矩陣乘法,推理速度仍然極快。此設計特別針對裝置端使用情境進行優化,如 Android 手機、Raspberry Pi 以及其他邊緣硬體。

裝置端 AI 與 Gemini Nano

Google 的裝置端 AI 策略聚焦於將模型直接整合進作業系統。Gemini Nano 內建於高階 Pixel 與 Samsung 裝置,基於 Gemma 架構打造。

本地模型的使用案例

雖然 Gemini 等旗艦模型負責處理複雜、長時間運算的任務與深度事實知識,本地模型如 Gemma 4 則針對以下需求:

  • 離線功能:在無網路連線的情況下提供 AI 能力。
  • 隱私:允許開發者將整個開發環境保留在本地,無需將程式碼傳至 API。
  • 代理能力:在裝置上直接提供函式呼叫、系統指令與對話能力。

Google 目前正將 Gemma 4 整合至 Android Studio 的代理模式,讓開發者能使用離線模型(透過 llama.cpp 或 vLLM)協助撰寫 Android 應用程式。

多模態與斷詞

Gemma 4 借鑒 Gemini 3 的研究,提升了在較小模型規模(2B 與 4B)下的多模態能力。

多模態能力

  • 音訊:支援語音辨識、語音轉譯文字以及一般語音理解(如對音訊檔案提問)。
  • 視覺:支援物件偵測、指向與影像說明。
  • 限制:目前模型不支援影像分割或在單一提示中同時輸入影片與音訊。

多語言斷詞

Gemma 4 使用基於 Gemini 斷詞器的 tokenizer,對 140 種語言皆具高效能。此斷詞器能正確捕捉各種語言的 token,使得基礎模型成為微調特定語言(例如東南亞語言)的絕佳起點,且在同等規模的其他基礎模型上可能表現更佳。

研究前沿:文字擴散與可解釋性

Google DeepMind 正在探索超越標準自回歸 Transformer 的替代架構。

文字擴散模型

DeepMind 正在實驗用於文字生成的 diffusion Transformer 模型。雖然目前仍處於早期階段,且整體品質普遍低於自回歸模型,但其主要優勢在於速度。此研究對於「填充中間」的程式碼生成等任務特別有用,模型能比傳統的逐字生成更有效率地產生程式碼區塊。

以 GemmaScope 進行機械可解釋性研究

為了增進對模型運作方式的理解,Google 發布了 GemmaScope。此工具允許研究人員根據 token 分析不同層的激活情形。Google 提供了大量 Gemma 3 模型的激活資料集,讓社群能在不需要龐大計算資源的情況下,探索 Transformer 架構如何處理資訊。

微調與模型架構的現況

微調趨勢

社群出現了一個觀察到的轉變。雖然在 2023‑2024 年微調相當流行,但許多開發者現在發現 Gemma 4 在一般對話任務上「開箱即用」已足夠。微調目前主要集中在特定領域,如醫療(例如 Med‑Gemma 1.5)與金融,這些領域需要專業資料。

密集 vs. 稀疏(MoE)架構

Google 同時提供密集模型與混合專家(Mixture‑of‑Experts,MoE)版本。其取捨包括:

  • 密集模型(例如 31B):提供最高的原始智慧,且在量化後可適配消費者級 GPU。
  • MoE 模型(例如 27B 內含 4B 活躍參數):提供極快的推理速度。然而,MoE 在指令遵循的微調上較具挑戰,因為路由機制會使反向傳播與分布轉移變得更複雜。

開發者生態系與全球成長

Google DeepMind 正在全球擴大其開發者體驗(DevEx)團隊,重點招募具高度自主性的個人,據點包括倫敦、巴黎、蘇黎世、舊金山、紐約與新加坡。

隨著 Kaggle 最近併入 DeepMind,Google 期望利用 Kaggle 的社群驅動基準測試與黑客松,找出模型的盲點,並將社群的自然回饋直接帶回模型開發流程中。

Sources