Google DeepMind Gemma 4 發布與 Open AI 策略

Gemma 4：每參數智慧最佳化

Google DeepMind 已發布 Gemma 4，稱其為迄今為止最具能效的開源模型。此發布的主要目標是最大化「每參數智慧」，確保高階能力能被壓縮至更小的體積，以便於高效部署。

有效參數 vs. 活躍參數

Gemma 4 透過在每層加入嵌入表的方式，對傳統 Transformer 架構進行了修改。模型不再僅依賴於大型的初始嵌入層，而是在每一層都添加一個嵌入表。

此架構變化使得活躍參數與有效參數得以區分：

活躍參數：實際載入 GPU 進行計算的參數（例如在 50 億參數模型中有 20 億參數是活躍的）。
有效參數：模型可使用的全部參數，其餘部分（例如 30 億）則存放在 CPU 或磁碟上。

由於這些每層嵌入表僅作為查找表，而非需要完整的矩陣乘法，推理速度仍然極快。此設計特別針對裝置端使用情境進行優化，如 Android 手機、Raspberry Pi 以及其他邊緣硬體。

裝置端 AI 與 Gemini Nano

Google 的裝置端 AI 策略聚焦於將模型直接整合進作業系統。Gemini Nano 內建於高階 Pixel 與 Samsung 裝置，基於 Gemma 架構打造。

本地模型的使用案例

雖然 Gemini 等旗艦模型負責處理複雜、長時間運算的任務與深度事實知識，本地模型如 Gemma 4 則針對以下需求：

離線功能：在無網路連線的情況下提供 AI 能力。
隱私：允許開發者將整個開發環境保留在本地，無需將程式碼傳至 API。
代理能力：在裝置上直接提供函式呼叫、系統指令與對話能力。

Google 目前正將 Gemma 4 整合至 Android Studio 的代理模式，讓開發者能使用離線模型（透過 llama.cpp 或 vLLM）協助撰寫 Android 應用程式。

多模態與斷詞

Gemma 4 借鑒 Gemini 3 的研究，提升了在較小模型規模（2B 與 4B）下的多模態能力。

多模態能力

音訊：支援語音辨識、語音轉譯文字以及一般語音理解（如對音訊檔案提問）。
視覺：支援物件偵測、指向與影像說明。
限制：目前模型不支援影像分割或在單一提示中同時輸入影片與音訊。

多語言斷詞

Gemma 4 使用基於 Gemini 斷詞器的 tokenizer，對 140 種語言皆具高效能。此斷詞器能正確捕捉各種語言的 token，使得基礎模型成為微調特定語言（例如東南亞語言）的絕佳起點，且在同等規模的其他基礎模型上可能表現更佳。

研究前沿：文字擴散與可解釋性

Google DeepMind 正在探索超越標準自回歸 Transformer 的替代架構。

文字擴散模型

DeepMind 正在實驗用於文字生成的 diffusion Transformer 模型。雖然目前仍處於早期階段，且整體品質普遍低於自回歸模型，但其主要優勢在於速度。此研究對於「填充中間」的程式碼生成等任務特別有用，模型能比傳統的逐字生成更有效率地產生程式碼區塊。

以 GemmaScope 進行機械可解釋性研究

為了增進對模型運作方式的理解，Google 發布了 GemmaScope。此工具允許研究人員根據 token 分析不同層的激活情形。Google 提供了大量 Gemma 3 模型的激活資料集，讓社群能在不需要龐大計算資源的情況下，探索 Transformer 架構如何處理資訊。

微調與模型架構的現況

微調趨勢

社群出現了一個觀察到的轉變。雖然在 2023‑2024 年微調相當流行，但許多開發者現在發現 Gemma 4 在一般對話任務上「開箱即用」已足夠。微調目前主要集中在特定領域，如醫療（例如 Med‑Gemma 1.5）與金融，這些領域需要專業資料。

密集 vs. 稀疏（MoE）架構

Google 同時提供密集模型與混合專家（Mixture‑of‑Experts，MoE）版本。其取捨包括：

密集模型（例如 31B）：提供最高的原始智慧，且在量化後可適配消費者級 GPU。
MoE 模型（例如 27B 內含 4B 活躍參數）：提供極快的推理速度。然而，MoE 在指令遵循的微調上較具挑戰，因為路由機制會使反向傳播與分布轉移變得更複雜。

開發者生態系與全球成長

Google DeepMind 正在全球擴大其開發者體驗（DevEx）團隊，重點招募具高度自主性的個人，據點包括倫敦、巴黎、蘇黎世、舊金山、紐約與新加坡。

隨著 Kaggle 最近併入 DeepMind，Google 期望利用 Kaggle 的社群驅動基準測試與黑客松，找出模型的盲點，並將社群的自然回饋直接帶回模型開發流程中。

Google DeepMind Gemma 4 發布與 Open AI 策略

Google DeepMind Gemma 4 發布與 Open AI 策略

Gemma 4：每參數智慧最佳化

有效參數 vs. 活躍參數

裝置端 AI 與 Gemini Nano

本地模型的使用案例

多模態與斷詞

多模態能力

多語言斷詞

研究前沿：文字擴散與可解釋性

文字擴散模型

以 GemmaScope 進行機械可解釋性研究

微調與模型架構的現況

微調趨勢

密集 vs. 稀疏（MoE）架構

開發者生態系與全球成長

Sources