LLM 效率的演進:KV 分享、mHC 與壓縮注意力機制
LLM 效率的演進:KV 分享、mHC 與壓縮注意力機制
大型語言模型 (LLM) 架構的格局正在發生變化。雖然基本的 decoder-only transformer 仍是主流,但焦點已從單純擴展參數規模轉向優化長文本效率。隨著推理模型和代理工作流 (agentic workflows) 要求模型在更長時間內於記憶體中保留更多 token,KV-cache 大小、記憶體流量和注意力成本已成為主要的瓶頸。
Google、DeepSeek 以及其他開源權重貢獻者的近期發布揭示了一種趨勢:引入複雜的「架構技巧」,旨在不犧牲表徵能力的同時,減少長文本推理的計算與記憶體佔用。
Gemma 4:KV 分享與逐層嵌入 (Per-Layer Embeddings)
Google 的 Gemma 4 系列在其較小變體 (E2B 和 E4B) 中引入了兩項顯著的效率導向設計選擇。
跨層 KV 分享 (Cross-Layer KV Sharing)
為了應對 KV cache 的記憶體需求,Gemma 4 採用了共享 KV cache 方案。雖然 Grouped Query Attention (GQA) 已經在單個層內於多個 query heads 之間共享 KV heads,但 Gemma 4 更進一步,在不同層之間共享 KV 投影 (projections)。
在此設置中,後續層會重複使用與相同注意力類型最近的前一個非共享層的 key-value 狀態。例如,在 Gemma 4 E2B 模型中,35 層中只有前 15 層計算其自身的 KV 投影;其餘 20 層則重複使用它們。這有效地將 KV cache 大小減半,在 E2B 模型中為 128K 上下文節省了約 2.7 GB 的記憶體,並在 E4B 模型中節省了 6 GB。
逐層嵌入 (Per-Layer Embeddings, PLE)
雖然 KV 分享減少了記憶體,但 PLE 專注於參數效率。其目標是讓小型模型能夠利用更多 token 特定的資訊,而無需擴展整個 transformer stack。
PLE 並非為每個 block 提供 token embedding 層的完整副本,而是為每個 transformer block 提供一個微小的、特定於層的 token vector。該 vector 會由隱藏狀態 (hidden state) 進行門控 (gated),並在 feed-forward 分支之後作為額外的殘差更新 (residual update) 加入。這使得模型能夠在昂貴的 transformer blocks 中保持較小的「有效」參數數量,同時在較便宜的、查表式的嵌入表 (embedding tables) 中儲存額外的容量。
Laguna XS.2:逐層注意力預算 (Layer-wise Attention Budgeting)
Poolside 的 Laguna XS.2 引入了「逐層注意力預算」的概念,這挑戰了「每個 transformer 層都需要相同的注意力容量」的假設。
Laguna XS.2 透過混合使用 30 個滑動窗口注意力層 (local context) 和 10 個全域注意力層 (full context) 來改變每一層的注意力成本。其創新之處在於使用逐層的 query-head 數量。具體而言,該模型將更多的 query heads 分配給較便宜的滑動窗口層,並將較少的 query heads 分配給昂貴的全域層,同時保持 KV heads 固定。這確保了注意力容量被花在計算效率最高的地方。
ZAYA1-8B:壓縮卷積注意力 (Compressed Convolutional Attention, CCA)
ZAYA1-8B 由 Zyphra 開發,引入了壓縮卷積注意力 (CCA),一種直接在壓縮潛在空間 (latent space) 中運行的機制。
與 Multi-head Latent Attention (MLA) 不同,MLA 主要使用潛在表徵來減少 KV cache 在投影回計算之前,CCA 則是在壓縮空間內直接執行注意力操作。這不僅減少了 KV cache 大小,還減少了 prefill 和訓練期間所需的 FLOPs。
為了減輕壓縮造成的表達能力損失,CCA 在壓縮的 Query (Q) 和 Key (K) 表徵上採用了卷積混合 (convolutional mixing)。這些卷積在計算注意力分數之前為壓縮向量提供了局部上下文,開發者聲稱這使得 CCA 在相似的壓縮設置下能優於 MLA。
DeepSeek V4:mHC 與序列壓縮
DeepSeek V4 在架構複雜度上實現了巨大飛躍,同時專注於殘差路徑 (residual pathway) 與注意力機制。
Manifold-Constrained Hyper-Connections (mHC)
DeepSeek V4 透過將單一殘差流 (residual stream) 替換為數個並行殘差流 (hyper-connections) 來實現殘差連接的現代化。為了防止信號在深層之間發生不可預測的放大或縮小,DeepSeek 引入了「流形約束 (manifold constraints)」。
殘差映射被投影到雙隨機矩陣 (doubly stochastic matrices) 的流形上(其中條目為非負且行/列總和為 1)。這確保了資訊在並行流之間穩定的重新分配,使殘差路徑更具表達力,而不會顯著增加 Attention 或 MoE 層的 FLOPs。
CSA 與 HCA:序列長度壓縮
雖然 MLA 壓縮了每個 token 的 表徵,但 DeepSeek V4 的 Compressed Sparse Attention (CSA) 與 Heavily Compressed Attention (HCA) 壓縮的是 序列長度 本身。
- CSA (Compressed Sparse Attention): 使用輕微的壓縮率與一個稀疏選擇器 (sparse selector) 來識別最相關的壓縮歷史塊 (blocks)。
- HCA (Heavily Compressed Attention): 採用激進的壓縮 (例如,將 128 個 token 壓縮為一個條目),並對這些條目進行密集注意力計算。
透過交錯使用 CSA 與 HCA 層,並為近期 token 保持一個局部滑動窗口分支,DeepSeek V4-Pro 實現了巨大的開銷開銷 (overhead) 減少。在 1M-token 上下文下,與 DeepSeek V3.2 相比,它僅使用 10% 的 KV cache 大小與 27% 的 inference FLOPs。
架構趨勢總結
從 GPT-2 到 DeepSeek V4 的演進顯示出一個清晰的軌跡:transformer block 不再是一個靜態實體,而是一個由專門化優化組件構成的模組化系統。目前的趨勢是透過增加 block 內部的複雜度來降低運行時的成本。
| Model | Primary Efficiency Innovation | Target Metric |
|---|---|---|
| Gemma 4 | Cross-layer KV sharing & PLE | KV Cache Memory / Parameter Efficiency |
| Laguna XS.2 | Per-layer query-head budgeting | Attention FLOPs |
| ZAYA1-8B | Compressed Convolutional Attention | KV Cache & Attention FLOPs |
| DeepSeek V4 | mHC & CSA/HCA | Residual Expressiveness / Long-Context Memory |
隨著這些模型向代理工作流與大規模上下文窗口邁進,在保持建模品質的同時,能夠精準地減少記憶體與計算開銷,將成為下一代 LLM 架構的定義性特徵。