LLM 效率的演进:KV 共享、mHC 与压缩注意力机制
LLM 效率的演进:KV 共享、mHC 与压缩注意力机制
大语言模型 (LLM) 架构的格局正在发生变化。虽然基础的 decoder-only transformer 仍然是主流,但重点已从单纯地扩展参数规模转向优化长上下文效率。随着推理模型和智能体工作流 (agentic workflows) 要求模型在更长时间内将更多 token 保持在内存中,KV-cache 大小、内存带宽和注意力机制成本已成为主要的瓶颈。
Google、DeepSeek 以及其他开源权重贡献者的最新发布揭示了一个趋势:引入复杂的“架构技巧” (architecture tricks),旨在不牺牲表达能力的前提下,减少长上下文推理的计算和内存占用。
Gemma 4:KV 共享与逐层嵌入 (Per-Layer Embeddings)
Google 的 Gemma 4 系列在其较小变体 (E2B 和 E4B) 中引入了两种重要的面向效率的设计选择。
跨层 KV 共享 (Cross-Layer KV Sharing)
为了应对 KV cache 的内存需求,Gemma 4 采用了共享 KV cache 方案。虽然 Grouped Query Attention (GQA) 已经在单个层内跨多个 query heads 共享了 KV heads,但 Gemma 4 更进一步,在不同层之间共享 KV 投影 (projections)。
在这种设置下,后续层会复用来自相同注意力类型中最近的一个非共享的前层 KV 状态。例如,在 Gemma 4 E2B 模型中,35 层中只有前 15 层计算其自身的 KV 投影;其余 20 层则复用它们。这有效地将 KV cache 大小减半,在 E2B 模型中为 128K 上下文节省了约 2.7 GB 内存,在 E4B 模型中则节省了 6 GB。
逐层嵌入 (Per-Layer Embeddings, PLE)
虽然 KV 共享减少了内存,但 PLE 专注于参数效率。其目标是允许小模型在不扩展整个 transformer stack 的情况下,利用更多的 token 特定信息。
PLE 不再为每个 block 提供 token embedding 层的一个完整副本,而是为每个 transformer block 提供一个小的、层特定的 token 向量。该向量由隐藏状态 (hidden state) 门控,并在前馈分支 (feed-forward branch) 之后作为额外的残差更新 (residual update) 加入。这使得模型能够在保持昂贵的 transformer blocks 较小的“有效”参数量的同时,存储在更廉价的、查找式的嵌入表 (embedding tables) 中额外的容量。
Laguna XS.2:逐层注意力预算分配 (Layer-wise Attention Budgeting)
Poolside 的 Laguna XS.2 引入了“逐层注意力预算分配”的概念,挑战了“每个 transformer 层都需要相同的注意力容量”这一假设。
Laguna XS.2 通过混合使用 30 个滑动窗口注意力层 (local context) 和 10 个全局注意力层 (full context) 来改变每一层的注意力成本。其创新之处在于使用了逐层 query-head 计数。具体来说,该模型为较廉价的滑动窗口层分配了更多的 query heads,而为昂贵的全局层分配了较少的 query heads,同时保持 KV heads 固定。这确保了注意力容量被分配在计算效率最高的地方。
ZAYA1-8B:压缩卷积注意力 (Compressed Convolutional Attention, CCA)
Zyphra 开发的 ZAYA1-8B 引入了压缩卷积注意力 (Compressed Convolutional Attention, CCA),一种直接在压缩潜空间 (latent space) 中运行的机制。
与 Multi-head Latent Attention (MLA) 不同,MLA 主要使用潜表示 (latent representations) 来在投影回计算之前减少 KV cache,而 CCA 则直接在压缩空间内执行注意力操作。这不仅减少了 KV cache 大小,还减少了 prefill 和训练期间所需的 FLOPs。
为了减轻压缩带来的表达能力损失,CCA 在压缩的 Query (Q) 和 Key (K) 表示上采用了卷积混合 (convolutional mixing)。这些卷积在计算注意力分数之前为压缩向量提供了局部上下文 (local context),开发者称这使得 CCA 在同等压缩设置下优于 MLA。
DeepSeek V4:mHC 与序列压缩
DeepSeek V4 在架构复杂度方面实现了巨大飞跃,同时关注残差路径 (residual pathway) 和注意力机制。
流形约束超连接 (Manifold-Constrained Hyper-Connections, mHC)
DeepSeek V4 通过将单一的残差流 (residual stream) 替换为多个并行的残差流 (hyper-connections) 使残差连接进行了现代化改造。为了防止信号在深层之间发生不可预测的放大或缩小,DeepSeek 引入了“流形约束” (manifold constraints)。
残差映射被投影到双随机矩阵 (doubly stochastic matrices) 的流形上(其中条目为非负且行/列之和为 1)。这确保了信息在并行流之间进行稳定的重新分配,使得残差路径更具表达力,而不会显著增加 Attention 或 MoE 层的 FLOPs。
CSA 和 HCA:序列长度压缩
虽然 MLA 压缩了每个 token 的 表示,但 DeepSeek V4 的压缩稀疏注意力 (Compressed Sparse Attention, CSA) 和重度压缩注意力 (Heavily Compressed Attention, HCA) 压缩的是 序列长度 本身。
- CSA (Compressed Sparse Attention): 使用轻度压缩率和稀疏选择器 (sparse selector) 来识别最相关的压缩历史块 (history blocks)。
- HCA (Heavily Compressed Attention): 采用激进的压缩 (例如,将 128 个 token 转换为一个条目),并在这些条目上执行密集注意力 (dense attention)。
通过交替使用 CSA 和 HCA 层并为近期 token 保持一个局部滑动窗口分支,DeepSeek V4-Pro 实现了大幅度的开销减小。在 1M-token 上下文下,与 DeepSeek V3.2 相比,它仅使用 10% 的 KV cache 大小和 27% 的 Attention FLOPs。
架构趋势总结
从 GPT-2 到 DeepSeek V4 的演进显示出一条清晰的轨迹:transformer block 不再是一个静态实体,而是由专门化优化的模块化系统。目前的趋势是在 block 内部增加复杂度,以换取运行时 (runtime) 的成本降低。
| Model | Primary Efficiency Innovation | Target Metric |
|---|---|---|
| Gemma 4 | Cross-layer KV sharing & PLE | KV Cache Memory / Parameter Efficiency |
| Laguna XS.2 | Per-layer query-head budgeting | Attention FLOPs |
| ZAYA1-8B | Compressed Convolutional Attention | KV Cache & Attention FLOPs |
| DeepSeek V4 | mHC & CSA/HCA | Compressed Representation / Long-Context Memory |
| DeepSeek V4 | mHC & CSA/HCA | Residual Expressiveness / Long-Context Memory |
| DeepSeek V4 | mHC & CSA/HCA | Residual Expressiveness / Long-Context Memory |
| DeepSeek V4 | mHC & CSA/HCA | Residual Expressiveness / Long-Context Memory |
| DeepSeek V4 | mHC & CSA/HCA | mHC & CSA/HCA |
| DeepSeek V4 | mHC & CSA/HCA | mHC & CSA/HCA |
| DeepSeek V4 | mHC & CSA/HCA | mHC & CSA/HCA |
| DeepSeek V4 | mHC & CSA/HCA | mHC & CSA/HCA |
| DeepSeek V4 | mHC & CSA/HCA | Target Metric |
| Target Metric | ||
| **Gemma | ||
| Gemma 4 | Cross-layer KV sharing & PLE | KV Cache Memory / Parameter Efficiency |
| Laguna XS.2 | Primary Efficiency Innovation | Primary Efficiency Innovation |
| Laguna XS.2 de | de | de |