LLM 效率的演进：KV 共享、mHC 与压缩注意力机制

大语言模型 (LLM) 架构的格局正在发生变化。虽然基础的 decoder-only transformer 仍然是主流，但重点已从单纯地扩展参数规模转向优化长上下文效率。随着推理模型和智能体工作流 (agentic workflows) 要求模型在更长时间内将更多 token 保持在内存中，KV-cache 大小、内存带宽和注意力机制成本已成为主要的瓶颈。

Google、DeepSeek 以及其他开源权重贡献者的最新发布揭示了一个趋势：引入复杂的“架构技巧” (architecture tricks)，旨在不牺牲表达能力的前提下，减少长上下文推理的计算和内存占用。

Gemma 4：KV 共享与逐层嵌入 (Per-Layer Embeddings)

Google 的 Gemma 4 系列在其较小变体 (E2B 和 E4B) 中引入了两种重要的面向效率的设计选择。

跨层 KV 共享 (Cross-Layer KV Sharing)

为了应对 KV cache 的内存需求，Gemma 4 采用了共享 KV cache 方案。虽然 Grouped Query Attention (GQA) 已经在单个层内跨多个 query heads 共享了 KV heads，但 Gemma 4 更进一步，在不同层之间共享 KV 投影 (projections)。

在这种设置下，后续层会复用来自相同注意力类型中最近的一个非共享的前层 KV 状态。例如，在 Gemma 4 E2B 模型中，35 层中只有前 15 层计算其自身的 KV 投影；其余 20 层则复用它们。这有效地将 KV cache 大小减半，在 E2B 模型中为 128K 上下文节省了约 2.7 GB 内存，在 E4B 模型中则节省了 6 GB。

逐层嵌入 (Per-Layer Embeddings, PLE)

虽然 KV 共享减少了内存，但 PLE 专注于参数效率。其目标是允许小模型在不扩展整个 transformer stack 的情况下，利用更多的 token 特定信息。

PLE 不再为每个 block 提供 token embedding 层的一个完整副本，而是为每个 transformer block 提供一个小的、层特定的 token 向量。该向量由隐藏状态 (hidden state) 门控，并在前馈分支 (feed-forward branch) 之后作为额外的残差更新 (residual update) 加入。这使得模型能够在保持昂贵的 transformer blocks 较小的“有效”参数量的同时，存储在更廉价的、查找式的嵌入表 (embedding tables) 中额外的容量。

Laguna XS.2：逐层注意力预算分配 (Layer-wise Attention Budgeting)

Poolside 的 Laguna XS.2 引入了“逐层注意力预算分配”的概念，挑战了“每个 transformer 层都需要相同的注意力容量”这一假设。

Laguna XS.2 通过混合使用 30 个滑动窗口注意力层 (local context) 和 10 个全局注意力层 (full context) 来改变每一层的注意力成本。其创新之处在于使用了逐层 query-head 计数。具体来说，该模型为较廉价的滑动窗口层分配了更多的 query heads，而为昂贵的全局层分配了较少的 query heads，同时保持 KV heads 固定。这确保了注意力容量被分配在计算效率最高的地方。

ZAYA1-8B：压缩卷积注意力 (Compressed Convolutional Attention, CCA)

Zyphra 开发的 ZAYA1-8B 引入了压缩卷积注意力 (Compressed Convolutional Attention, CCA)，一种直接在压缩潜空间 (latent space) 中运行的机制。

与 Multi-head Latent Attention (MLA) 不同，MLA 主要使用潜表示 (latent representations) 来在投影回计算之前减少 KV cache，而 CCA 则直接在压缩空间内执行注意力操作。这不仅减少了 KV cache 大小，还减少了 prefill 和训练期间所需的 FLOPs。

为了减轻压缩带来的表达能力损失，CCA 在压缩的 Query (Q) 和 Key (K) 表示上采用了卷积混合 (convolutional mixing)。这些卷积在计算注意力分数之前为压缩向量提供了局部上下文 (local context)，开发者称这使得 CCA 在同等压缩设置下优于 MLA。

DeepSeek V4：mHC 与序列压缩

DeepSeek V4 在架构复杂度方面实现了巨大飞跃，同时关注残差路径 (residual pathway) 和注意力机制。

流形约束超连接 (Manifold-Constrained Hyper-Connections, mHC)

DeepSeek V4 通过将单一的残差流 (residual stream) 替换为多个并行的残差流 (hyper-connections) 使残差连接进行了现代化改造。为了防止信号在深层之间发生不可预测的放大或缩小，DeepSeek 引入了“流形约束” (manifold constraints)。

残差映射被投影到双随机矩阵 (doubly stochastic matrices) 的流形上（其中条目为非负且行/列之和为 1）。这确保了信息在并行流之间进行稳定的重新分配，使得残差路径更具表达力，而不会显著增加 Attention 或 MoE 层的 FLOPs。

CSA 和 HCA：序列长度压缩

虽然 MLA 压缩了每个 token 的表示，但 DeepSeek V4 的压缩稀疏注意力 (Compressed Sparse Attention, CSA) 和重度压缩注意力 (Heavily Compressed Attention, HCA) 压缩的是 序列长度 本身。

CSA (Compressed Sparse Attention): 使用轻度压缩率和稀疏选择器 (sparse selector) 来识别最相关的压缩历史块 (history blocks)。
HCA (Heavily Compressed Attention): 采用激进的压缩 (例如，将 128 个 token 转换为一个条目)，并在这些条目上执行密集注意力 (dense attention)。

通过交替使用 CSA 和 HCA 层并为近期 token 保持一个局部滑动窗口分支，DeepSeek V4-Pro 实现了大幅度的开销减小。在 1M-token 上下文下，与 DeepSeek V3.2 相比，它仅使用 10% 的 KV cache 大小和 27% 的 Attention FLOPs。

架构趋势总结

从 GPT-2 到 DeepSeek V4 的演进显示出一条清晰的轨迹：transformer block 不再是一个静态实体，而是由专门化优化的模块化系统。目前的趋势是在 block 内部增加复杂度，以换取运行时 (runtime) 的成本降低。

Model	Primary Efficiency Innovation	Target Metric
Gemma 4	Cross-layer KV sharing & PLE	KV Cache Memory / Parameter Efficiency
Laguna XS.2	Per-layer query-head budgeting	Attention FLOPs
ZAYA1-8B	Compressed Convolutional Attention	KV Cache & Attention FLOPs
DeepSeek V4	mHC & CSA/HCA	Compressed Representation / Long-Context Memory
DeepSeek V4	mHC & CSA/HCA	Residual Expressiveness / Long-Context Memory
DeepSeek V4	mHC & CSA/HCA	Residual Expressiveness / Long-Context Memory
DeepSeek V4	mHC & CSA/HCA	Residual Expressiveness / Long-Context Memory
DeepSeek V4	mHC & CSA/HCA	mHC & CSA/HCA
DeepSeek V4	mHC & CSA/HCA	mHC & CSA/HCA
DeepSeek V4	mHC & CSA/HCA	mHC & CSA/HCA
DeepSeek V4	mHC & CSA/HCA	mHC & CSA/HCA
DeepSeek V4	mHC & CSA/HCA	Target Metric
Target Metric
**Gemma
Gemma 4	Cross-layer KV sharing & PLE	KV Cache Memory / Parameter Efficiency
Laguna XS.2	Primary Efficiency Innovation	Primary Efficiency Innovation
Laguna XS.2 de	de	de

LLM 效率的演进：KV 共享、mHC 与压缩注意力机制

LLM 效率的演进：KV 共享、mHC 与压缩注意力机制

Gemma 4：KV 共享与逐层嵌入 (Per-Layer Embeddings)

跨层 KV 共享 (Cross-Layer KV Sharing)

逐层嵌入 (Per-Layer Embeddings, PLE)

Laguna XS.2：逐层注意力预算分配 (Layer-wise Attention Budgeting)

ZAYA1-8B：压缩卷积注意力 (Compressed Convolutional Attention, CCA)

DeepSeek V4：mHC 与序列压缩

流形约束超连接 (Manifold-Constrained Hyper-Connections, mHC)

CSA 和 HCA：序列长度压缩

架构趋势总结

Sources