LLM 효율성의 진화: KV Sharing, mHC, 그리고 Compressed Attention

LLM 효율성의 진화: KV Sharing, mHC, 그리고 Compressed Attention

Large Language Model (LLM) 아키텍처의 지형이 변화하고 있습니다. 근본적인 decoder-only transformer는 여전히 표준으로 남아 있지만, 초점은 단순히 파라미터를 확장하는 것에서 긴 문맥(long-context) 효율성을 최적화하는 것으로 이동했습니다. 추론 모델과 에이전트 워크플로우가 더 많은 토큰을 더 오랜 기간 동안 메모리에 유지해야 함에 따라, KV-cache 크기, 메모리 트래픽, 그리고 attention 비용이 주요 병목 현상이 되었습니다.

Google, DeepSeek, 그리고 기타 open-weight 기여자들의 최근 릴리스는 한 가지 트렌드를 보여줍니다. 바로 표현 능력을 희생하지 않으면서 긴 문맥 추론의 계산 및 메모리 발자국을 줄이기 위해 설계된 복잡한 "아키텍처 트릭"의 도입입니다.

Gemma 4: KV Sharing 및 Per-Layer Embeddings

Google의 Gemma 4 제품군은 더 작은 변체(E2B 및 E4B)에서 두 가지 중요한 효율성 지향적 설계 선택을 도입합니다.

Cross-Layer KV Sharing

KV cache의 메모리 요구 사항에 대응하기 위해, Gemma 4는 공유 KV cache 스킴을 채택합니다. Grouped Query Attention (GQA)가 이미 단일 레이어 내의 여러 query head와 KV head를 공유하고 있지만, Gemma 4는 이를 더 확장하여 서로 다른 레이어 간에 KV projection을 공유합니다.

이 설정에서, 나중 레이어들은 동일한 attention type의 가장 최근의 이전 non-shared 레이어로부터 key-value 상태를 재사용합니다. 예를 들어, Gemma 4 E2B 모델에서는 35개의 레이어 중 처음 15개 레이어만이 자체 KV projection을 계산하며, 나머지 20개는 이를 재사용합니다. 이는 효과적으로 KV cache 크기를 절반으로 줄여, E2B 모델에서 128K 문맥 시 약 2.7 GB의 메모리를, E4B 모델에서는 6 GB를 절약합니다.

Per-Layer Embeddings (PLE)

KV sharing이 메모리를 줄인다면, PLE는 파라미터 효율성에 집중합니다. 목표는 작은 모델이 전체 transformer stack을 확장하지 않고도 더 많은 토큰별 정보를 활용할 수 있도록 하는 것입니다.

각 블록에 토큰 embedding layer의 전체 복사본을 제공하는 대신, PLE는 각 transformer block에 작고 레이어별로 특화된 토큰 벡터를 제공합니다. 이 벡터는 hidden state에 의해 게이팅(gated)되며, feed-forward branch 이후에 추가적인 residual update로 더해집니다. 이를 통해 모델은 값비싼 transformer block에 대해 더 작은 "유효" 파라미터 수를 유지하면서, 더 저렴한 lookup-style embedding table에 추가적인 용량을 저장할 수 있습니다.

Laguna XS.2: Layer-wise Attention Budgeting

Poolside의 Laguna XS.2는 모든 transformer 레이어가 동일한 attention 용량을 필요로 한다는 가정을 반박하는 "Layer-wise attention budgeting" 개념을 도입합니다.

Laguna XS.2는 30개의 sliding-window attention 레이어(로컬 문맥)와 10개의 global attention 레이어(전체 문맥)를 혼합하여 레이어별로 attention 비용을 변화시킵니다. 혁신은 레이어별 query-head 수의 사용에 있습니다. 구체적으로, 모델은 KV head는 고정된 상태로 유지하면서, 더 저렴한 sliding-window 레이어에는 더 많은 query head를 할당하고, 더 비싼 global 레이어에는 더 적은 query head를 할당합니다. 이는 attention 용량이 계산적으로 가장 효율적인 곳에 사용되도록 보장합니다.

ZAYA1-8B: Compressed Convolutional Attention (CCA)

Zyphra가 개발한 ZAYA1-8B는 압축된 latent space에서 직접 작동하는 메커니즘인 Compressed Convolutional Attention (CCA)를 도입합니다.

Multi-head Latent Attention (MLA)가 주로 계산을 위해 다시 투영하기 전 KV cache를 줄이기 위해 latent representation을 사용하는 것과 달리, CCA는 압축된 공간 내에서 attention operation 자체를 수행합니다. 이는 KV cache 크기뿐만 아니라 prefill 및 training 과정에서 요구되는 FLOPs를 줄여줍니다.

압축으로 인한 표현력 손실을 완감하기 위해, CCA는 압축된 Query (Q)와 Key (K) 표현에 convolutional mixing을 적용합니다. 이러한 convolution은 attention score가 계산되기 전에 압축된 벡터에 로컬 문맥을 제공하며, 개발자들은 이를 통해 CCA가 유사한 압축 설정에서 MLA를 능가할 수 있다고 주장합니다합니다.

DeepSeek V4: mHC 및 Sequence Compression

DeepSeek V4는 residual pathway와 attention mechanism 모두에 초점을 맞춘 아키텍처 복잡성의 거대한 도약을 나타냅니다.

Manifold-Constrained Hyper-Connections (mHC)

DeepSeek V4는 단일 residual stream을 여러 개의 병렬 residual stream(hyper-connections)으로 교체함으로써 residual connection을 현대화합니다. 신호가 깊은 레이어에 걸쳐 예측 불가능하게 증폭되거나 축소되는 것을 방지하기 위해, DeepSeek는 "manifold constraints"를 도입합니다.

Residual mapping은 doubly stochastic matrices의 manifold(항목이 비음수이고 행/열의 합이 1인 행렬) 위로 투영됩니다. 이는 병렬 stream들을 통해 정보의 안정적인 재분배를 보장하며, Attention 또는 MoE 레이어의 FLOPs를 크게 증가시키지 않으면서 residual pathway를 더 표현력 있게 만듭니다.

CSA 및 HCA: Sequence-Length Compression

MLA가 각 토큰의 representation을 압축하는 것과 달리, DeepSeek V4의 Compressed Sparse Attention (CSA)와 Heavily Compressed Attention (HCA)는 sequence length 자체를를 압축합니다.

  • CSA (Compressed Sparse Attention): 완만한 압축률을 사용하고 sparse selector를 사용하여 가장 관련 있는 압축된 history blocks를 식별합니다.
  • HCA (Heavily Compressed Attention): 공격적인 압축(예: 128개 토큰을 하나의 entry로 압축)을 수행하고 해당 entry들에 대해 dense attention을 수행합니다.

CSA와 HCA 레이어를 교차 배치하고 최근 토큰을 위한 로컬 sliding-window branch를 유지함으로써, DeepSeek V4-Pro는 엄청난 오버헤드 감소를 달성성합니다. 1M-token 문맥에서, DeepSeek V3.2와 비교하여 KV cache 크기의 10%만 사용하고 inference FLOPs의 27%만 사용합니다.

Summary of Architectural Trends

GPT-2에서 DeepSeek V4까지의 진화는 명확한 궤적을 보여줍니다: transformer block은 더 이상 정적인 엔티티가 아니라 특수화된 최적화의 모듈식 시스템입니다. 현재의 트렌드는 런타임 비용을 줄이기 위해 블록 내부의 복잡성을 높이는 것입니다.

Model Primary Efficiency Innovation Target Metric
Gemma 4 Cross-layer KV sharing & PLE KV Cache Memory / Parameter Efficiency
Laguna XS.2 Per-layer query-head budgeting Attention FLOPs
ZAYA1-8B Compressed Convolutional Attention KV Cache & Attention FLOPs
DeepSeek V4 mHC & CSA/HCA Residual Expressiveness / Long-Context Memory

이러한 모델들이 에이전트 워크플로우와 거대한 문맥 창(context window)을 향해 나아가면서, 모델링 품질을 유지하면서 메모리와 계산 오버헤드를 정밀하게 줄이는 능력은 차세대 LLM 아키텍처의 결정적인 특징이 될 것입니다.

Sources