Transformer 架构解析:MHA、MQA、GQA 与 MLA 对比
在 Transformer 模型席卷 AI 领域的今天“Attention is All You Need”这句口号不仅代表了模型的威力也隐藏了它在推理时的巨大挑战。随着上下文长度的不断增加一个被称为KV Cache键值缓存的“记忆仓库”变得越来越大成为了限制大语言模型LLM推理性能和显存利用率的最大瓶颈。为了解决这个核心痛点模型架构师们不断探索推出了一系列注意力机制的变体。今天我们将基于以下这张直观的图表深入解析从经典的 Multi-Head Attention (MHA) 到最新的前沿技术 Multi-Head Latent Attention (MLA) 的演进之路看看它们是如何在不牺牲模型能力的前提下极大幅度地压缩 KV Cache 大小的。引言什么是 KV Cache 以及为什么它是个问题在 LLM 生成回答的过程中为了避免重复计算之前生成的词模型会将历史生成的词的 Key (K) 和 Value (V) 矩阵缓存到显存中。随着上下文的加长这个 KV Cache 会爆发式增长。当 batch size 很大或上下文极长时KV Cache 占用的显存甚至会超过模型参数本身的显存。这导致了两个主要问题显存不足OOM撑爆显存导致无法处理长文本或大批次的请求。推理带宽瓶颈从显存中读取庞大的 KV 矩阵变得非常慢严重拖慢推理速度。理解了这一点我们就理解了接下来四种机制的演进动机如何“开源节流”——既减少显存占用又尽量保留多头的表达能力。核心机制详解逐一攻克显存痛点1. Multi-Head Attention (MHA) - 经典形态最“土豪”的方案MHA 是 Transformer 的奠基之石。结构图解左一每一个 Query (Q) 头都有一个专属的 Key (K) 头和 Value (V) 头。它们的比例是N:N:NN : N : NN:N:N。原理解析互不干扰每个头都独立学习不同的特征捕捉细腻的信息。优缺点缺点显存占用极高。推理时你需要为每一个头保存一份完整的 K 和 V 矩阵当 batch size 或上下文变长KV Cache 会迅速成为最大的瓶颈。⭐优点模型表达能力最强。代表模型早期的 BERT、GPT-3 等。2. Multi-Query Attention (MQA) - 极致压缩极简主义MQA 是将“共享”做到极致的方案通过“物理共享”来省显存。结构图解右二将 MHA 的逻辑反过来所有的 Q 头全部共享唯一的一个 K 头和一个 V 头。比例是N:1:1N : 1 : 1N:1:1。原理解析极大幅度地压缩显存把 MHA 的NNN个 KV 头压缩成了111个。优缺点优点KV Cache 显存占用极低推理速度极快。⭐缺点模型表达能力明显下降。因为所有的 Q 都在用同一个 K 和 V严重限制了多头的优势生成质量容易降低。代表模型较早期的追求极致速度的模型或在某些特定应用中。3. Grouped-Query Attention (GQA) - 完美折中行业标准GQA 是一种“聪明的妥协”是 MHA 和 MQA 的最佳平衡点。结构图解左二将所有的 Q 头分成几个“组”Groups。在同一个组内的 Q 头共享同一个 K 头和 V 头。原理解析它既避免了 MQA 的过拟合又大幅降低了显存占用。优缺点优点显存占用中等。⭐优点模型表达能力非常接近 MHA。GQA 成为了当今主流 LLM 的标准配置。代表模型LLaMA-2, LLaMA-3, Qwen 等现代模型。4. Multi-Head Latent Attention (MLA) - 前沿技术跨时代演进MLA 是较新的革命性技术由DeepSeek-V2 / V3系列模型引入。它不再通过“物理共享”来省显存而是引入了“压缩与解压”的思想。结构图解右一MLA 的 Q 依然是多头的。但是它不再直接存储巨大的多头 K 和 V 矩阵而是将上下文信息先压缩成一个极小的**低维潜在向量Compressed Latent KV**缓存起来。原理解析如图中黑色箭头projection所示在需要计算注意力时模型会临时把这个压缩后的 Latent KV 映射回完整的多头 K 和 V 状态然后再与 Q 进行计算。优缺点优点KV Cache 占用极低甚至等同或低于 MQA但模型效果几乎能够完全媲美 MHA。这种“用算力换空间”的方法极其巧妙。代表模型DeepSeek-V2 / V3 系列。深度对比从 MHA 到 MLA 的权衡为了更直观地理解我们将这四种机制进行一个全方位的对比注意力机制Q:K:V 头数比例显存占用 (KV Cache)模型表达能力 / 性能推理带宽瓶颈压力适用场景MHAN:N:NN : N : NN:N:N 极高 (最大)⭐⭐⭐⭐⭐ 最强 极高训练期或早期模型MQAN:1:1N : 1 : 1N:1:1 极低⭐⭐⭐ 较弱 极低追求极致速度GQAN:G:GN : G : GN:G:G 中等⭐⭐⭐⭐ 接近MHA 中等目前行业标配MLA压缩映射 极低⭐⭐⭐⭐⭐媲美MHA 极低下一代高效模型深度解析演进背后的逻辑MHA 到 MQA 的路径是一次为了解决显存瓶颈的“大裁员”。虽然显存占用和带宽压力大幅降低但模型能力的下降是不可接受的。MQA 到 GQA 的路径是一次“合伙人制度”。它找到了一个甜蜜点通过合理的分组共享既实现了显存压缩又保留了相当不错的表达能力。GQA 到 MLA 的路径则是一次“革命性演进”。它跳出了“物理共享”的思维定势引入了低秩映射compression利用推理时的少量额外计算来换取极大的显存空间同时通过解压保留了多头的本质特征。DeepSeek 的成功证明了这一方案的巨大潜能。结论与展望迈向更高效的 LLM 推理通过对这四种机制的详解我们清晰地看到了 Attention 机制不断向高效、资源友好方向演进的轨迹。GQA 目前是行业标配在性能和显存之间找到了极佳的平衡。MLA 则代表了前沿它展示了如何通过创新的压缩技术在资源极其受限的情况下实现媲美 MHA 的高表达能力。