TriAttention助力:单张RTX 4090跑通32B大模型,吞吐量提2.5倍、内存缩10.7倍!
TriAttention单张RTX 4090跑通32B大模型2.5倍吞吐、10.7倍内存缩减一张RTX 4090拥有24GB显存若用它跑一个32B参数的大模型做agent任务且不做任何KV压缩显存会直接爆掉连模型都跑不起来。不过换上TriAttention后模型就能稳稳跑起来还能顺利读完6份文档并自动生成一份完整周报。这可不是社区大神的魔改成果而是出自一篇来自MIT、英伟达、浙大的联合论文。其核心思路是在pre - RoPE空间里用Q/K的三角集中度来估计每个KV token的重要程度然后只保留真正重要的那些。打个比方别的方法压缩KV cache就像是把所有行李都塞进压缩袋不管里面是羽绒服还是砖头一律压扁而TriAttention则是先翻一遍行李箱把砖头扔掉只给羽绒服打包。TriAttention demo演示展示了单张RTX 4090上Qwen3 - 32B完成OpenClaw agent任务的完整过程。作者之一Yukang Chen在X上发布了这组对比左边未进行压缩时显存直接报错右边开启TriAttention后agent一路读完6份文档完整输出了周报。效果如何用数字说话。在AIME25数学推理任务上TriAttention在匹配Full Attention准确率40.8%的前提下吞吐量提升了2.5倍再看内存KV cache内存缩减了10.7倍。在AIME25Qwen3 - 8B上的性能权衡方面(A) 在相同准确率40.8%下TriAttention的吞吐量比Full Attention高2.5倍(B) TriAttention在保持与Full Attention相同准确率的同时将KV缓存内存减少了10.7倍。需要注意的是这里说的是KV cache memory不是整机显存也不是模型参数占用的总内存。但即便只是KV cache这一项对长序列推理场景来说往往就是压垮显存的最后一根稻草砍掉这一项就是能跑和不能跑的分界线。主实验是在Qwen3 - 8B上做的覆盖AIME24、AIME25、MATH500等任务。在32K token的生成长度条件下TriAttention几乎没有牺牲精度但把推理效率提升到了一个新台阶。这篇论文附录中提到了一个真实部署案例。场景是OpenClaw一个多轮agent工作流任务是读6份markdown文档生成一份周报。模型是Qwen3 - 32B采用了AWQ INT4量化运行在一张RTX 409024GB上。若不压缩KV cache直接执行这个任务显存会当场爆掉因为长系统提示加上多轮文档读取会使KV cache膨胀到显存根本无法承受。而TriAttention接管之后agent顺利读完所有文档生成了完整报告。该模型用的是Qwen3 - 32B AWQ INT4量化版不是原始FP16满血版跑的是OpenClaw agent工作流不是通用长文本benchmark。但它刚好证明了「一个完整的、有实际生产价值的agent任务可以在消费级硬件上跑通」。TriAttention不只是停留在论文里。作者已经在GitHub仓库中提供了vLLM集成README明确写到TriAttention包含一个vLLM插件并给出了OpenAI兼容API的server mode、Python API以及OpenClaw接入说明。相比论文中的实验结果这属于仓库层面的工程化扩展。这意味着不需要更改模型架构也不需要重新训练只需要挂上这个插件就能在现有的vLLM推理管线上获得KV压缩收益。在Apple Silicon方向上官方仓库里单独放了一份docs/mlx.md覆盖M1到M4全系芯片基于MLX框架和mlx - lm运行附带示例代码和硬件benchmark。不过官方文档标题中也标注了这还是实验性支持这说明他们已经在早期试水MLX了但离成熟的Mac本地部署还有距离。KV cache压缩赛道存在两条路线。一条是量化派。Google Research在3月24日发布了TurboQuant官方博客将其定位为「在零精度损失下实现极致压缩」的方案主打把KV cache和向量搜索的bit数压到极低。在Google Research官方博客的LongBench基准测试图中TurboQuant在LongBench基准测试中相较于多种压缩方法在Llama - 3.1 - 8B - Instruct模型上展现出稳健的KV缓存压缩性能。社区已经有人在Apple Silicon上用TurboQuant跑通了Gemma 4 31B。另一条是选择性保留派TriAttention就是这条路线的新代表它不压缩bit而是直接判断哪些token的KV值得保留、哪些可以舍弃。两条路线的终点其实一样让大模型跑在消费级硬件上显存不炸精度不掉。但方法论完全不同量化是把每个行李都压扁选择性保留是直接减少行李数量。理论上两者甚至可以叠加使用。目前还没有严格的同模型、同硬件、同任务的head - to - head对比所以「谁碾压谁」还无法确定。但可以确定的是这两条路线正在加速向消费级部署推进。一年前「本地跑大模型」还是极客圈的行为艺术跑个7B都要折腾半天。现在32B模型能在单张消费级卡上完成agent任务Apple Silicon上的MLX生态一周一个新仓库vLLM插件让KV压缩变成「挂上就用」的一键方案。KV cache压缩这条赛道正在从论文里的消融实验变成每个开发者都能触碰到的工程现实。作者简介Weian Mao现为MIT CSAIL博士后研究员博士毕业于阿德莱德大学AIML师从沈春华教授。其当前研究聚焦大语言模型尤其关注推理效率与长上下文推理中的KV cache压缩此前也从事过计算机视觉与蛋白质设计等方向研究。Xi Lin是浙江大学计算机科学与技术专业高年级本科生研究兴趣集中在高效AI的算法—系统协同设计尤其关注面向硬件友好的稀疏与量化模块设计以及高效推理策略。其工作与高性能计算、机器学习系统等方向密切相关。Wei Huang现为香港大学博士生研究聚焦Efficient AI与大型视觉/语言模型。目前他在NVIDIA Research实习与Yukang Chen等研究者合作并在Song Han指导下开展相关研究参与了QeRL、LongLive等工作。