上下文无损压缩（LCM）

张

张建站

2026/5/17 2:12:16

10分钟阅读

基于大语言模型LLM的智能体系统都有一个共同问题上下文窗口是有限的而真实任务是无限的。过去几年模型的上下文窗口差不多每六个月就翻倍从最初的 4K到 128K、再到1M但更大的窗口并不等于更好的记忆。实际生产环境下Agent往往需要长时间运行多任务执行比如编码场景多任务处理、完整的代码库分析、跨越数十个工具调用的工作流等等这类场景产生的上下文体量超出了任何当前模型的窗口限制。实际开发中也还有一个点要注意用户历史记录、上下文信息、Agent消息存储不是等价关系。现有方案截断最简单粗暴的做法是超出限制时丢弃最早的消息只保留最近 N 条。实现成本最低这其实就有损且不可逆的方案。尤其是工具调用产生的内容占比相当大~摘要按照一定规则上下文占比、对话数量、工具调用次数等等让模型把旧对话压缩成摘要。摘要的质量取决于模型。RAG把历史信息嵌入向量数据库检索时按语义相似度取回最相关的片段塞入当前上下文。RAG 的是为静态知识库设计的而不是为对话历史设计的。RAG 适合处理大规模、异构的文档语料失败模式是检索到不相关内容而智能体的对话历史高度连贯充满近似重复、相互指涉的内容直接套用 top-k 相似度检索会导致大量冗余片段被堆砌在一起同时丢失关键的对话结构。比如**谁说的、回应什么、最后决定了什么**这些结构性信息在向量化之后往往被抹掉了。还有很多有损压缩的方案比如类似于操作系统的内存管理策略、让模型自己编写代码自主管理等等~LCMLCMLossless Context Management论文https://papers.voltropy.com/LCM类比于早期很多编程语言用无限制的 GOTO 跳转实现任何控制流非常灵活但代码难以推理、容易出错。结构化编程则用受约束的语法for、while、if/else取代了 GOTO可阅读性在理论上有所缩减但可靠性大幅提升。LCM 相当于是提供了结构化控制流一套定义清晰、确定性执行的算子覆盖绝大多数场景同时把不确定性留在引擎层而非暴露给模型。架构LCM 的核心是两个分离的存储层不可变存储Immutable Store是唯一的可信数据来源。每一条用户消息、AI回复、工具调用结果都按照原始方式持久化不进行任何修改记录是完整的、不可篡改的会话档案。活跃上下文Active Context是实际发送给模型的窗口。相当于不可变存储的一个视图由最近的原始消息和经过 LLM 压缩的摘要节点混合组成。摘要只是派生的缓存底层原始数据始终保留。任何摘要都可以被还原为原始内容这是论文中所谓无损的技术含义了。层次化 DAG随着对话推进较旧的消息会被压缩进摘要节点形成一个有向无环图DAG•D0 叶节点覆盖最近几分钟的消息压缩粒度最细•D1 节点覆盖数小时的历史由多个 D0 节点聚合生成•D2 节点覆盖数天的历史由多个 D1 节点进一步聚合模型在任意时刻看到的活跃上下文包括系统提示、最高层摘要节点提供历史全貌、最近的原始消息提供细节。也就是说距离越远的事件以越粗粒度的摘要呈现最近的事件则以完整原文保留。另外每个摘要节点都携带指向其源消息的指针。模型可以通过lcm_grep全文检索、lcm_describe查看节点元数据、lcm_expand展开摘要还原原文三个工具随时抓取任意历史层级。三级压缩有一个比较严重的问题是压缩如果失败了模型被要求总结一段文本时有时会输出比输入还长的内容。LCM 通过三级压缩策略L1详细摘要常规 LLM 摘要要求保留细节L2激进压缩若 L1 未能缩减 token 量切换到要点罗列模式目标 token 减半L3确定性截断若 L2 仍然失败不再调用 LLM直接截断至固定长度短任务零开销LCM对于绝大多数日常对话并不触发任何压缩。LCM 设置了软阈值和硬阈值两条触规则。在软阈值以下不可变存储只是被动记录模型直接看到原始对话延迟与直接调用基础模型完全相同。超过软阈值后压缩在后台异步执行在两次对话之间完成不阻塞用户。只有在极端情况下硬阈值被触发才会有同步阻塞。短任务零开销长任务按需压缩用户体验始终流畅。大规模数据处理LCM 有两个有意思的设计是LLM-Map和Agentic-Map。当任务需要处理一个巨大的数据集时LCM 让模型发出一个工具调用把迭代和并发完全交给引擎# LCM 方式模型声明意图引擎处理执行tool_call(llm_map, input_pathdataset.jsonl, prompt对每条记录提取关键实体..., output_schema{...}, concurrency16)引擎用持久化存储跟踪每个条目的状态待处理、运行中、完成、失败用悲观锁保证精确一次执行语义自动重试失败项并用 JSON Schema 验证每条输出。输入输出文件存在磁盘上完全在模型的活跃上下文之外。模型不会看到原始数据集只会看到最终的聚合结果摘要无论数据集有多大上下文都不会被污染。结语LCM 对无损的定义是系统设计为使得智能体可以检索并恢复任意历史状态但无法确定性地保证智能体一定会这样做。最终还是需要模型知道何时应该去查询历史。随着智能体任务变得更长、更复杂、更需要跨越时间维度的连贯性上下文管理依旧是 AI 系统设计中的复杂项。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

从手动到自动化：用AgentEval构建Agent评测体系

随着LLM和Agent能力的迅速发展，团队也在不同的场景用Agent做交付，有些场景很依赖基础模型的能力，换个模型可能效果就一落千丈，同样，Agent 改了一版 prompt，线上效果变好了；又改了一版&#xff0…...

2026/5/17 2:12:15 阅读更多 →

AI科技热点日报 | 2026年5月16日

文章目录AI科技热点日报 | 2026年5月16日一、大模型与基础技术《人工智能终端智能化分级》系列国家标准发布"九章四号"量子计算原型机刷新世界纪录二、AI政策与监管人工智能科技伦理审查与服务先导计划启动工信部部署高质量行业数据集建设三、Agent与应用"AI教育…...

2026/5/17 2:09:10 阅读更多 →

DashClaw：模块化命令行工具的设计哲学与实战应用

1. 项目概述：一个为开发者打造的“瑞士军刀”式命令行工具最近在折腾一个自动化部署脚本时，遇到了一个老生常谈的问题：我需要从一堆杂乱的日志文件里，快速提取出特定时间段的错误信息，同时还要把这些信息按照严重程度分…...

2026/5/17 2:06:59 阅读更多 →

单相光伏发电并网控制【附代码】

✨ 长期致力于光伏电池、整流控制、逆变控制、最大功率点跟踪技术研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）自适应变步长电导增量法最大功率点跟…...

2026/5/17 0:02:22 阅读更多 →

【代码】hot100

Easy 两数之和两数之和 class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:xdict{}for i in range(len(nums)):jtarget-nums[i]if j in xdict.keys():return [i,xdict[j]]else:xdict[nums[i]]i 有效的括号有效的括号 class Soluti…...

2026/5/17 0:02:22 阅读更多 →

G-Helper终极教程：华硕笔记本轻量级性能控制神器

G-Helper终极教程：华硕笔记本轻量级性能控制神器【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expertb…...

2026/5/17 0:03:31 阅读更多 →