向量数据库：给Agent装上“长期记忆”的实战手记

张

张建站

2026/6/1 18:18:32

10分钟阅读

昨天深夜调试一个多轮对话Agent被一个诡异的问题卡住了用户第三次问“我们刚才讨论的那个方案”Agent居然一脸茫然地反问“您指的是哪个方案”。明明前两轮对话里详细讨论过技术选型Agent却像得了健忘症。问题出在哪短期记忆缓冲区满了上下文被无情裁剪。这就是今天要解决的痛点如何让Agent记住过去的重要信息。一、为什么需要长期记忆传统的对话系统依赖固定长度的上下文窗口就像只有7秒记忆的金鱼。GPT-4的128K窗口看似很大但成本高昂且效率低下。更关键的是每次对话都要重新喂入全部历史这种“全量回忆”模式在长期交互中根本不可行。向量数据库的解决思路很巧妙把对话中的关键信息转换成向量存进专门的数据集。需要回忆时用当前问题向量去相似度检索只召回相关片段。这就像人脑的记忆机制——我们不会记住每顿午饭的细节但会记得“那家巷子里的面馆味道不错”。二、动手搭建记忆系统先看核心代码结构这里用ChromaDB做示例别一上来就怼Faiss小项目杀鸡用牛刀了classMemorySystem:def__init__(self,persist_dir./memory_db):# 这里踩过坑embedding模型要跟LLM匹配self.embeddingOpenAIEmbeddings(modeltext-embedding-3-small)self.vectorstoreChroma(embedding_functionself.embedding,persist_directorypersist_dir# 持久化目录否则重启就失忆)self.memory_buffer[]# 短期缓存先攒几条再存def_chunk_text(self,text,chunk_size500):切分文本别直接按字数硬切会切断句子# 简易版按句子分割生产环境建议用专门的分割器sentencestext.replace(。,.).split(.)chunks[]current_chunkforsentinsentences:iflen(current_chunk)len(sent)chunk_size:chunks.append(current_chunk)current_chunksentelse:current_chunksentreturnchunks存储记忆不是见啥存啥得有点策略defadd_memory(self,text,metadataNone):添加记忆metadata里一定要打时间戳ifnotmetadata:metadata{}metadata[timestamp]datetime.now().isoformat()# 先放缓冲区攒够3条或重要信息再存self.memory_buffer.append({text:text,metadata:metadata})iflen(self.memory_buffer)3ormetadata.get(importance)high:# 批量存储效率高减少向量化调用次数texts[item[text]foriteminself.memory_buffer]metadatas[item[metadata]foriteminself.memory_buffer]# 这里有个细节add_texts返回的ID要存下来方便后续更新idsself.vectorstore.add_texts(textstexts,metadatasmetadatas)self.memory_buffer.clear()# 清空缓冲区returnids检索环节才是灵魂所在直接决定记忆召回的质量defretrieve_memories(self,query,k5,score_threshold0.7):检索相关记忆阈值过滤很重要# 先转成向量query_vectorself.embedding.embed_query(query)# 相似度搜索带上原始距离值resultsself.vectorstore.similarity_search_with_score(query,kk*2# 多查点后面要过滤)# 距离转相似度分数Chroma用余弦距离0最相似filtered[]fordoc,distanceinresults:score1-distance# 转换一下ifscorescore_threshold:# 把分数塞进metadata后面排序用doc.metadata[relevance_score]round(score,3)filtered.append(doc)# 按时间加权最近的相关记忆更重要sorted_memoriessorted(filtered,keylambdax:(x.metadata[relevance_score]*0.7self._recency_weight(x.metadata[timestamp])*0.3),reverseTrue)[:k]# 最终取top-kreturnsorted_memories三、集成到Agent的实战技巧记忆系统不是独立模块得跟Agent的工作流深度融合classAgentWithMemory:def__init__(self):self.memoryMemorySystem()self.llmChatOpenAI(temperature0.1)# 温度调低记忆型Agent要稳定defchat_cycle(self,user_input):# 1. 先检索相关历史relevant_memoriesself.memory.retrieve_memories(user_input)# 构建带上下文的promptcontext相关历史对话\nformeminrelevant_memories:contextf-{mem.page_content}\npromptf 你是一个有长期记忆的助手。{context}当前问题{user_input}请基于历史上下文回答如果历史不相关就忽略。 # 2. 生成回复responseself.llm.invoke(prompt)# 3. 把本轮对话存为记忆异步操作别阻塞主流程self._store_conversation_async(user_input,response.content)returnresponse.contentdef_store_conversation_async(self,query,response):存记忆的讲究只存有价值的交换# 过滤掉问候语之类的废话iflen(query)10and你好inquery:return# 合并问答成一个记忆点memory_textf用户问{query}\n助手答{response[:200]}...# 截断避免太长# 打上重要性标签简单版可按长度、关键词判断importancehighiflen(response)100elsemedium# 丢到后台线程去存threading.Thread(targetself.memory.add_memory,args(memory_text,{importance:importance})).start()四、那些年踩过的坑坑1向量化模型不一致用text-embedding-ada-002存的向量换text-embedding-3-small检索相似度全乱套。必须保证存和取用同一个embedding模型。坑2metadata设计太随意早期只存文本后来想按时间过滤才发现没时间戳。metadata至少包含timestamp、source哪个会话、importance、type用户输入/助手回复。坑3相似度阈值拍脑袋阈值设0.9会漏掉相关记忆设0.3会召回一堆垃圾。建议先用100组问答测试画个ROC曲线找最佳阈值。坑4忘记清理旧记忆数据库会一直膨胀最后检索速度从50ms掉到2s。定期清理策略按时间删除保留最近30天按重要性删除只留high和medium。五、性能优化实战当记忆条数超过10万时需要这些优化# 1. 分层存储高频记忆放内存低频放磁盘fromlangchain.vectorstoresimportFAISSfromlangchain.vectorstoresimportChromaclassTieredMemory:def__init__(self):self.hot_memoryFAISS.from_texts([],embedding)# 内存级存最近1000条self.cold_memoryChroma(persist_dir./cold_db)# 磁盘级defretrieve(self,query):# 先查热记忆命中率80%以上hot_resultsself.hot_memory.similarity_search(query,k2)ifhot_resultsandhot_results[0].metadata[score]0.8:returnhot_results# 再查冷记忆returnself.cold_memory.similarity_search(query,k5)# 2. 批量操作减少IO# 别每次对话都存攒一批再批量写入# 设置一个记忆缓冲区满10条或每5分钟刷一次盘六、给后来者的经验之谈长期记忆系统不是“有了就行”的装饰品它彻底改变了Agent的交互模式。三个关键体会第一记忆的“质”比“量”重要。疯狂存储每句对话的结果是检索质量下降。一定要设计过滤规则——存那些有信息量的、可能被问到的内容。我现在的策略是包含技术术语的、长度超过50字的、用户明确说“记住这个”的。第二相似度检索不是银弹。纯向量检索会漏掉关键词匹配的内容。混合搜索hybrid search才是正道向量相似度占70%关键词匹配占30%。Elasticsearch 向量数据库的架构值得考虑。第三记忆也需要“遗忘”。设计一个记忆衰减机制三个月没被召回的记忆自动降权半年没被召回的移入归档库。这符合人类的记忆规律也控制数据库规模。最后说个反直觉的发现有时候故意让Agent“忘记”某些细节反而是好事。用户说“我讨厌上次那个方案”如果Agent详细回忆起方案内容并反驳体验会很糟。我的做法是在metadata加个emotion标签负面情绪的记忆只存概要不存细节。记忆系统让Agent有了“历史感”但也要警惕它变得过于固执——总引用过去的话缺乏新鲜感。平衡之道在于用记忆提供上下文用LLM的创造力生成新内容。记住我们是在造助手不是复读机。

我郑重声明：我的目标是图灵奖，这是理工男的执念！所以在第一时间发现可实现AGI蓝图的时候，就给图灵奖官方邮箱发了论文PDF，这是存档+时间戳。我知道，明确知道，最终的AGI实现必然走我的路子。哈哈哈

总有人拿民科来说事，仔细想咱真也是民科，，，没啥说的，没混上教授的，那个不是民科？？？ 不要拿民科怎么样来说事，我开始没说自己咋样，真就只想那个图…...

2026/5/30 6:21:32 阅读更多 →

软测学习笔记|2026.4.1|流程|分类|项目经验

软测自学笔记|2026.4.1|流程|分类|项目经验全流程掌握需求、制定计划、编写用例、执行、写质量报告、回归测试。分类代码可见度｜黑盒测试、灰盒测试、白盒测试其他测试｜冒烟测试（程序可测性）、回归测试（比如新增功…...

2026/5/14 8:35:43 阅读更多 →

2026年全场景适配最值得关注的五大能源管理系统

各位读者，大家好！在全球能源结构加速转型的当下，能源管理系统的发展至关重要。今天我要为大家介绍2026年全场景适配最值得关注的五大能源管理系统。这些系统对于企业提升能源管理的精细化、智能化水平，增强核心竞争力有着重要意义…...

2026/5/31 13:26:10 阅读更多 →

掌握Markdown实时预览：打造高效写作工作流的3个关键策略

掌握Markdown实时预览：打造高效写作工作流的3个关键策略【免费下载链接】markn Lightweight markdown viewer. 项目地址: https://gitcode.com/gh_mirrors/ma/markn 在当今数字创作时代，Markdown已成为技术文档、博客文章和个人笔记的首选格式。…...

2026/6/1 1:01:46 阅读更多 →

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…...

2026/5/31 0:02:02 阅读更多 →

前轮驱动自行车机器人建模与自适应控制策略优化【附代码】

✨ 长期致力于自行车机器人、前轮驱动、Lagrange方程、自适应模糊控制、RBF网络自适应控制研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于瞬时转…...

2026/5/31 0:03:05 阅读更多 →

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire 还在为《杀戮尖塔》模组安装的复杂流程而头疼吗？Mod…...

2026/5/31 0:04:06 阅读更多 →