模型什么都敢答,但它什么都记得吗?——RAG 与知识边界外移
2023 年春天大模型开始密集进入企业试点。如果你在做数据平台或企业架构当时的感受可能是既兴奋又困惑——兴奋的是终于有办法让大模型回答基于企业数据的问题了困惑的是检索质量、文档切分、权限管理这些原来属于数据治理的问题现在全部涌入了AI系统的设计空间。很多团队的第一个反应是兴奋它能写文案、能做摘要、能回答客户问题而且速度极快。但第二个反应往往是失望。你问它昨天的公司公告它不知道。你让它根据内部文档回答问题它编造了一个看起来很合理但完全不存在的条款。你用它做客服它把去年的政策当成今年的来回复。这不是模型不够聪明。这是一个结构性的局限大语言模型的知识来自训练数据训练截止之后的事情它不知道你公司内部的文档它没见过实时变化的数据它跟不上。它不是在”撒谎”它是在用自己见过的世界去填充一个它从未见过的问题——这种行为后来被称为“幻觉”hallucination成了企业落地大模型时最头疼的问题之一。这一期讲的三组工作就是在解决这个问题。REALM 第一次把检索器嵌入预训练流程让模型在学习阶段就学会查资料RAG 把检索增强推广为一个通用框架成为后来整个行业最广泛使用的落地范式RETRO 则证明了用检索替代部分参数存储可以大幅降低模型体量。它们的核心思路高度一致不要让模型把所有知识都记在参数里让它学会在需要的时候去查。一、REALM第一次在预训练阶段就教模型”查资料”在 RAG 这个名字被提出之前检索增强的想法已经开始成形。2020 年 2 月Google 的 Kelvin Guu 等人在 arXiv 上发布了 REALMRetrieval-Augmented Language Model Pre-Training同年发表于 ICML。这篇论文的核心想法听起来很自然但在当时是一个范式创新在预训练阶段就把一个可学习的检索器嵌入到语言模型中让模型在做 masked language modeling 的时候先从一个大规模文档库里检索相关段落再基于检索到的内容做预测。图1REALM 的预训练流程——模型在预测被遮蔽的词之前先通过一个可学习的检索器从外部文档库中检索相关段落再将检索结果和原始输入一起送入编码器。检索器和语言模型联合训练。参考Guu et al. (2020)关键词是“联合训练”。REALM 的检索器不是一个独立的模块它和语言模型一起做梯度更新——模型学会了“什么时候该去查、查什么更有用”。在 Open-domain Question Answering 任务上REALM 显著优于当时同等规模的纯参数化模型。这件事为什么重要因为它触及了一个根本性的问题知识应该存在模型参数里还是存在外部可更新的数据库里如果所有知识都编码在参数中那模型就像一个毕业后不再学习的人——它只知道训练时见过的东西。而 REALM 提供了一种替代方案让模型在推理时动态访问外部知识源。这意味着你可以更新文档库而不必重新训练模型。REALM 的局限也很明显它对检索器和语言模型的联合训练提出了很高的工程要求训练流程复杂度显著上升。但它开创了一条路线——检索不只是推理时的辅助手段它可以是模型能力的一部分。二、RAG从技术概念到行业标准落地范式如果说 REALM 证明了”检索增强可以在预训练阶段工作”那 RAG 做的事情是把检索增强推广为一个更灵活、更通用的生成框架。2020 年 5 月Meta当时的 Facebook AI Research的 Patrick Lewis 等人发表了《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》同年发表于 NeurIPS。论文提出了一个清晰的两阶段框架先用一个检索器从外部知识库中找到相关文档再把这些文档作为上下文输入给一个序列到序列的生成模型让它基于检索结果生成回答。图2RAG 的两阶段框架——先检索Retrieve再生成Generate。检索器从外部知识库中找到相关文档片段作为额外上下文输入给生成模型让模型基于真实证据而非纯参数记忆来回答问题。来源Lewis et al. (2020)和 REALM 相比RAG 的设计哲学更偏向工程实用性。它不要求检索器和生成模型联合预训练——你可以用一个预训练好的 dense retriever比如 DPR加上一个预训练好的生成模型比如 BART组合起来就能工作。这大幅降低了落地门槛。论文在多个知识密集型任务上验证了效果开放域问答、事实验证、知识对话。更重要的是RAG 证明了一个直觉上合理但当时缺少系统验证的命题让模型在生成时参考外部证据比让模型纯靠记忆回答更准确、更可控。这篇论文发表于 2020 年但它真正成为行业标准是在 2023 年。当 ChatGPT 带动大模型进入企业场景后几乎每一个落地项目都绕不开同一组问题怎么让模型回答基于我的数据怎么减少幻觉怎么让知识保持更新RAG 给出的答案简洁有力——不用改模型给它加一个检索前端。LangChain2022 年 10 月发布和 LlamaIndex原 GPT Index2022 年 11 月发布这两个框架的爆发式增长几乎完全建立在 RAG 范式之上。它们把 RAG 从论文概念变成了开箱即用的工程工具链文档切分、向量化、检索、prompt 拼接、生成——整条流水线被封装成了几行代码就能调用的 API。2023 年上半年LangChain 的 GitHub stars 从几千飙升到六万以上成为增速最快的开源项目之一。对企业来说RAG 的吸引力在于它解耦了“模型能力”和“知识来源”。你可以用同一个通用模型通过替换不同的文档库来服务不同的业务场景——法务团队接法规库客服团队接 FAQ 库研发团队接技术文档。模型不需要为每个场景重新训练你只需要管理好你的文档和检索质量。但 RAG 也不是银弹。2023 年下半年随着大量企业 RAG 项目进入生产环境一系列实际问题浮出水面检索质量是天花板。如果检索器返回的文档不相关或者不完整后面的生成再好也救不回来。“Garbage In, Garbage Out”在 RAG 场景里尤其真实。文档切分是个被低估的工程问题。一份 100 页的合同按 500 token 切块之后关键信息可能被切断在两个块的边界上。切分策略直接影响检索召回率但很多团队在这件事上投入不足。上下文窗口的限制。即使检索到了相关文档模型能处理的上下文长度是有限的。塞太多检索结果会稀释注意力塞太少又可能遗漏关键信息。这个平衡需要针对具体场景调优。对企业数据平台团队来说RAG的落地暴露了一个长期被低估的问题你的文档质量、元数据管理、权限体系直接决定了AI系统的上限。很多团队在向量数据库上投入大量精力却发现检索效果差是因为源数据本身没有标准化。RAG把数据治理从后台运维问题推到了AI应用的核心路径上。这些问题催生了后来所谓的“Advanced RAG”——包括多步检索、检索结果重排序re-ranking、查询重写、混合检索稀疏 稠密等一系列工程优化。但核心范式没有变先检索再生成。三、RETRO检索不只是辅助它可以替代参数REALM 和 RAG 解决的是“怎么让模型在推理时利用外部知识”但 DeepMind 在 2022 年提出的 RETRO 问了一个更激进的问题如果模型可以在需要的时候去查那它是不是不需要把那么多知识记在参数里Borgeaud 等人发表的《Improving Language Models by Retrieving from Trillions of Tokens》提出了 RETRORetrieval-Enhanced Transformer。核心做法是把一个大规模的外部数据库2 万亿 token 级别集成到 Transformer 的训练和推理流程中。模型在处理每个文本块时会从数据库中检索最近邻的文本片段并通过交叉注意力机制把检索结果融入到生成过程中。RETRO 论文里最有冲击力的数据是这个一个 7.5B 参数的 RETRO 模型在语言建模任务上的表现接近一个 25 倍大约 175B 规模的纯参数化模型。这意味着什么如果你可以用检索来替代大量参数存储的知识那模型就不需要那么大。更小的模型意味着更低的训练成本、更低的推理成本、更快的部署速度。这和第 2 期讲的 Chinchilla 逻辑形成了呼应——行业一直在寻找”用更少的参数做到同等效果”的方法RETRO 提供了另一条路径。图3RETRO 的核心机制——Transformer 在生成过程中通过交叉注意力层Chunked Cross-Attention融合从外部数据库检索到的近邻文本片段。7.5B 参数的 RETRO 在效果上接近 25 倍大的纯参数化模型。来源Borgeaud et al. (2022)RETRO 对企业的含义比表面看起来更深远。当前很多企业在选型时面临一个典型困境大模型效果好但部署贵小模型部署轻但效果差。RETRO 的思路暗示了一种可能的折衷——用一个较小的模型加上高质量的检索系统达到接近大模型的效果。2024 年之后出现的一些产品级方案比如将小模型与企业知识库深度绑定的部署方案在思路上和 RETRO 一脉相承。不过 RETRO 的工程复杂度也很高2 万亿 token 的外部数据库需要高效的近邻搜索基础设施论文使用了 ScaNN检索延迟会直接影响生成速度数据库的维护和更新也是一个持续的运维负担。这些挑战解释了为什么 RETRO 在研究界影响很大但在工程实践中大多数团队还是选择了更简单的 RAG 范式。四、知识边界外移改变了什么没解决什么把这三组工作放在一起它们构成了一条清晰的演进线REALM第一次证明检索器可以和语言模型联合训练让”查资料”成为模型能力的一部分。它开了先河但工程复杂度限制了它的直接落地。RAG把检索增强简化为一个模块化的两阶段框架先检索再生成。这种解耦设计让它成为了企业落地大模型时最广泛采用的范式——LangChain 和 LlamaIndex 的爆发就是最直接的证据。RETRO提出了一个更激进的命题检索可以替代参数小模型加好检索可以接近大模型的效果。这为”用更少资源做到够用效果”提供了理论和实验支撑。它们加在一起回答了上一期末尾留下的那个问题模型的知识有边界怎么办答案是把知识的边界从模型参数内部推到外部可更新的数据源上。但知识边界外移也引入了新的问题。检索质量成了系统瓶颈。在纯参数化模型的世界里你只需要关心模型本身的质量。引入检索之后系统的表现取决于检索器、文档库、切分策略、向量索引等一系列组件的协同。任何一个环节出问题整体效果就会下降。幻觉没有被消除只是换了一种形式。没有检索增强的模型会凭空编造有了检索增强的模型可能会”断章取义”——从检索到的文档中抽取片段但在生成时扭曲了原意或者把两份不相关文档的内容混在一起。这种幻觉更隐蔽也更难被发现。系统边界在扩大。一旦模型可以访问外部数据源你就不能再把它当作一个封闭系统来评估和管理。数据的准确性、时效性、权限管理、隐私合规——这些原来属于数据治理范畴的问题现在全部涌入了 AI 系统的设计空间。而在知识边界被推开之后一个更大的问题开始浮出水面模型不只是需要”知道更多”它还需要”能做更多”。查资料只是第一步——调用计算器、访问 API、执行代码、操作工具——当模型的能力从”生成文字”扩展到”执行动作”时系统的复杂度会再上一个台阶。这就是下一期的起点——工具调用、推理链与 Agent 的崛起。边界层笔记REALM 的核心贡献是把检索器从推理时的辅助工具提升为预训练阶段的一等公民。联合训练让模型学会了”什么时候该查、查什么”但工程复杂度也因此大幅上升。RAG 成为行业标准靠的不是论文本身的技术创新而是它的设计哲学——先检索再生成的两阶段解耦让任何团队都能用现成组件快速搭建知识增强的 AI 系统。LangChain 和 LlamaIndex 的成功建立在这个框架之上。RETRO 用 7.5B 参数逼近 175B 级别的效果证明了”检索可以替代参数”这个命题。它和 Chinchilla 的逻辑呼应——行业在持续寻找”用更少资源做到够用效果”的路径。幻觉没有被 RAG 消除只是从”凭空编造”变成了”断章取义”。后者更隐蔽在企业场景里可能更危险。检索增强把 AI 系统从封闭的模型评估问题变成了涉及数据治理、权限管理、时效性维护的系统工程问题。这对企业的组织能力提出了新要求。RAG让企业数据平台从成本中心变成了能力中心——当AI系统的表现取决于数据质量时数据团队的话语权和战略地位会显著提升。但这也意味着数据平台需要重新定位不只是存储和计算更是AI就绪度的核心支撑。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】