20个RAG核心概念:从切文档到出答案,小白也能学会大模型应用(收藏必备)
本文深入浅出地讲解了RAG检索增强生成技术的核心概念从离线建库到在线检索再到Chunking分块、Embedding向量转换等关键步骤详细阐述了如何通过优化检索策略和Prompt组装提升大模型回答的准确性和召回率。文章还重点介绍了RAGAS评测框架和LLM-as-Judge评分机制以及混合检索等进阶技术帮助读者全面掌握RAG应用的核心要点为实际项目开发提供有力指导。1、 RAG 是什么你问一个只读过通识课本的学生一道专业题他大概率胡编一气他脑子里没这块内容。换个做法先把相关资料递到他面前再让他答他至少能照着资料说话不会瞎编。RAG 干的就是这件事让 AI 在回答之前先翻一遍资料。英文全称 Retrieval-Augmented Generation中文译作检索增强生成。大模型自带的知识有两个硬伤。一个硬伤是训练数据有截止日期你公司上周刚发的新政策它根本不知道。另一个硬伤是它不知道的事情也敢编业内管这叫幻觉。把企业内部文档、最新资料、专业知识塞进一个能被搜索的库每次回答前先去库里捞相关片段把片段和问题一块儿喂进大模型大模型就有据可查不靠脑补回答。产品经理特别容易把 RAG 当成什么黑科技本质上就一句先查再说不让大模型凭空说话。2、离线建库和在线检索外卖平台你下单的时候商家不会临时跑菜市场买菜再回来做饭。菜得提前买好、洗好、切好、配齐你下单他才有可能 15 分钟出餐。RAG 也是这个路数。把所有资料处理成可被秒级搜索的向量、存进向量库这件事必须提前干完叫 离线索引英文 Offline Indexing。等用户提问的那一刻系统在线只能做三件事把问题转成向量、去库里查、把结果排好这叫 在线检索英文 Online Retrieval。为什么要把这两段切开核心就是速度。建库可能要跑几个小时甚至几天用户提问不可能等必须毫秒级出来。所有 RAG 工程化设计的逻辑都是从这一刀分开始建库慢一点没事检索一定要快。最普遍的设计错误产品经理把所有事都想成用户提问的时候才做,上线一跑并发就垮。这一刀切清楚后续的资源预算、成本核算、性能优化才有底。3、 Chunking 把资料切成块300 页的产品手册整本扔给大模型它装不下也读不完。先得把手册切成一段段的小块每块几百字这个动作叫 Chunking中文叫分块或者切片。为什么必须切两个理由。一是大模型的上下文窗口有上限塞不下整本书。二是检索阶段要找的是跟用户问题最相关的那一段,不是整本书切开了才能精准定位。切得好不好直接锁死后续所有事情的天花板。切得太大一块里同时装了 5 个不相关的话题检索回来全是噪音。切得太小一句话被劈成两块语义被打断大模型读到一半看不懂前后。行业里有过最离谱的翻车场景一份 Word 文档按段落切一张表格被劈成 10 块每块就一行。检索回来全是孤立的表格行大模型完全拼不回原表的意思。Chunking 不是技术活是产品决策。资料长什么样、用户会问什么样的问题、按什么粒度切才能精准命中这些事情产品经理跑不掉。4、 Chunk Size 和 Overlap切块绕不开两个参数一个是 Chunk Size 块大小一个是 Overlap 块重叠。Chunk Size 是每块多长。主流默认 300 到 600 字这只是默认值不是标准。切的是法律条款每条本身二百来字200 字一块刚好。切的是技术白皮书一段论述要 800 字才能讲清一个观点200 字一块就是灾难。Overlap 是相邻两块之间故意重叠的部分。比如 500 字一块前一块的最后 50 字也出现在下一块开头这 50 字就是 Overlap。为什么要重叠切块位置是机械的可能正好切在一段关键论述的中间Overlap 让被切断的语义在两块里都能被找到避免漏召回。主流配置是 Overlap 占 Chunk Size 的 10% 到 20%,500 字的块配 50 到 100 字的 Overlap。重叠太多浪费存储和检索成本重叠太少又起不到弥补作用。经验是这两个参数没有标准答案只有适合你数据的那个答案。第一版上线后盯召回率如果某一类问题总是漏召大概率是切块在那个语义上断了加大 Overlap 或者换切法。5、 Embedding 把文本变成数学坐标切好的每一块文本计算机本身不认识中文要做相似度判断得先把文字变成数字这个数字叫向量这个过程叫 Embedding中文叫嵌入或者向量编码。地图上每个地点都有经纬度坐标北京一个坐标上海一个坐标两个城市离得近不近看坐标差多少就能算。Embedding 干的就是这件事把每段文字变成几百维的坐标语义相近的文字坐标距离近语义远的距离远。具体怎么变用一个叫 Embedding Model 的专门模型常见的有 OpenAI 的 text-embedding-3、智源的 bge、Cohere 的 embed模型读进一段文字吐出一个 768 维或者 1536 维的数字数组。这个数组就是这段文字在语义空间里的坐标。Embedding 模型选什么直接决定 RAG 的天花板。中文场景拿纯英文训练的 Embedding 来用效果差一截。垂直领域比如医疗、法律通用 Embedding 也可能打不过专门微调过的小模型。选型阶段必须实测别看排行榜排行榜上的中英文混合榜对你的中文垂直场景未必有参考价值。6、 向量数据库每段文本经过 Embedding 变成几百维的向量后要存到一个能按相似度极速搜索的地方这地方叫 向量数据库英文 Vector Database。普通的 MySQL、MongoDB 不顶用它们设计的查询逻辑是id 等于 123、“标题包含某关键词”,做不了找语义最接近的 10 条这件事。向量数据库底层走专门的算法和索引结构能在千万级甚至上亿条向量里毫秒级找出最相近的几条。主流的向量数据库有 Milvus、Pinecone、Qdrant、Weaviate、Chroma。Milvus 国产开源Pinecone 是云服务Qdrant 性能口碑好Chroma 适合小规模本地起步。选型看几件事数据量多大、是云上还是本地、要不要支持元数据过滤、有没有运维团队。太多产品经理把向量数据库当成装向量的桶,觉得选哪个都一样。错。不同向量库在召回准确率、查询延迟、过滤能力上差距很大百万级以下随便选千万级以上必须严格压测否则上线被并发打爆是分分钟的事。7、查询向量化要和建库一致用户输入如何申请退款,这句话也必须先变成向量才能跟库里的向量做比较这个动作叫 Query Embedding 问题向量化。这里有一个产品经理最容易踩的坑问题向量化用的 Embedding 模型必须跟建库时用的模型完全一致。版本号差一个都不行。为什么这么死板Embedding 模型本质上是把文本投影到一个特定的语义空间不同模型投出来的坐标系完全不一样。你在 A 模型的坐标系里建库用 B 模型的坐标系去查等于拿北京地铁图找上海某个站坐标对不上结果全错。行业里有一个被反复提到的事故建库用了 bge-large上线后觉得查询慢想省钱查询那一侧换成 bge-small召回率从 80% 直接掉到 20%排查了三天才定位到原因模型不一致。建库和查询的 Embedding 必须锁定同一个版本这是工程纪律不是优化点。8、 余弦相似度两段文本变成向量之后怎么判断它们像不像用一种叫 余弦相似度的算法英文 Cosine Similarity。想象向量是空间里从原点出发的箭头两个箭头方向越接近夹角越小这两个文本就越相似。余弦相似度算的就是这个夹角的余弦值值域 -1 到 1越接近 1 越相似接近 0 表示不相关负值表示意思相反。为什么用余弦不用别的因为它只看方向不看长度。两段文本一段长一段短讲的是同一件事向量长度不一样但方向一致余弦相似度能识别出来。换成欧氏距离就会被长度干扰长文本和短文本即使语义相近距离也会很大。主流向量库默认就是余弦相似度99% 场景不用动。一些产品经理在选型阶段纠结要不要换成欧氏距离或者内积实测下来对最终效果影响极小不如把精力放在 Chunking 和 Embedding 模型选型上。9、 ANN 近似最近邻搜索向量库里可能存着几千万甚至上亿条向量用户问一个问题系统要在毫秒内找出最相似的 10 条怎么做到最暴力的办法是跟每条向量都算一遍余弦相似度再排序叫精确最近邻搜索千万级数据要算几秒钟完全不能用。实际生产里用的是 ANN 近似最近邻搜索英文 Approximate Nearest Neighbor。ANN 的思路是牺牲一点点准确率换巨大的速度提升。它提前把所有向量按某种结构组织好比如分簇、建图、构建多层索引查询时只在一小部分候选里搜不全量比对。主流算法有 HNSW、IVF、PQ。ANN 的近似两个字意味着它找回来的 Top 10 跟真正的 Top 10 可能差 1 到 2 条但 95% 以上场景这点偏差对最终效果毫无影响换来的是速度从秒级跳到毫秒级。产品经理不用懂 HNSW 的数学原理但要知道一件事向量库越来越大、召回速度变慢的时候通常不是机器不够是 ANN 索引参数没调好。这是技术问题产品经理要能识别出来不要一上来就要求扩容。10、 Top K 检索查询返回的不会只有一条会按相似度排序返回前 K 条最相关的这个 K 就是 Top K。K 取多少有讲究。K 太小比如只取 3 条万一最相关的那条没进前 3后面 LLM 就拿不到正确信息直接答错。K 太大比如取 50 条大模型上下文窗口塞不下塞下了也大部分是噪音反而干扰回答。主流默认 K 取 5 到 10这是经验值。具体多少合适要看你的资料密度和问题类型密集型资料每块信息量大 K 可以小一点稀疏型资料 K 要大一点。常见错误产品经理觉得 K 越大越保险直接设成 30大模型读到一堆不相关片段被噪音带偏反而比 K5 还差。Top K 不是越大越好是要刚好够够用又不带噪音。跟 Top K 配套的还有一个 相似度阈值低于某个分数的就不要哪怕排在前 K 里。比如 K10 但只有前 3 条余弦相似度超过 0.7后面 7 条全在 0.3 以下那就只取前 3 条。这能有效过滤掉强行凑数的低质量召回。11、 召回率检索阶段最关键的一个指标叫 召回率英文 Recall衡量的是该被找到的资料有多少真的被找回来了。公式很简单召回率等于检索到的相关片段数量除以全部应该被找到的相关片段数量。库里关于退款政策一共有 8 个相关片段这次检索返回了 6 个召回率就是 75%。为什么召回率这么重要大模型的回答上限被召回率死死锁住。该找到的资料压根没被找回来大模型再聪明也答不对巧妇难为无米之炊。一切检索优化的核心目标就是把召回率往上推。召回率低的常见原因有三个- Chunking 切坏了把关键内容割断。Embedding 模型对你这个领域不敏感。Top K 设得太小漏了相关片段。这三个动作是排查召回问题的固定路径。最常被复盘的产品事故是这样的RAG 上线测下来效果烂团队第一反应是换大模型换了三个月没改善最后发现建库时一张表格被切碎了关键数据根本没进库召回率天生 30%。先看召回再看生成顺序别倒。12、 Rerank 重排序向量检索召回的 Top K 是按相似度排好序的但这个序未必最适合大模型用,所以会有第二轮筛选叫 Rerank 重排序。为什么要重排向量检索本质是粗筛看的是整体语义相似度不擅长理解细节。用户问退款最长多少天,向量检索可能召回 10 条都跟退款相关但只有 1 条直接讲了15 天这个数字。Rerank 模型会逐条精细判断把直接命中答案的那条排第一。Rerank 用的模型叫 Reranker 或者 Cross-Encoder跟 Embedding 模型完全不是一类东西。Embedding 是把问题和片段分别变成向量再比叫双塔模型速度快但精度低。Reranker 是把问题和片段拼在一起一起处理精度高但慢所以只能在 Top K 内做精排不能在全库做。工业级 RAG 几乎都是 双段架构Embedding 粗筛配 Reranker 精排先用快的拉出几十条候选再用慢的精排出前 5 条。Rerank 是 RAG 效果优化里性价比最高的一步加一个 Reranker 模型召回质量通常能再提 10% 到 20%远比换大模型来得划算。13、 Prompt 组装检索到的片段不能直接扔给大模型得跟用户问题、回答指令、输出格式一起组装成一段完整的输入这个动作叫 Prompt 组装也叫 Context Assembly。一个典型的 RAG Prompt 结构长这样。先一段系统指令告诉大模型你是谁、应该怎么答。再贴上检索到的资料片段。再贴用户原问题。最后约束输出格式比如必须附引用、必须用 JSON。这几个部分的顺序、措辞、有没有引用标记都会显著影响大模型的回答质量。同一份资料Prompt 写得好可能答对写得乱可能答错或者答得啰嗦没用。想提醒产品经理一个特别容易被忽视的细节Prompt 里给资料片段加序号和来源标签比如片段 1 来源产品手册第 3 章,大模型在回答时就能照着标签生成引用。如果片段一锅烩塞进去大模型根本无法标引用。Prompt 组装是产品经理能直接参与的 RAG 优化点不需要懂代码只要会写清楚的指令、对输出格式有要求就能把 Prompt 调到 70 分以上。14、上下文窗口和 Token 预算大模型不是想塞多少东西就塞多少有一个硬上限叫 上下文窗口英文 Context Window衡量单位是 Token。Token 是大模型处理文本的最小单位一个中文字大概 1 到 2 个 Token一个英文单词大概 1 个 Token。GPT-4o 上下文窗口 128k Token,Claude 200k Token通义千问 long 也有 32k 到 1M 不等。为什么产品经理必须懂这事Token 是有预算的。每次调用大模型从系统指令到检索资料到用户问题再到输出回答全部算 Token,API 按 Token 计费。Token 用得越多响应越慢、钱花得越多。工程实操里Token 预算决定了 Top K 能取MRR 平均倒数排名衡量的是正确答案平均排在第几位。如果正确答案 50% 时间排第 1、50% 时间排第 2,MRR 大约是 0.75越接近 1 越好。NDCG 归一化折损累积增益比 MRR 更细它不只看排第几还看每条召回的相关性强弱。最相关的排第 1、次相关的排第 2,NDCG 才高;如果次相关的反而排到了最相关前面NDCG 就会降低。产品经理不用记公式但要知道这两个指标的存在光看召回率不够排序质量是藏在召回率背后的杀手。如果产品的 Reranker 没接光看召回率 80% 觉得不错实际上正确答案可能都排在第 8 第 9 位根本进不了大模型等于白召回。18PART RAGAS 评测框架光评估检索阶段不够要看 RAG 整体好不好得做端到端评估这事现在的事实标准工具叫 RAGAS。RAGAS 把 RAG 拆成 4 个维度自动打分。答案正确性Answer Correctness衡量大模型给出的回答是否事实正确。完整性Answer Completeness衡量是否覆盖了问题所有方面。自然度Answer Fluency衡量语言是否通顺。无幻觉Faithfulness衡量回答里的每句话是否都能在检索资料里找到依据。这 4 个维度比单独看一个指标全面得多。它特别擅长发现一类隐蔽问题回答看起来通顺、看起来覆盖了问题但其实是大模型编的、跟资料对不上。这种问题人工抽检不出来RAGAS 能。RAGAS 是工业级 RAG 的必需品不是可选项。产品上线后每次更新模型、改 Chunking、调 Top K都要跑一遍 RAGAS 看 4 个维度有没有退化。靠感觉判断 RAG 好不好迟早翻车;用 RAGAS 跑出数字才有迭代依据。19PART LLM-as-JudgeRAGAS 里那些答案正不正确、完不完整是怎么自动判断的用一个能力更强的大模型当评委这个做法叫 LLM-as-Judge大模型当评分员。为什么用大模型评这些维度没有标准答案人工评太慢太贵。“这个回答完整不完整”,规则写不死只有人能判断但找人评 1000 个回答要花一周。换 GPT-4 当评委1000 个回答几小时跑完质量跟人工评的吻合度能到 80% 以上。具体做法是给评委模型一个详细的评分 Prompt告诉它这是用户问题、这是检索资料、这是回答请按以下标准从 0 到 1 打分。不同维度对应不同的评分 Prompt。LLM-as-Judge 不完美它会有自己的偏见比如倾向给长回答打高分、对自己同门模型的回答打高分。工业上的做法是用一个跟生成模型不同家族的评委生成用 Claude 评委用 GPT-4避免同门偏袒。一个常见误区产品经理觉得用大模型评不靠谱、坚持人工评结果迭代速度被人工评卡死一个月只能跑两轮实验。LLM-as-Judge 不完美但够用它换来的是迭代速度这才是 RAG 优化的真正瓶颈。20PART Hybrid Search 混合检索纯向量检索不是万能的在三类问题上它会输专有名词、短查询、代码片段。这时候要混合用关键词检索 BM25叫 Hybrid Search 混合检索。为什么纯向量打不过向量擅长理解语义但对精确字符不敏感。用户搜iPhone 16 Pro Max,向量检索会找到所有 iPhone 相关的文档但 16 Pro Max 这几个精确字符可能被弱化。BM25 是基于关键词匹配的传统算法它就盯着字符出现频率和稀有度精确命中专有名词非常稳。Hybrid Search 的做法是两条路并行向量检索返回一份 Top K,BM25 返回另一份 Top K然后做结果融合常用算法叫 RRF 倒数排名融合把两份排序合并成一份总排序。工业级 RAG 几乎都在用混合检索。纯向量适合做原型上线版本 99% 都得加 BM25。这是产品经理在 RAG 进阶阶段必须知道的最后一块拼图单一检索打不过混合检索这一仗已经打完了别再纠结只用向量。中文场景下还有一个细节BM25 需要先分词分词器选择对效果影响很大jieba、IK、HanLP 各有适用场景垂直领域可能还要自己加词典。这事产品经理不用动手做但要知道它存在否则上线后中文召回拉胯都不知道找谁问。21PART 写在最后做得好的 RAG 项目跟做得烂的 RAG 项目差距不在用 GPT 还是 Claude在 Chunking 切得对不对、Embedding 选得准不准、引用做没做、评估闭环搭没搭。前面四件事决定召回率天花板大模型只决定最后一公里。最后2026年技术圈的分化愈发明显降薪裁员潮持续蔓延传统开发、测试等岗位大批缩水不少从业者陷入职业焦虑与之形成鲜明对比的是AI大模型相关岗位迎来疯狂扩招薪资逆势飙升150%大厂更是直接开出70-100W年薪疯抢具备实战能力的大模型人才甚至放宽年龄限制只求能快速落地技术、创造价值很多程序员、职场新人纷纷入局大模型领域绝非盲目跟风而是实实在在看到了不可替代的价值优势这也是2026年最值得抓住的职业风口1、窗口期红利入门门槛友好不同于成熟赛道的“内卷式招聘”2026年大模型人才缺口巨大简历只要达标掌握基础AI应用具备简单项目经验年龄、学历均非硬性要求小白可快速入门转行程序员也能无缝衔接2、技术可复用上手速度翻倍如果你有前后端开发、测试、数据分析等基础在大模型落地、系统部署、Prompt工程等环节会更具优势无需从零开始复用原有技术能力就能快速进阶3、懂业务更吃香竞争力翻倍单纯懂技术已不够2026年大厂更看重“技术业务”的复合型人才有垂直领域金融、医疗、工业等经验者能精准定位模型落地痛点薪资比纯技术岗高出30%以上更重要的是即便没有转型需求用AI大模型工具为工作赋能、提升效率也已经成为80%企业的硬性要求——不会用大模型提效未来很可能被行业淘汰那么2026年小白/程序员该如何高效学习大模型很多人想入门大模型却陷入两大困境要么到处搜集零散资料不成体系越学越懵要么被收费高昂的课程割韭菜花了钱却学不到实战技能白白浪费时间走弯路。今天就给大家精心整理了一份2026年最新、免费、系统化的AI大模型学习资源包覆盖从零基础入门到商业实战、从理论沉淀到面试通关的全流程所有资料均已整理归档无需拼凑直接领取就能上手学习小白可照做程序员可进阶扫码免费领取全部内容1、大模型系统化学习路线这份学习路线结合2026年行业趋势和新手学习规律由行业专家精心设计从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶避免踩坑。2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、大模型学习书籍电子文档涵盖2026年最新技术要点包括基础入门、Transformer核心原理、Prompt工程、RAG实战、模型微调与部署等内容4、AI大模型最新行业报告报告包含腾讯、阿里、甲子光年等权威机构发布的核心内容还有2026年中文大模型基准测评报告、AI Agent行业研究报告等帮你站在行业前沿把握技术风口。5、大模型项目实战配套源码项目包含Deepseek R1、GPT项目、MCP项目、RAG实战等热门方向还有视频配套代码手把手教你从0到1完成项目开发既能练手提升技术又能丰富简历为求职和职业发展加分。6、2026大模型大厂面试真题2026年大模型面试已全面升级不再单纯考察基础原理而是转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容7、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】