RAG 效果不好，通常不是模型的问题：4 个关键技术一次讲透

张

张建站

2026/4/17 1:54:13

10分钟阅读

很多团队做 RAG第一反应是换更强的大模型。但真正做过系统后你会发现RAG 的上限很多时候并不由模型决定而是由前面的检索链路决定。用户问同一个问题为什么有时答得很好有时却答非所问问题往往出在这四个环节分块检索重排序Prompt如果这四个地方做得粗糙再强的模型也很难稳定发挥。一、分块为什么“怎么切文档”会决定回答质量分块是 RAG 里最容易被低估的一环。因为知识库不是把整篇文档直接丢进去就结束了而是要先拆成可检索的小片段。但问题来了到底怎么切1. 固定长度切分这是最简单的方法。比如每 500 个字符切一块。优点是实现简单、管理方便。但问题也很明显它可能把一个完整句子、一个完整步骤、一个完整条款硬生生切开。结果就是检索到了“半句话”模型理解自然会出错。2. 语义切分更合理的做法是按照段落、章节、句子边界来切。也就是说尽量保证一个块里承载的是一段完整意思。这样做的好处是语义更完整检索命中后更容易直接回答上下文更连贯但代价是实现更复杂也更依赖规则或模型能力。3. 递归切分这是工程上很常见的一种折中方案。思路是优先按章节、段落来切如果还太长再按句子切再不行最后才用固定长度兜底。这种方式既保留了结构感也兼顾了可控性。对于企业文档、说明书、制度手册来说通常比单纯固定切分更稳。4. 分块到底怎么选一个简单判断标准是如果块太小信息不完整如果块太大噪声太多如果没有适当重叠关键信息可能被切断所以分块本质上不是“切得越细越好” 而是要找到语义完整性、召回率和性能开销之间的平衡。二、检索为什么只用向量搜索往往不够很多人一提 RAG就默认是“向量检索”。但真实系统里单一向量检索并不总是最优解。1. 向量检索擅长什么向量检索最大的优势是能理解语义。比如用户问“怎么提高系统性能”文档里可能写的是“系统优化方案”。虽然字面不同但语义接近向量检索通常能找到。这类“意思相近但措辞不同”的问题向量检索很有优势。2. 向量检索不擅长什么它的短板也很明显对术语、ID、报错码的精确匹配不够稳定对短查询有时理解不足对噪声较敏感比如用户问“Error 404 是什么意思”这类查询其实更适合关键词精确匹配。3. 为什么要混合检索成熟的 RAG 通常会把向量检索BM25 关键词检索结合起来使用。原因很简单向量检索负责“懂意思”关键词检索负责“找得准”对于技术文档、代码库、制度条款、报错信息这类场景混合检索通常比单一路径更稳。4. 工程上的一个实用原则如果你的问题里包含产品型号错误代码专有名词版本号年份/季度那关键词检索的重要性通常会明显上升。而如果你的问题是自然语言解释型问题比如“如何申请报销”“怎样处理噪声故障” 向量检索的价值会更大。三、重排序检索到了不等于排序就对了检索拿到的 Top-K 结果并不一定就是最适合回答问题的结果。这时候就需要Rerank重排序。你可以把检索理解为“广泛找候选” 把重排序理解为“二次精挑细选”。1. 为什么需要重排序因为初步检索往往更注重“召回” 而真正送给模型的上下文更需要“高相关”。如果把一堆边缘相关内容都交给模型模型很可能会被干扰甚至答偏。2. 重排序能解决什么它能帮助系统把真正相关的信息排到前面降低噪声内容进入 Prompt 的概率提高 Top-1、Top-3 的命中质量对 RAG 来说这一步常常直接影响最终答案的准确率。3. 常见做法比较典型的方式是先用向量检索或混合检索拿到 Top 20 或 Top 50再用更精细的模型做重排序最终只把前几条高质量结果送给大模型这类重排序模型往往比基础检索更懂“问题和文档之间真正是否匹配”。四、Prompt为什么有资料模型还是会答错很多人以为只要把检索结果扔给模型就行。实际上Prompt 设计会直接决定模型有没有“老老实实看资料”。1. Prompt 的核心作用一个好的 Prompt不只是告诉模型“请回答问题” 还要明确三件事你的角色是什么你必须依据什么回答上下文不足时应该怎么办如果没有这些约束模型很可能重新依赖它自己的参数记忆产生幻觉。2. 一个好 Prompt 至少要做到什么至少要告诉模型你是一个知识库助手回答必须基于提供的上下文如果上下文不足不要编造输出尽量简洁、专业、结构清晰这听起来只是几句话但它往往能明显降低“看起来很像对其实没依据”的回答。3. Prompt 还能怎么继续优化在更成熟的系统里Prompt 还会进一步做针对不同问题类型动态切换模板保留多轮对话历史规定输出格式加入安全约束引导模型优先引用上下文中的关键信息所以Prompt 不是装饰而是模型执行规则。五、如果你要排查 RAG 效果先看这四件事当一个 RAG 系统答得不稳定时不要第一时间怪模型。先从这四个问题排查1. 文档是不是切坏了关键信息是否被切断块是不是太大或太小2. 检索是不是太单一是不是只用了向量检索漏掉了关键词精确匹配3. 结果排序是不是不够准是不是把边缘相关内容送给了模型4. Prompt 是不是约束不够是不是没有明确要求“必须基于上下文作答”很多时候把这四个环节调顺效果提升比换模型更明显也更省成本。结语RAG 不是“上一个向量库”就万事大吉。真正稳定的系统往往不是靠某个单点技术取胜而是靠多个细节同时到位。对初学者来说只要先抓住这四个关键词分块、检索、重排序、Prompt你就已经理解了 RAG 调优最核心的骨架。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

加速量子计算到来！英伟达开源模型拉爆量子计算股

美股量子计算概念集体飙升。英伟达发布并开源全球首个加速量子计算应用的模型系列 Ising。量子计算寄托着全人类跨越现有算力极限的终极梦想。而底层物理硬件的脆弱性始终阻碍整个行业走向普及。Ising 让人工智能直接成为量子机器的控制枢纽，一举打破硬件校准和纠错…...

2026/4/17 1:48:16 阅读更多 →

WELearn网课助手：3分钟搞定网课学习的终极解决方案

WELearn网课助手：3分钟搞定网课学习的终极解决方案【免费下载链接】WELearnHelper 显示WE Learn随行课堂题目答案；支持班级测试；自动答题；刷时长；基于生成式AI(ChatGPT)的答案生成项目地址: https://gitcode.com/g…...

2026/4/17 1:47:11 阅读更多 →

看论文步骤（自用）

第一遍（解决什么问题）1、Title & Abstract 标题和摘要：摘要的最后两三句话，核心贡献2、Introduction 引言的最后一部分：创新点3、核心图表：架构图4、Conclusion 结论：成果和局限性第二遍&am…...

2026/4/17 1:46:26 阅读更多 →

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

企业级OpenSSH 10.0自动化升级实战：从合规需求到批量落地当安全合规成为企业IT建设的刚性需求，基础组件的漏洞修复便从技术问题升级为战略任务。去年某次内部审计中，我们发现全公司237台服务器中，68%的OpenSSH版本存在高危漏洞&a…...

2026/4/16 22:05:04 阅读更多 →

用AI给显示器装上‘眼睛’：复旦博士的EyeReal方案，如何用三层LCD和RTX 4090实现桌面级裸眼3D？

EyeReal技术解析：三层LCDRTX 4090如何重构裸眼3D显示范式当24英寸显示器上跃然而出的立体影像不再需要特制眼镜时，我们或许正站在显示技术革命的临界点。复旦大学马炜杰博士团队发表在《Nature》的EyeReal方案，用三层普通LCD面板和消费级显卡…...

2026/4/16 14:29:57 阅读更多 →

5步轻松打造个人离线小说图书馆：番茄小说下载器完全指南

5步轻松打造个人离线小说图书馆：番茄小说下载器完全指南【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 番茄小说下载器是一款功能强大的开源工具，专为…...

2026/4/16 17:42:46 阅读更多 →