rag检索增强生成
文章目录RAGrag主要用到哪些技术rag中的主要指标rag系统的效果及指标1、检索质量指标2、生成质量指标3、系统性能指标指标示例指标示例-1、检索质量指标指标示例-2、生成质量指标指标示例-3、系统性能指标RAGRAG(retrieval augmented generation)(检索增强生成)。是目前应用最多最可实现的一种方案。rag主要用到哪些技术1、切片要聪明别只会按字数切要按语义/段落切加 Overlap。2、检索要混合向量 关键词缺一不可。3、结果要重排加一个 Rerank 模型是提升准确率性价比最高的手段。rag中的主要指标只说查的更准了、更快了、节省token等太low了。优秀的 RAG 系统 高召回 (Recall 0.9) 高精排 (Precision 0.8) 无幻觉 (Faithfulness 0.9) 低延迟 ( 3s)rag系统的效果及指标有具体的量化指标。1、检索质量指标2、生成质量指标3、系统性能指标1、检索质量指标指标名称含义计算公式/逻辑目标值Hit Rate K(命中率)前 K 个检索结果中至少有一个是正确答案的比例。$ \frac{\text{命中次数}}{\text{总查询数}} $ 0.90MRR K(平均倒数排名)衡量第一个正确答案排在哪里。排得越靠前分数越高。$ \frac{1}{N} \sum \frac{1}{\text{rank}_i} $(若第1个就命中得1分第3个命中得0.33分) 0.80NDCG K(归一化折损累计增益)考虑了相关性等级如完全相关3分部分相关1分。不仅看有没有还看排序质量。复杂的加权求和公式 (业界标准) 0.85Context Precision(上下文精确度)检索到的内容中真正有用的信息是否集中在前面(RAGAS 指标)基于黄金答案中事实的分布计算 0.80Context Recall(上下文召回率)地面真实答案中的事实有多少比例出现在了检索到的上下文中$ \frac{\text{检索到的事实数}}{\text{地面真实事实总数}} $ 0.902、生成质量指标指标名称含义评判逻辑 (由 LLM 判断)目标值Faithfulness(忠实度/无幻觉)生成的答案是否完全基于检索到的上下文有没有瞎编“答案中的每个陈述都能在上下文中找到依据吗” 0.90 (关键!)Answer Relevance(答案相关性)生成的答案是否直接回答了用户的问题有没有答非所问“这个答案是否解决了用户的疑问” 0.85Answer Correctness(答案正确性)生成的答案与标准答案 (Ground Truth) 的语义相似度。对比生成答案与标准答案的语义向量距离或事实重叠度。 0.80Context Utilization(上下文利用率)模型是否有效利用了提供的长上下文检查模型是否忽略了关键信息。-3、系统性能指标指标名称含义测量方法参考标准 (本地/云端)Latency (端到端延迟)从用户发送请求到收到第一个字 (TTFT) 及完整回答的时间。End_Time - Start_TimeTTFT: 1sTotal: 3-5sThroughput (吞吐量)系统每秒能处理多少个并发请求 (QPS)。压测工具 (如 Locust, JMeter)视硬件而定需满足业务峰值Token Cost(成本)每次问答消耗的 Input/Output Token 数量及金额。统计日志中的 Token 用量越低越好 (优化切片长度可降低成本)Error Rate(错误率)检索失败、超时、模型报错的比例。$ \frac{\text{失败请求数}}{\text{总请求数}} $ 0.1%Index Freshness(数据新鲜度)新文档上传后多久能被检索到。记录上传时间戳与可检索时间戳的差值分钟级 或 秒级指标示例1、检索质量指标核心逻辑强调从“纯向量”到“混合检索重排序”的显著提升。2、生成质量指标3、系统性能指标指标示例-1、检索质量指标场景/优化前优化后目标值 (简历写法)简历话术示例 (可以直接抄)命中率 (Hit Rate 5)(原: 65%)88% - 92%“引入混合检索 (Hybrid Search) 策略将 Top-5 召回命中率从 65% 提升至 89%有效解决了专有名词和代码片段检索丢失的问题。”平均倒数排名 (MRR 5)(原: 0.45)0.75 - 0.82“部署 BGE-Reranker 重排序模型将关键文档的平均排名 (MRR5) 从 0.45 优化至 0.78确保最相关信息始终位于上下文窗口前列。”上下文精确度 (Context Precision)(原: 0.50)0.80 - 0.85“通过优化切片策略父子索引及重排序将 RAGAS Context Precision 指标提升至 0.83大幅减少了无关噪声对大模型的干扰。”长尾问题召回率提升 40%“针对复杂多跳查询设计查询重写 (Query Rewriting) 模块使长尾问题的检索召回率相对提升 42%。”指标示例-2、生成质量指标场景/优化前优化后目标值 (简历写法)简历话术示例 (可以直接抄)忠实度/无幻觉 (Faithfulness)(原: 0.65)0.88 - 0.93“构建基于 RAGAS 的自动化评估流水线通过提示词工程优化及严格上下文约束将模型回答的 Faithfulness (无幻觉率) 从 0.65 稳定在 0.91。”答案相关性 (Answer Relevance)(原: 0.70)0.85 - 0.90“优化生成端 Prompt 模板引入‘思维链 (CoT)’机制使 Answer Relevance 评分提升至 0.88显著减少答非所问的情况。”答案正确率 (Answer Correctness)(原: 60%)82% - 86%“在垂直领域测试集500 用例上系统最终 答案语义正确率达到 85%满足生产环境交付标准。”用户满意度 (隐式指标)4.6 / 5.0“上线后收集用户反馈点赞率 (Thumbs-up Rate) 达到 92%平均用户评分 4.6/5.0。”指标示例-3、系统性能指标场景/配置优化后目标值 (简历写法)简历话术示例 (可以直接抄)首字延迟 (TTFT)(原: 2.5s) 800ms“通过 vLLM 推理加速及缓存策略优化将首字生成时间 (TTFT) 从 2.5s 降低至 600ms实现类人流畅交互体验。”端到端响应时间(原: 8s) 2.5s“优化检索链路并行处理及切片粒度将平均端到端响应时间控制在 2.2秒 以内 (P95 3s)。”并发吞吐量 (QPS)20 - 50 QPS(单卡/小集群)“设计异步检索架构在单张 A10/A800 显卡支持下系统稳定支撑 35 QPS 的并发请求满足业务高峰期需求。”成本优化降低 40% - 60%“通过引入小模型重排序及动态切片策略减少无效 Token 输入使单次问答的 Token 消耗成本降低 55%。”数据新鲜度 1 分钟“搭建实时数据管道实现新文档上传后 30秒内 完成解析、向量化并可被检索保障信息时效性。”