RAG研究数据集基础教程(非常详细),FlashRAG开源基准全解,收藏这一篇就够了!
引言在大语言模型LLM时代检索增强生成Retrieval-Augmented Generation, RAG已成为缓解模型幻觉问题的有效解决方案。然而RAG领域的研究面临着一个共同挑战数据集分散、格式不统一、预处理繁琐。为解决这一问题中国人民大学信息检索实验室RUC-NLPIR推出了FlashRAG_datasets——一个包含36个预处理基准数据集的开源资源库为RAG研究提供了统一、便捷的数据支持。一、FlashRAG_datasets 概述FlashRAG_datasets 是 FlashRAG 工具包的核心资源之一专为RAG研究设计。其主要特点包括36个预处理数据集涵盖问答、多跳推理、长文本生成、多选题等多种任务类型统一数据格式所有数据集采用标准化 JSONL 格式便于直接使用开箱即用无需繁琐的预处理可直接用于模型训练和评估开源许可采用 CC BY-SA 4.0 许可证支持学术研究和再分发统一数据格式每个数据集的每条数据都遵循以下标准格式{ id: train_0, question: 问题文本, golden_answers: [答案1, 答案2], metadata: {subset: xxx, other_info: ...} }字段说明id唯一标识符由数据集分割和位置组成question输入问题或待验证的声明golden_answers正确答案列表即使只有一个答案也用列表存储choices选项列表仅多选题数据集metadata包含子集、标注信息等附加元数据二、数据集分类详解2.1 问答数据集QA Datasets这是RAG研究中最常用的数据集类型用于评估模型的知识检索和问答能力。数据集描述特点Natural Questions (NQ)Google发布的开放域问答数据集基于真实搜索查询DPR版本TriviaQA (TQA)大规模阅读理解数据集问题来自trivia爱好者WebQuestions (WebQ)基于Freebase的问答数据集问题来自Google搜索建议PopQA流行实体问答数据集测试模型对流行知识的掌握SQuAD斯坦福阅读理解数据集经典的机器阅读理解基准MS MARCO QA微软发布的大规模问答数据集基于Bing搜索日志NarrativeQADeepMind发布的叙事理解数据集需要理解完整故事BoolQ是/否问答数据集15,942个样本AmbigQA歧义问题数据集处理问题歧义性CommonsenseQA常识推理问答需要常识知识推理WikiQA微软问答数据集问题-句子对标注SIQA社会智能问答社会常识推理PIQA物理常识问答物理世界常识Fermi费米估算问题包含真实和合成版本2.2 多跳推理数据集Multi-hop QA Datasets这类数据集需要模型进行多步推理整合多个文档的信息才能得出答案。数据集描述特点HotpotQA多跳问答基准需要跨文档推理包含支持事实标注MuSiQue多步推理数据集复杂的多跳推理链2WikiMultihopQA双维基多跳问答包含答案实体别名Bamboogle多跳推理测试集专门测试多跳能力2.3 长文本问答数据集Long-Form QA Datasets用于评估模型生成详细、完整答案的能力。数据集描述特点ASQA歧义问题长答案数据集需要生成详细解释ELI5“像我五岁一样解释”需要通俗易懂的长答案2.4 多选题数据集Multiple-Choice Datasets数据集描述特点MMLU大规模多任务语言理解57个学科领域TruthfulQA真实性评估基准测试模型生成真实答案的能力ARCAI2推理挑战包含简单和困难版本HellaSwag常识推理补全句子补全任务OpenBookQA开卷考试问答需要常识推理2.5 其他专项数据集数据集任务类型描述FEVER事实验证判断声明是支持还是反驳WOW (Wizard of Wikipedia)对话生成基于知识的对话AIDA CoNLL-YAGO实体链接命名实体消歧WNED实体链接维基百科实体消歧T-REx关系抽取知识库关系抽取Zero-shot RE零样本关系抽取无训练样本的关系抽取WikiAsp摘要生成已适配为RAG场景三、检索语料库Document Corpus除了数据集FlashRAG还提供了标准化的检索语料库支持3.1 Wikipedia语料库DPR版本2018年12月20日的Wikipedia快照格式JSONL格式每行包含id和contents字段预处理脚本提供自动下载和处理任意版本Wikipedia的脚本{id: 0, contents: 文章标题\n文章内容...} {id: 1, contents: 另一篇文章标题\n内容...}3.2 MS MARCO语料库规模880万段落来源Bing搜索引擎获取方式可直接从HuggingFace下载3.3 预构建索引为方便实验复现FlashRAG提供了预构建的检索索引使用e5-base-v2检索器构建基于 wiki18_100w 数据集可从 ModelScope 直接下载四、快速使用指南4.1 通过HuggingFace加载数据集from datasets import load_dataset # 加载Natural Questions数据集 nq_dataset load_dataset(RUC-NLPIR/FlashRAG_datasets, nq) # 查看训练集 print(nq_dataset[train][0])4.2 使用FlashRAG工具包from flashrag.config import Config from flashrag.utils import get_dataset # 配置数据集路径 config Config(config_file_pathconfig.yaml) # 加载数据集 dataset get_dataset(config)4.3 数据集过滤FlashRAG提供了灵活的数据集过滤工具# 随机采样 dataset get_dataset(config, sample_num1000, random_sampleTrue) # 基于metadata过滤 dataset get_dataset(config, filter_funclambda x: x[metadata][subset] easy)五、评估指标支持FlashRAG支持多种评估指标检索评估Recallk召回率Precisionk精确率F1kF1分数MAP平均精度均值生成评估Exact Match (EM)精确匹配Token-level F1词级F1分数Accuracy准确率BLEU机器翻译评估指标ROUGE-L摘要评估指标六、与其他RAG工具包的对比特性FlashRAGLangChainLlamaIndex预处理数据集✅ 36个❌❌统一数据格式✅❌❌预实现RAG算法✅ 23个部分部分研究导向✅❌❌基准测试报告✅❌❌可视化界面✅❌❌七、许可证说明FlashRAG_datasets 整体采用CC BY-SA 4.0许可证。各数据集根据原作者设置可能有不同许可CC BY-NC-SA 4.0CC BY-NC-SA 3.0CC BY 4.0Apache-2.0MITBSD所有数据集均允许科学研究使用和再分发。八、总结FlashRAG_datasets 为RAG研究社区提供了一个宝贵的资源降低入门门槛统一格式开箱即用提高研究效率无需重复预处理工作促进公平比较标准化的评估基准支持多样任务覆盖问答、推理、验证等多种场景无论你是RAG领域的新手还是资深研究者FlashRAG_datasets都能帮助你更高效地开展研究工作。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】