Yellow.ai团队找到了一种让AI知识库建设成本降低一半的新方法

张

张建站

2026/4/27 17:09:33

10分钟阅读

这篇由Yellow.ai人工智能研究团队完成的论文发表于2026年4月论文编号为arXiv:2604.04936v1分类在计算机科学信息检索领域cs.IR。有兴趣深入了解技术细节的读者可以通过该编号在arXiv平台查阅完整论文。一、一个你每天都在用却不知道的技术难题每当你向企业客服机器人提问或者使用某款AI助手查询公司内部资料时背后都有一套叫做检索增强生成RAG的系统在运转。简单来说这套系统的工作原理就像一个超级勤快的图书馆员当你提问时它先跑去书架上找到相关资料再把资料交给AI来回答你的问题。但问题来了——这个图书馆员在整理书架时有个头疼的工序叫做文档切块。顾名思义就是把一篇长文章切成若干小段落每段分别贴上标签存好方便日后快速检索。这个工序听起来简单做起来却大有讲究。以一本汽车维修手册为例里面有更换轮胎的详细步骤这一节一共八个步骤。如果切块时恰好把第三步和第四步切开放进了两个不同的小段落那当有人问怎么换轮胎时AI可能只找到前三步给出的答案自然是残缺的。反之如果把不相干的内容——比如轮胎品牌推荐和雨天驾驶技巧——错误地拼进同一个段落AI找到的内容就会像一盘杂菜答非所问。Yellow.ai的研究团队正是盯上了这个问题提出了一套名为面向网页检索的感知切块方案英文缩写W-RAC。他们的核心思路颇具新意与其让AI大模型去读完整篇文章再重新写出切好的段落不如只给它看文章的目录骨架让它告诉我们该把哪些章节编号归并在一起——至于文字本身原封不动搬过去就行。这就像请一位编辑来整理书稿你不需要让他把整本书重新打一遍只需要他告诉你第三章和第四章内容连贯应该放在同一个章节包里就够了。二、现有方法为什么令人头疼在W-RAC出现之前业界主要有三种切块方式各自都有难以回避的缺陷。最古老的一种叫固定大小切块逻辑非常粗暴——每隔500个字符或者300个词就切一刀不管这一刀是切在句子中间还是段落边界。这就像用尺子切蛋糕不管蛋糕上的花纹图案每隔五厘米切一刀结果往往把一朵完整的奶油玫瑰从正中间切开。这种方法实现简单、成本极低但对检索质量的伤害显而易见语义上紧密相关的内容被强行分开毫不相干的内容却可能凑到了一起。第二种叫基于规则的结构化切块稍微聪明一些。它会识别文档中的标题、段落标签、HTML标签等结构信号沿着这些自然边界来切割。回到蛋糕的比喻这次是沿着蛋糕的分层切至少不会把一层蛋糕胚切成两半了。然而现实中的网页内容五花八门有些页面结构规整有些则一团混乱规则往往跟不上内容密度和排列方式的千变万化面对复杂内容时依然力不从心。第三种是最先进也最昂贵的智能体切块直接把整篇文章原文喂给大语言模型让它理解内容之后重新生成一批语义连贯的小段落。这就像请一位真正的编辑从头到尾读完整本书然后用自己的话把精华提炼出来重写一遍。效果固然好但代价也是最高的——不仅需要消耗大量AI处理费用因为既要读入大量文字又要生成大量输出文字处理速度慢还有一个潜在的风险AI在重写时可能会悄悄修改原文产生所谓的幻觉把原文中没有的内容编进去或者把原文的意思稍微扭曲了。对于企业知识库而言这种信息失真是绝对不能接受的。更要命的是对于需要持续大批量爬取、处理网页内容的系统来说智能体切块的成本会随着文档数量线性增长扩展性极差。研究团队在论文中用一句话概括了这三种方法的共同问题它们都没有把切块本身理解为一个规划问题而是把它当成了一个内容生成问题。三、W-RAC的核心设计只让AI做它最擅长的事W-RAC的设计哲学建立在一个简单却深刻的区分之上文字提取是确定性的机器活而语义分组是需要理解力的智慧活。前者应该交给程序确定性地完成后者才值得请大语言模型出马——但只需要它做规划不需要它做写作。整个W-RAC流程分为三个清晰的阶段就像一条流水线上的三个工位。第一个工位叫确定性网页解析。系统把网页内容从HTML格式转换成结构化的文本表示经过Markdown这个中间格式再进一步整理成抽象语法树结构然后给每一个语义单元——每一个标题、每一个段落——贴上一个唯一的编号标签。输出的结果不是文字而是一个类似这样的结构化清单每个条目包含编号、文字内容、所在行数、以及它的父级标题是谁。此时文章的完整原文已经被安全保存就像图书馆里一本本完好的原书等候后续调取。第二个工位才是大语言模型登场的时刻但它收到的任务单和传统方式截然不同。系统不把文章原文发给它只把那份骨架清单发过去——也就是各个段落的编号、标题层级关系、父子关系以及可选的词数统计等元数据。大语言模型读完这份骨架之后输出的也不是文字而是一份分组方案比如编号1、2、3、4的段落应该归为一组编号1、5、6应该归为另一组。这份方案用JSON格式表达里面只有编号没有任何文字内容。这就像请一位图书馆员不看书的内容只看书名和章节目录然后告诉你哪几章应该被装进同一个检索包里。第三个工位是后处理与索引。系统按照第二步给出的分组方案从第一步保存的原始文本库里把对应的段落原文取出来拼合形成最终的切块结果然后生成向量嵌入并存入检索数据库。整个过程中原始文字从未被AI模型处理或改写零幻觉风险。研究团队在设计W-RAC时还给系统制定了五条核心原则这五条原则贯穿始终。第一绝不重新生成文本原文原封不动保留。第二切块要服务于检索而不是服务于阅读体验最终目的是让检索时能找到最相关的段落。第三最小化AI调用成本和token消耗。第四系统行为必须可预测、可调试每次对同一份文档处理的结果应该相同。第五专门为网页内容设计充分利用网页文档天然的层级结构。四、切块也要懂查询什么叫检索感知W-RAC名字里的检索感知四个字值得单独解释一下因为这是区别它与其他方案的灵魂所在。绝大多数传统切块方案考虑的问题是这段文字怎么读起来完整而W-RAC考虑的是当用户提问时哪些内容应该被一起找到。这两个问题的答案有时相同有时却大相径庭。举个具体例子一篇银行贷款说明页面主标题是个人信贷产品下面有一个二级标题申请条件再下面有三级标题收入要求和年龄限制。从阅读体验来看收入要求和年龄限制是平行的两个小节完全可以分成两块。但从检索角度来看当用户问我能申请贷款吗他需要同时了解收入和年龄两方面的条件这两块应该放在一起。W-RAC的切块方案就会把这两个小节合并处理。为了实现这种检索感知W-RAC在进行切块规划时会综合考虑多个维度的信息。标题的层级深度和章节的隶属关系是最基础的考量因为同一个父标题下的内容往往需要配合阅读。内容的词数和长度也是重要参数避免单个切块过长导致检索时噪音过多或者过短导致信息不完整。此外系统还会区分不同类型的内容——比如表格数据和说明性段落就应该采用不同的切块策略步骤性的操作指南则无论如何都必须保持完整绝不能从中间截断。这些规则都被编码进了发给大语言模型的提示词里让它在规划分组方案时自动遵循。值得一提的是研究团队在论文附录中公开了完整的提示词内容这为后来者复现或改进这套方案提供了极大的便利。五、用真实数据检验成本和质量各有几分光说原理不够研究团队用一个专门构建的测试集来检验W-RAC的实际表现。这个测试集名为RAG-Multi-Corpus包含来自五个虚构企业的236份文档文档格式涵盖PDF、Markdown、HTML、Word文档和PowerPoint演示文稿模拟真实企业知识库的多样性。在这236份文档之上研究团队精心设计了786个问答对每个问题都有明确的参考答案和答案来源文档。这五个虚构企业分别属于汽车、教育、企业科技和银行金融四个行业涵盖了从产品说明到政策规定、从操作流程到财务报告的各类文档。786个问题按照类型分成七大类描述性问题比如XX产品的功能是什么、分析性问题需要推理和解读、比较性问题A方案和B方案有什么区别、是非判断题、时间序列问题、步骤性操作问题如何完成XX流程以及需要跨文档综合的开放性问题。这种分类设计确保了评测覆盖了检索场景的各种难度梯度。所有实验都在GPT-4.1大语言模型上运行同一套基础设施同一批文档唯一的变量是切块方式——一批用传统的智能体切块一批用W-RAC。**成本方面的结果令人印象深刻。**整个236份文档的处理流程传统智能体切块共花费了3.64美元W-RAC只花了1.75美元降幅达到51.7%节省了约1.89美元。这个数字乍看不大但按比例来算意义重大——如果一家企业每天要处理数千份新网页一年节省的费用就相当可观了。拆开来看成本节省的来源非常清晰。在输入token也就是发给AI的内容量上W-RAC实际上比传统方法多花了约50%——因为结构化的元数据清单本身也有一定篇幅。但在输出tokenAI生成的内容量上W-RAC减少了惊人的84.64%从平均每份文件输出1467个token下降到仅227个。这是因为AI只需要输出一串编号而不是把文字段落完整重新写出来。关键在于在当前的AI服务定价体系下输出token的费率通常是输入token的四倍。少输出84%的内容就是少付出绝大部分的钱。处理速度同样有显著改善。平均每份文档的处理时间从9.23秒缩短到3.78秒降幅59.1%。更重要的是这种加速在极端情况下同样成立——P90延迟代表处理最慢的那10%文档所需的时间从12.78秒降到5.83秒P95延迟从14.67秒降到7.17秒。这意味着W-RAC不只是在平均情况下更快在面对复杂文档时也保持了稳定的速度优势这对于生产环境的系统设计至关重要。**检索质量方面的结果同样值得细看但画风有些微妙。**研究团队用四个标准指标来衡量检索效果RecallK在返回的K个结果里正确答案被找到的比例、PrecisionK返回的K个结果里有多少是真正相关的、MRR第一个正确结果排在第几位以及NDCG综合考虑排名质量的指标。K分别取3和6来测试。W-RAC在精确率上的表现明显优于传统方法。以Precision3前三个结果里的准确率为例综合所有文档和问题类型W-RAC的得分是0.71而传统方法只有0.55提升了约29%。放到各个企业分别来看差距更加明显ZX银行的Precision3从0.54提升到0.81提升了50%Cendara大学从0.46提升到0.76提升了65%。召回率方面传统方法略有优势Recall6整体上传统方法得0.93W-RAC得0.91差距很小但确实存在。研究团队对此给出了合理的解读对于生产级别的RAG系统高精确率往往比高召回率更有价值。返回三个高度相关的结果远比返回六个里面有四个不相关的结果更有用。精确率的大幅提升意味着W-RAC产生的切块更干净每块内容的语义边界更清晰相关内容被更好地归拢在一起。按问题类型细分的数据揭示了一些有趣的规律。时间序列类问题比如XX政策从什么时候开始生效上W-RAC的Precision3从0.43飙升到0.79提升了84%说明W-RAC在保留时间上下文方面有明显优势。比较类问题A和B有什么不同上W-RAC的Precision3达到0.77是所有类型中最高的验证了W-RAC在把同一主题下的对比性内容聚合在一起方面的能力。步骤性操作问题上W-RAC的Precision3从0.50提升到0.68说明不切断操作步骤的规则确实有效。六、系统的可观测性一个容易被忽略的隐藏优势在论文的结论部分研究团队特别强调了W-RAC的另一个优势这个优势在实际工程中往往比论文里的数字更加重要系统的可观测性和可调试性。传统智能体切块是个黑盒子——你把原文丢进去AI输出一堆切好的段落但你很难追踪为什么某段内容被切在这里而不是那里也很难在出问题时快速定位原因。如果某个用户的问题始终得不到好的回答你不知道是切块方式的问题、检索策略的问题还是AI生成答案的问题。W-RAC的切块计划是完全透明的——它就是一份编号列表你可以直接看到这个段落被归入了哪个切块那个切块包含了哪些段落。当发现某个检索结果不理想时工程师可以迅速定位到具体的切块检查是哪两个段落被错误地分开了或者哪些不相关的内容被错误地合并了然后有针对性地调整提示词或参数。此外由于每次处理相同文档的结果是确定性的相同的输入必然得到相同的编号分组方案系统的行为是可复现的。这对于需要在多个环境中部署、或者需要做A/B测试的企业系统来说是非常宝贵的特性。同一份切块计划还可以被缓存当文档内容没有变化时不需要重新调用大语言模型进一步降低了运营成本。研究团队在论文中还展望了W-RAC框架的扩展潜力。由于切块结果是结构化的编号计划未来可以在上面叠加更多高级功能比如根据文档中识别出的实体关系来优化切块边界实体感知切块或者把多份文档的切块结果用图结构联系起来基于图的检索甚至根据不同用户群体或使用场景动态调整切块策略策略驱动的切块重组。这些扩展在传统智能体切块框架下几乎无法实现因为那里的切块是生成出来的文字难以进行结构化操作。七、研究的局限与值得进一步思考的地方尽管W-RAC的实验结果相当出色这项研究也有一些值得正视的局限。测试集RAG-Multi-Corpus的236份文档来自五个虚构企业这意味着测试结果在多大程度上适用于真实世界的企业知识库仍然需要进一步验证。真实企业的文档往往有更多的噪音——比如扫描件质量差、网页爬取内容带有大量广告和导航菜单、文档格式不规范等这些情况在论文的实验设置里并未得到充分体现。此外W-RAC在召回率上的轻微劣势也不应被忽视。在某些场景下比如需要检索非常分散的知识点来回答复杂问题时稍低的召回率可能意味着系统偶尔会漏掉关键信息。研究团队的判断是对于大多数生产场景精确率更重要但这个判断并不普适具体场景还需要具体分析。还有一点值得关注W-RAC目前主要面向网页结构化内容设计对于扫描PDF、复杂学术论文、包含大量图表的财报等非结构化文档其适用性如何论文中并未给出充分的实验数据值得后续研究跟进。---说到底W-RAC做的事情其实很朴素它发现了一个长期被忽视的浪费点并用一个精妙的工程思路把它省掉了。与其让AI大模型既当读者又当作者不如让它只当规划师——读的是骨架写的是编号原文一字不动。结果是成本省了一半速度快了六成准确率还提高了。这个研究给从业者的启示不仅限于切块这一个技术问题更是一种系统设计哲学在AI系统里每个环节都应该想清楚我真正需要AI做什么而不是本能地把所有工作都扔给它。AI能力越强用错方向的代价就越大用对方向的收益也越高。如果你对这套方法的完整技术细节感兴趣可以通过论文编号arXiv:2604.04936v1找到原文其中附录里公开的完整提示词对实际工程师来说尤其值得参考。---**QA**Q1W-RAC方案和传统智能体切块方案相比在成本上具体能省多少A根据论文的实验数据处理同样的236份文档传统智能体切块的总费用是3.64美元W-RAC只需1.75美元总体节省约51.7%。这主要来自输出token的大幅减少——W-RAC的输出token比传统方法少了84.64%而输出token的定价通常是输入token的四倍因此这一部分的节省非常可观。与此同时处理每份文档的平均时间也从9.23秒缩短到了3.78秒。Q2W-RAC在检索准确率上是否真的比传统方法更好召回率会不会变差AW-RAC在精确率上有明显优势综合所有问题类型Precision3从0.55提升到0.71提升约29%。但召回率上传统方法略有优势Recall6分别是0.93对0.91差距较小。研究团队认为对于实际应用场景更高的精确率更有价值因为返回更少但更准确的结果比返回很多但不相关的结果更实用。不过具体哪种指标更重要还是要看实际的应用场景需求。Q3W-RAC切块方案适合处理哪些类型的文档AW-RAC目前主要针对网页文档设计能够很好地利用HTML页面天然的层级结构标题、段落、父子关系等。论文测试中涵盖了PDF、Markdown、HTML、Word文档和PowerPoint等多种格式均有较好表现。对于结构清晰的企业知识库文档效果尤其好。但对于扫描版PDF、图表密集的财报、或者格式高度不规范的文档论文中没有提供足够的实验数据实际效果有待进一步验证。