谷歌与伊利诺伊大学联手,让AI研究助手学会“反思自己的错误“
这项由伊利诺伊大学厄巴纳-香槟分校与谷歌云AI研究院联合完成的研究以预印本形式发表于2026年5月11日论文编号为arXiv:2605.10899感兴趣的读者可通过该编号检索完整论文。说到底我们每个人在完成一件复杂任务时都有一套自己的做事流程。以写一篇学期论文为例你会先想好要研究什么问题然后去图书馆或网上查资料看完资料后整理一遍我现在知道了什么、还缺什么最后才坐下来动笔。如果写完发现某段逻辑不通你还会回头修改下次写类似论文时你也会记住上次这个方法行不通。这套流程听起来很自然但对于AI来说要做到这一点却极为困难——尤其是当AI需要独立完成一项深度研究任务时也就是自主搜索信息、整合证据、撰写长篇分析报告。谷歌与伊利诺伊大学的研究团队正是针对这个问题提出了一个名为**RubricEM**的全新训练框架让AI像一个有经验的研究者那样不仅能按阶段做事还能从过去的尝试中汲取教训。一、为什么训练一个会做研究的AI这么难先来理解一下问题的根源。训练AI通常依赖一个简单的逻辑让AI做题对了奖励错了惩罚。但这套逻辑有一个隐藏的前提——你得能判断答案对不对。对于22等于几这种问题判断非常容易。但如果AI要回答睡眠质量对老年人认知衰退的影响机制是什么这种开放性的研究性问题就没有一个标准答案可以对照了。更麻烦的是深度研究任务往往需要AI执行数十步操作——搜索、阅读、筛选、再搜索、整合——整个过程漫长且复杂。如果最后的报告写得不好你根本无法判断是哪一步出了问题是一开始的计划就错了还是搜索关键词选得不对还是最后整合时逻辑混乱了在传统方法中AI只会得到一个笼统的结果不好信号完全不知道该在哪里改进。除此之外还有第三个问题AI每次完成一项任务后这次积累的经验就消失了下次面对类似问题时它又得从零开始。人类研究者不是这样工作的——他们会记住哪些方法有效、哪些弯路不该走但AI的常规训练方式并没有给它留下这种经验积累的机制。面对这三个核心难题RubricEM给出了一套系统性的解决方案核心思路可以用三个词概括**结构化**、**分段评分**、**经验复用**。二、什么是评分标准它为何能成为解决一切问题的钥匙在理解RubricEM的具体方法之前需要先理解一个贯穿全文的核心概念**评分标准Rubric**。假设你是一位大学教授要给一篇研究论文打分。你通常不会凭感觉打分而是会事先制定一张评分表这篇论文是否明确提出了研究问题是否引用了足够多的权威文献论证逻辑是否严密结论是否有据可查……这张评分表就是评分标准它把好报告这个模糊概念拆解成了一系列具体可检查的标准。在RubricEM之前研究者们已经意识到评分标准可以用来评判AI的最终输出——就像教授批卷一样。但RubricEM的核心洞察是评分标准不应该只在批卷的时候出现它应该在整个研究过程中无处不在。同一套标准可以引导AI规划研究方向可以帮助AI在搜索途中判断证据够不够用了可以在写作前做最后的自我核查还可以帮助AI回忆过去类似任务的经验教训。换句话说评分标准被提升为整个系统的共同语言——AI自己生成它、按照它行动、用它来评判自己的每个阶段还把它存进记忆供未来使用。研究团队把这个框架命名为RubricEM其中EM的灵感来自统计学中著名的期望最大化算法先通过评分标准来估计任务的关键维度期望步骤再基于这些估计来优化AI的行为最大化步骤。三、AI如何像研究生一样按阶段完成任务RubricEM的第一个创新是给AI的整个研究过程设计了一套严格的工作流程脚手架由四个阶段组成环环相扣。研究过程从**计划阶段**开始。AI接收到一个问题后不会立刻去搜索而是先做一件更重要的事深度分析这个问题。它会思考用户明确问了什么、隐含想知道什么、有哪些常见的误区需要避开。在此基础上AI会为自己生成一份个性化的评分标准——比如这个问题的回答必须区分睡眠时长和睡眠质量两个不同变量不能混淆必须提供因果关系的证据而不仅仅是相关性。这份标准在后续所有阶段都会始终在场像一块指南针一样。紧接着是**研究阶段**。AI带着计划和评分标准开始迭代式地搜索和阅读信息。每次获得新的搜索结果它都会做一次进度检查对比已有证据和评分标准判断信息是否已经充足。如果某次搜索结果否定了最初的假设AI还可以当场修改计划重新调整方向——这种灵活性在传统方法中是不存在的。当信息积累充分之后AI进入**审查阶段**。在这个阶段它会系统地将收集到的所有证据一条一条对照评分标准进行核查哪些标准已经被满足哪些还有缺口接着AI会为最终的报告制定一个详细的写作计划规定核心论点是什么、每个段落聚焦什么内容、哪里需要引用哪篇来源。最后才是**写作阶段**AI按照审查阶段确立的写作计划生成完整的长篇报告并且在报告中对每个非显而易见的论断都加上文献来源标注。为什么这样的分阶段设计很重要研究团队还专门从数学层面证明了这一点。他们的理论分析表明当同一个上下文比如某段已有证据在不同阶段需要不同行动策略时——搜索阶段要继续找信息写作阶段要开始整合——一个不知道自己处于哪个阶段的AI会陷入混乱做出次优决策。而明确知道我现在在做什么的AI在数学期望意义上一定能做出更好的决策。这个证明以严格的概率论语言表述给分阶段设计提供了理论保证而不仅仅是工程经验。为了让AI真正掌握这套工作流程研究团队做了一件事用谷歌旗下的Gemini 3.1 Pro大模型生成了一批遵循这套四阶段框架的示范性研究轨迹然后用这些数据对基础模型Qwen3-8B进行监督学习训练。生成过程并不顺利——Gemini经常会跳过某个阶段或者直接从内部知识回答而不去搜索因此研究团队设计了严格的质量筛选机制过滤掉不合规范的数据最终得到约1.1万条高质量训练样本。四、如何给每个阶段的工作单独打分第二个核心创新是一套名为**阶段结构化GRPO**SS-GRPO的全新奖励分配机制。在传统方法中AI完成整个研究任务后评判者通常也是一个AI会给最终报告打一个综合分数然后这个分数被广播到整个过程的每一个决策上——意思是无论是最初的计划、中间的搜索、还是最后的写作所有步骤都收到同样的奖励或惩罚信号。这就好比一支足球队踢了一场比赛最终输了2:3。如果教练只是向全队宣布你们表现很差而不指出是门将失误、还是中场传球失误、还是前锋错失良机球员们根本不知道该怎么改进。SS-GRPO的做法是为每个阶段分别打分。评判者会针对计划阶段做得好不好、搜索阶段有没有找到关键证据、审查阶段有没有发现真正的漏洞、最终报告质量怎么样分别评估。而且这套评分还设计了一种上游影响下游的逻辑计划做得好对后续所有阶段都有正面贡献计划阶段的分数会携带这种下游影响力来计算最终的奖励信号。为了确保这些分阶段评分本身是有意义的评判系统一个独立的AI法官还引入了进化式评分标准缓冲区的设计。简单说评判者不是每次都用同一套固定标准而是通过比较同一个问题的多份不同AI答卷动态发现什么才是区分好答案和差答案的关键维度并把这些发现记录下来供下次评判时参考。这样评判标准会随着AI的进步而不断提升始终保持对当前能力水平的判别力。研究团队同样在理论层面证明了这套机制的有效性当分阶段评分从每个阶段中捕获的真实过程信号超过了这些评分可能引入的噪声时分阶段评分在数学上一定优于只看最终结果的评分方式。五、让AI学会回忆过去的经验第三个创新也是最具独特性的一个是**反思元策略训练**与**评分标准记忆库**的结合。这个机制的出发点来自一个朴素的观察人类研究者能不断进步很大程度上是因为他们会反思自己做过的每一次研究——这次我花了太多时间搜索不相关的资料、上次那个问题教会了我在讨论因果关系时要格外小心相关性陷阱——然后把这些经验提炼成可以指导未来工作的规律。RubricEM的做法是让AI在完成一次研究任务后不仅更新自己的参数也就是隐性知识还要显式地生成一段文字性反思存储为经验条目。这个反思不是泛泛而谈而是有固定格式的包括针对这类问题的关键要点提醒以及可以迁移到类似问题的通用经验总结。这些经验条目被存入一个**评分标准记忆库**按语义相似度建立索引。当AI下次遇到新问题时系统会从记忆库中检索最相关的过去经验作为额外的背景信息提供给AI帮助它在计划阶段就少走弯路。这被称为跨任务迁移模式。如果AI遇到的是完全相同的问题比如在训练过程中第二次接触同一道题系统会直接提取该问题上次尝试的反思内容让AI专门针对自己上次的不足进行改进。这被称为任务内精炼模式。一个关键的设计细节在于生成反思和完成研究任务的是**同一个AI骨干网络**。这不仅节省了计算资源还带来了一个重要的协同效果当AI在训练中学习如何写出好的反思时这个学习过程也在同时改善它如何完成研究任务的能力反过来更好的研究任务表现也会帮助它生成更有洞察力的反思。两者相互促进形成正向循环。理论分析表明在评判者认可的反思与任务性能改进方向一致的条件下这种协同训练在数学上一定优于只更新任务参数而不训练反思能力的方式。为了不让反思训练拖慢整个训练流程研究团队设计了一套精妙的**异步执行机制**。在训练的每一步中主要的研究任务训练和反思数据的准备是并行进行的——当前步骤在忙着完成研究任务时上一步骤的反思评分工作在后台悄悄进行等当前步骤的结果出来后下一步骤的反思准备工作又立刻在后台启动。这样反思训练几乎不会额外增加整体的训练时间。六、测试结果AI研究助手在实战中表现如何研究团队在四个专门测试深度研究能力的基准数据集上对RubricEM训练出的AI以8B参数的Qwen3为基础模型命名为RubricEM-8B进行了全面评估。这四个测试平台分别是专注医疗健康问答的HealthBench要求覆盖75个学术领域的ResearchQA专门考察长篇研究报告质量的DeepResearchBench以及使用专家撰写评分标准进行评判的ResearchRubrics。测试结果相当亮眼。在这四个测试平台的综合平均分上RubricEM-8B以55.5分成为所有开源深度研究模型中的最高分超过了参数量远大于它的WebThinker-32B-DPO49.0分和Tongyi DeepResearch-30B-A3B50.8分也超过了使用更强教师模型和更好搜索工具训练的DR Tulu-8B53.6分训练了1900步——而RubricEM只用了1400步就达到了更高的成绩。与商业级的顶级系统相比RubricEM-8B也表现出了令人印象深刻的竞争力。它的平均分超过了Perplexity Deep Research在DeepResearchBench这个测试上还超过了OpenAI的Deep Research系统整体与OpenAI Deep Research的差距缩小到了4.4分。考虑到RubricEM-8B只有80亿个参数而这些商业系统背后的模型规模通常大出数倍甚至数十倍这个差距已经相当小了。研究团队还做了一系列受控消融实验——也就是把RubricEM的各个部分逐一拆除看看每个部分单独贡献了多少。实验结果清晰地显示单独使用SS-GRPO分阶段评分相比基础的只看最终结果的训练方式带来了显著提升单独使用反思元策略训练也带来了可测量的改善两者合并使用时效果最佳而且两者的贡献是互补的并不是简单叠加。分阶段的脚手架设计同样被证明至关重要。研究团队对比了有阶段结构的SFT起点和无阶段结构的SFT起点在后续强化学习中的表现从无结构SFT出发的强化学习训练600步后几乎没有明显提升而且极不稳定从有结构的SFT出发强化学习才能真正发挥作用稳定地推动性能提升。这说明结构化的初始训练是后续强化学习能够起效的必要前提。在短问题回答能力上RubricEM也出乎意料地表现优秀。尽管它的强化学习阶段只使用了长篇研究任务的数据它在SimpleQA、2WikiMultihopQA、WebWalker、DeepSearchQA四个短问题测试上平均得分73.5分远超同类模型DR Tulu-8B的RL版本只有49.0分。这说明在长篇研究任务上训练出的搜索和推理能力能够自然地迁移到短问题场景中。七、这项研究意味着什么归根结底RubricEM回答了一个非常实际的问题如何在没有标准答案的情况下用强化学习来训练AI答案是不要试图制造一个万能的评判机器而是让AI自己生成评判标准然后把这套标准用于指导行动、分配信用、积累经验——让评分标准成为AI的第一语言。这套思路背后有一个朴素但深刻的类比好的学习者不只是不断被告知对或错他们还会为自己设定清晰的目标反思自己在哪个环节出了问题并把这些经验整理成下次可以直接调用的经验手册。RubricEM把这种学习方式系统化、工程化并在实验中证明了它的有效性。研究团队也坦诚地指出了这套系统的局限性。当前的评判模型使用的是Gemini Flash一个成本较低但能力有限的模型如果换用更强大或者经过专门训练的评判模型评分质量和最终性能可能会进一步提升。训练过程中偶发的网络延迟和服务器中断也给某些实验步骤引入了额外的不确定性。此外如果评分标准本身被设计得有偏差AI可能会学会迎合这些偏差而不是真正提升研究质量——这是所有AI判断AI体系都面临的根本性挑战。对于任何对AI技术感兴趣的读者来说RubricEM提示了一个值得深思的方向当我们希望AI在开放性、创造性的任务上表现出色时与其试图设计一个完美的外部评判者不如帮助AI建立起一套内在的、自洽的评判体系——就像培养一个有自我反思能力的研究者远比设计一个打分机器要有价值得多。---QAQ1RubricEM框架和普通的AI训练方法有什么根本区别A普通AI训练通常只看最终答案对不对用一个分数奖励或惩罚整个过程。RubricEM的核心区别在于它让AI自己先生成一套评分标准然后用这套标准来指导每个阶段的行动、给每个阶段分别打分还把完成任务后的反思经验存进记忆库下次遇到类似问题时可以直接调用。这套机制让AI能在没有标准答案的开放性研究任务上持续学习进步。Q2RubricEM训练出来的AI研究助手和OpenAI的Deep Research相比怎么样ARubricEM训练出的8B参数模型RubricEM-8B在综合四个深度研究基准测试的平均分上与OpenAI Deep Research的差距约为4.4分在DeepResearchBench这个单项测试上还超过了OpenAI Deep Research。考虑到RubricEM使用的模型参数量远小于商业系统这个结果已经相当有竞争力。Q3为什么RubricEM在只用长篇研究数据训练的情况下短问题回答能力也有大幅提升A这是因为RubricEM训练的核心能力——如何有效搜索信息、如何评估证据充分性、如何把握问题的真实需求——本质上是通用能力不只适用于长篇报告写作。当AI学会了在复杂任务中严格按步骤搜索和推理这种能力自然而然地也能应用到更简单的问题上甚至在某些方面表现得比专门针对短问题训练的模型还要好。