这项由南京大学与阿里巴巴集团联合开展的研究于2026年6月1日以预印本形式发布论文编号为arXiv:2606.02320v1有兴趣深入了解的读者可通过该编号查询完整论文。一份好的研究报告光有文字还远远不够考虑这样一个场景你是一家公司的决策者需要了解某个新兴市场的发展趋势。助理给你递来一份厚厚的报告——文字写得头头是道引经据典每一个数据点都有来源。但整份报告里要么没有图表要么有几张图却和正文内容风马牛不相及甚至有些数字对不上。你会信任这份报告吗这正是当前人工智能深度研究系统所面临的核心困境。所谓深度研究系统就是那些能够自动浏览网络、收集信息、并最终写出一份完整研究报告的AI助手——比如各大科技公司推出的Deep Research功能。这类系统近年来发展迅猛在撰写长篇文字报告方面已经颇有建树但它们有一个共同的软肋对于视觉内容的处理往往流于表面甚至完全缺失。研究团队将这一现象描述为装饰性视觉与证据性视觉之间的根本差异。前者是把图片当作报告的美化点缀插进去好看后者才是真正意义上把图表作为论据让每一张图都在支撑某个具体的分析结论。目前大多数AI系统做的是前者而真实的专业报告需要的是后者。这项研究的意义在于它不仅指出了这个问题还从头到尾构建了一套解决方案——包括一个专门用来测试图文混排报告生成能力的评测基准一个专门设计来处理这类任务的多智能体框架以及一套评分体系。整个体系被命名为TVIR取自Text-Visual Interleaved Report Generation文本与视觉交织的报告生成的首字母。二、先立规矩TVIR-BENCH是如何出题的要评测AI系统的能力首先得有一套公平、合理的考题。TVIR-BENCH就是这套考题它包含100道精心设计的多模态深度研究任务覆盖十个不同领域——从科技与智能、金融与商业、健康与医学到历史与社会、文学与艺术、旅游与娱乐可谓包罗万象。这100道题的设计遵循了五条核心原则理解这些原则才能明白为什么这套基准比以前的同类测试更接地气。第一条原则叫做角色驱动。每道题都有一个具体的身份设定不是泛泛的某人想了解某话题而是某家生物制药公司的研发主管需要评估一个新疗法的临床和商业前景。这样的设定确保任务有真实的使用场景而不是空洞的学术问答。第二条原则叫做需求导向。题目里会明确列出需要回答哪些具体问题避免那种请谈谈你对AI的看法式的开放题。每个子问题都要有明确的信息目标。第三条原则叫做深度研究。题目不能用简单的信息检索来搞定必须要求模型从多个来源综合证据、进行因果推理、比较不同观点最后给出结论或建议。第四条原则叫做前沿聚焦。题目要关注近两三年内出现的新发展、新挑战鼓励模型去使用最新的数据和资料而不是依赖陈旧的背景知识。第五条原则也是最关键的一条叫做多模态整合。每道题都明确要求生成视觉内容而且这些内容必须真正服务于分析目标。有趣的是题目通常不会直接说请检索一张图片或请生成一个图表而是用更自然的方式嵌入这些需求比如请绘制一个雷达图来比较这几个方案或请附上这个系统的架构图——前者暗示需要生成图表后者暗示需要检索图片。100道题按难度分为三档低难度约130个英文单词1至3个多模态需求、中难度约260个英文单词2至4个多模态需求、高难度约390个英文单词3至5个多模态需求。其中50道用中文出题50道用英文出题语言分布均衡。这些题目的诞生过程也颇为严谨。首先由领域专家提出核心话题保证话题的真实性和前沿性接着用Grok-4.1-Thinking模型草拟题目然后由三位领域专家对草稿进行审核从设计合规性、事实准确性、逻辑连贯性和多模态可行性四个维度逐一把关最后每道题还会配套一份评估清单——把题目拆解成一系列可以逐条核查的具体要求方便后续评分使用。三、怎么打分一套同时审查文字和图片的双轨评估体系有了题目还需要一把公平的评分尺。TVIR的评估体系分为两条轨道并行运作文本评估Textual Assessment简称TA和视觉评估Visual Assessment简称VA。这两条轨道各包含若干细分指标最终汇总成一个综合得分。文本评估轨道包含五项指标。第一项是引用支撑度具体检查报告里每一个事实陈述是否有对应的参考来源支持——评分系统会把报告里引用的每条文献实际抓取下来逐一核查给出完全支撑、部分支撑或不支撑三档评分。第二项是指令对齐度对照每道题配套的评估清单检查报告是否完整、具体地回答了所有要求。第三项是写作质量从连贯性与组织结构、清晰度与可读性、简洁度、以及风格与引用格式一致性四个维度打分。第四项是分析深度与广度评估报告是否做到了因果推理、持续分析、批判性评估、前瞻性洞察和主题覆盖的广度。第五项是事实与逻辑一致性专门检测报告内部是否存在自相矛盾的陈述。视觉评估轨道同样包含五项指标。第一项是多模态构图从报告整体层面评估图表元素的布局、数量、多样性和丰富度是否合理。第二项是图片质量通过计算机视觉技术测量分辨率、长宽比、清晰度、对比度并对重复图片施加扣分对于代码生成的图表则用AI逐一检查布局完整性、可读性和简洁性。第三项是图注质量评估每张图的说明文字是否准确描述了图的内容、提供了足够的解读信息、措辞是否清晰易读。第四项是图文整合度评估每张图与其周围文字的关联程度是否被有效融入叙述流程是否提供了纯文字无法有效传达的信息。第五项是图表与来源一致性专门核查代码生成的图表中的数据是否与其引用的原始来源一致有无矛盾之处。在技术实现层面评估流程有一个精妙的预处理步骤在评分之前系统会先用大语言模型把报告里的参考文献条目、事实-引用配对关系、以及所有图表元素连同图注、图片内容和周围上下文都提取出来结构化存储再分别送入对应的评分模块。之所以要做这个预处理是因为当前的大语言模型在处理特别长的图文混排内容时容易产生幻觉拆分处理更为可靠。四、解题工具TVIR-AGENT是如何工作的评测基准有了接下来研究团队还构建了一个参考答案——一套叫做TVIR-AGENT的多智能体框架用来实际生成这些文图并茂的研究报告。这个框架分四个阶段串联工作可以用一个建筑项目来理解整个流程。第一阶段叫做研究驱动的规划Research-Grounded Planning负责的是Planner规划者这个模块。拿到用户的研究任务之后规划者不会立刻动笔而是先去网络上搜索和浏览相关资料然后把收集到的信息整理成一份结构化的提纲。这份提纲里每一个章节单元都不只有标题和摘要还明确列出了视觉需求——这一节需要什么样的图大概是什么内容以及研究笔记——从哪个来源获取了什么关键发现来源网址是什么。这些研究笔记就像建筑项目里的材料清单为后续所有模块提供了可追溯的事实基础。第二阶段叫做视觉资产实例化Visual Asset Instantiation由两个专门的子模块分工合作。图片搜索者Image Searcher负责处理那些需要从网络检索的图片——比如模型架构图、历史人物照片、地标建筑图片等。它会通过谷歌图片搜索获取候选图片用规则过滤掉低质量结果然后借助视觉问答工具核实候选图片是否真的符合需求最后选出最合适的一张同时保留来源网址。图表生成器Chart Generator则负责那些需要根据数据自行绘制的图表——比如某个指标的历年趋势折线图、多个方案的雷达对比图等。它会先搜索相关数据核验数据来源的真实性和不同来源之间的一致性然后生成Python绘图代码在沙箱环境里执行最终输出图表文件同时保留数据来源网址。经过这一阶段原先只是计划中的视觉需求都变成了有实物、有来源的视觉资产。第三阶段叫做上下文感知的顺序写作Context-Aware Sequential Writing由Writer写作者模块负责。它按照章节顺序逐一生成报告内容但有一个关键设计每写完一节就把该节的标题、摘要和小节结构更新到一个全局上下文里写下一节时写作者会参考这个全局上下文确保前后内容不重复、逻辑连贯。写作过程中写作者会根据图表的描述信息决定在哪个位置插入对应的视觉资产用Markdown格式将文字和图片自然交织在一起。如果发现规划者留下的研究笔记信息不够充分写作者还会主动调用搜索工具补充。第四阶段叫做全局索引润色Global Index Polishing由Polisher润色者模块负责。在整篇报告生成完毕后润色者会做一次全面的收尾整理删除被引用了但实际在正文中没有出现引用标记的参考文献对全文的参考文献按网址和内容去重合并重新统一编号同样地对所有图片进行全局重新编号并更新正文中相应的图片引用标记。这一步确保了报告在引用和图片标注上的整洁一致避免了编号混乱或引用悬空的问题。五、九强同台实验结果说明了什么研究团队用TVIR-BENCH对九个系统进行了横向比较其中六个是商业闭源系统三个是用不同大语言模型驱动的TVIR-AGENT变体。六个商业系统分别是谷歌的Gemini-3-Pro Deep Research纯文字报告系统、xAI的Grok-4.1-Thinking DeepSearch、Anthropic的Claude-4.5-Sonnet w/Search、Perplexity Deep Research、Genspark Deep Research以及Manus-1.6。三个TVIR-AGENT变体分别以Qwen3-Max、GLM-4.7和Claude-4.5-Sonnet作为底层大语言模型。总体成绩上三个TVIR-AGENT变体包揽了前三名。其中以Claude-4.5-Sonnet为底层的TVIR-AGENT综合得分最高74.44其次是Qwen3-Max版73.53和GLM-4.7版72.62。在商业系统中Manus-1.6表现最强综合得分达到69.73。细看各个维度不同系统各有侧重。GLM-4.7版的TVIR-AGENT在文本评估方面得分最高71.64显示出较强的文字综合能力Claude-4.5-Sonnet版则在视觉评估方面以78.76的得分遥遥领先在图文对齐和跨模态一致性上优势明显。值得特别说明的是Gemini-3-Pro Deep Research因为只生成纯文字报告视觉评估和综合得分无从计算这一结果本身就印证了多模态原生支持的重要性。引用支撑度这一项最能体现各系统的差异。GLM-4.7版的TVIR-AGENT在这一项得到了68.64分比表现最好的商业系统Claude-4.5-Sonnet w/Search高出整整21分——后者只有47.53分。这意味着TVIR-AGENT在事实陈述的来源可追溯性上比商业对手强了将近一半。在图注质量方面Claude-4.5-Sonnet版的TVIR-AGENT得到74.49分比Manus-1.6高出8.35分。研究团队还分析了不同任务难度对系统表现的影响发现了一个有规律的现象随着任务难度增加指令对齐度得分普遍下滑而分析深度与广度得分反而有所提升。这说明更复杂的任务对多模态协调和指令跟踪提出了更高要求系统难以面面俱到地满足所有细节要求但正是这种复杂性似乎也激发了系统进行更全面、更深入探索的倾向。跨语言表现方面所有系统在中文任务上的文本评估得分普遍略高于英文任务不过差距不大系统排名也基本稳定说明TVIR-AGENT具备较强的跨语言泛化能力。研究团队特别提醒中英文两组题目并不是互相翻译的版本而是各自根据语言文化背景独立设计的因此应该把它们理解为平行的基准切片而不是严格对等的测试对。六、拆件测试每个模块的贡献有多大为了弄清楚TVIR-AGENT的哪些部分最关键研究团队做了一组消融实验——就像逐一拆掉一台机器的零件看少了哪个零件影响最大。实验以Claude-4.5-Sonnet版的TVIR-AGENT为基准分别去掉三个组件研究笔记、图片搜索模块和图表生成模块看每次去掉一个之后整体表现的变化。结论是清晰的去掉任何一个组件都会导致性能下降但影响程度差异显著。去掉图表生成模块的代价最为惨重视觉评估得分从78.62骤降至60.91综合得分从73.92跌至63.84——这足以说明自主生成有数据支撑、来源可查的图表是整个视觉合成能力的核心。去掉图片搜索模块的影响也相当明显各项指标都有清晰的下滑。相比之下去掉研究笔记的影响最小但依然存在可观测的负向效果。七、工具使用分析检索和画图哪个更划算研究团队还仔细分析了三个TVIR-AGENT变体在运行过程中的工具调用模式发现了一个颇有启发性的权衡关系。GLM-4.7版在规划阶段和图表生成阶段调用搜索和网页抓取工具的次数最多检索信息最为充分其平均有效引用数衡量每道题中有来源支撑的陈述数量的指标达到了最高的102.41条。然而在有限的智能体操作预算下过度的检索活动占用了大量资源导致图表实际生成率只有38.45%——虽然平均每道题计划生成8.66张图表但实际只产出了3.33张。Claude-4.5-Sonnet版采取了更均衡的策略有效引用数保持在86.14的较高水平同时图表完成率高达94.61%是三个变体中最高的。这个对比说明系统表现不仅取决于底层模型的能力还深刻受到工具调用策略的影响——如何在信息检索和内容生成之间分配有限的操作次数是一个需要认真权衡的问题。八、评估体系本身可靠吗一套评估体系的价值取决于它自身的可靠性。研究团队为此做了多项验证。首先是信息提取的准确性验证。研究团队人工标注了90份报告每个系统10份为参考文献提取、事实-引用配对提取和图表元素提取建立了人工标注基准。对比结果显示AI提取系统在三项任务上的精确率、召回率和F1分数均接近完美参考文献提取三项均达100%事实-引用配对精确率99.55%、召回率99.20%图表元素提取同样达到100%。此外在整个评测集的900份报告中通过Serper API实际成功抓取参考来源网页的成功率高达96.53%。然后是与人类判断的一致性验证。研究团队招募了20名具有硕士学位和相关领域专业知识的标注员对8个系统在100道题上的报告进行独立评分每份报告由3名标注员评分计算了自动评分与人工评分之间的一致性。结果显示在系统排名的皮尔逊相关系数方面文本评估维度达到99.12视觉评估达到99.42综合得分达到99.73——这几乎是完美的线性相关说明自动评分系统对系统排名的判断与人类专家高度一致。最后是跨大语言模型评分者的鲁棒性验证。研究团队用另一个模型Gemini-2.5-Pro作为评分者与主体评分模型GPT-5.2的结果进行对比发现两者在文本、视觉和综合三个维度上的皮尔逊相关系数均超过99排名相关性和成对比较一致性也都很高。这说明评估结论对于评分所用的具体模型不敏感具有良好的稳健性。---归根结底这项研究揭示了一个被长期忽视的核心矛盾我们对AI研究助手的评价体系长期只盯着文字却对图表的质量和可信度睁一只眼闭一只眼。TVIR的工作价值在于它从问题定义、解决方案、到评估体系提供了一个完整的闭环回应。对于普通用户来说这项研究意味着未来的AI研究工具在生成包含图表和图片的报告时将会有更严格的质量标准——不只是有没有图而是图对不对、图和文章说的是不是一回事、数据来源追不追得上。这些改变虽然发生在技术层面但最终会直接影响到每一个依赖这类工具做决策的人所能获得的信息质量。当然研究团队也坦承目前所有系统包括TVIR-AGENT自身在来源可追溯性方面仍存在不小的挑战这是整个领域共同面对的未解难题。另一个值得关注的有趣发现是任务越复杂系统在细节指令执行上越容易顾此失彼但分析视野反而会变得更开阔——这种微妙的权衡关系或许正是未来优化方向上最值得深挖的课题。有兴趣深入了解技术细节的读者可以通过arXiv论文编号2606.02320查询完整论文该论文的项目主页地址为nju-link.github.io/TVIR。---**QA**Q1TVIR-BENCH和现有的深度研究基准有什么区别A现有的深度研究基准大多只评估文字报告的质量对图表和图片要么完全不考察要么只做粗粒度的评估。TVIR-BENCH的区别在于它要求报告中的视觉内容必须真正服务于具体的分析目标并配套了细粒度的视觉评估指标包括图注质量、图文整合度和图表与来源一致性这些在其他基准中基本缺失。Q2TVIR-AGENT生成的图表数据是从哪里来的会不会有错A图表数据由图表生成器通过搜索和网页抓取工具从公开来源检索获取系统会对数据来源的真实性和不同来源之间的一致性进行核验同时保留原始数据来源网址供追溯。专门设计的图表与来源一致性指标也会事后核查图表内容和来源之间是否存在矛盾。不过研究团队也承认来源可追溯性仍是当前所有系统包括TVIR-AGENT的共同弱点。Q3为什么GLM-4.7版TVIR-AGENT的图表完成率只有38%而文字质量却是最好的A这是检索和生成之间的资源权衡问题。GLM-4.7版在规划和图表生成阶段调用搜索工具的次数最多检索到的信息非常充分但在有限的操作预算下过多的检索活动消耗了本来可以用于实际画图的资源导致很多计划中的图表没能最终生成。这说明系统表现不只取决于底层模型能力工具调用策略的合理分配同样至关重要。