人类专家90分碾压AI:新基准让高分大模型集体大跌眼镜
日常使用多模态大模型看视频时大家常常觉得它似乎什么都懂一点深究起来又有些答非所问。各大视频理解榜单上高分真实体验起来又很拉跨为什么Video-MME-v2用一套全新的非线性关联计分机制把大模型拉回了现实。2024年Video-MME团队发布了Video-MME重点考察模型在不同时长条件下的跨模态视频理解能力成为包括Gemini和GPT在内众多大模型的标准评测集之一。历经近一年打磨Video-MME团队推出新一代评估体系用严苛的分组连贯性测试彻底粉碎了模型靠碎片化识别和盲猜刷榜的可能精准勾勒出当前多模态模型的真实智力边界。撕掉榜单遮羞布以往的视频理解基准常常只盯着特定任务出题思路零散很难系统刻画模型真正的理解深度。遇到一段几十分钟的视频模型可能只是恰好认出了某几帧画面里的关键物体就能在单项选择题里蒙对答案给使用者营造出一种无所不知的错觉。为了测试真正的能力必须回到原点重新拆解视频理解的演进过程。新基准将测试维度划分为三个循序渐进的层级。最基础的一层是多点信息聚合对应模型找信息的能力。系统会考察模型对视频帧、Audio音频、字幕等分散线索的检索与提取。往上一层叠加了时序信息理解。视频不同于照片的本质在于时间流逝带来的动态演变模型需要准确解析状态变化、动作序列以及事件逻辑等强关联信息。最高一层直接通向时序复杂推理。模型要在感知多模态时序信息的基础上结合世界知识与社会常识去应对真实场景里的多步推理挑战。系统通过这三层架构把考题分门别类精准定位模型的能力短板。拒绝瞎蒙与背题考题有了怎么判卷直接决定了基准的含金量。传统散点评测范式下每一题独立计分互不干扰偶然答对的概率极大。新基准彻底抛弃了这种做法引入了分组式评估机制把问题按能力一致性与推理连贯性组织成多个包含4道题目的任务组。在能力一致性任务组里考核重点是模型对单一能力的真实掌握度。系统会围绕同一个知识点从局部到全局连环发问。针对视频计数能力题目会依次询问单帧里的运动员人数、单一片段里的动作种类、跨片段同一个动作的执行次数最后追问整个视频的片段总数。系统统计模型答对的数量N并把得分定义为(N/4)²。靠运气蒙对一两题只能拿到极低的分数只有全部答对才能拿满分。这种非线性增益的计分规则极其直白地奖励了稳定且一致的真本事。推理连贯性任务组则更像是一场逻辑审讯。系统不再只看最终答案而是在推理链条的关键节点上设置递进式考点。剧中人物假死瞒天过海系统会按顺序提问。先问模型能否识别死亡表象的线索再问有没有捕捉到反常细节接着要求推断假死的目的最后才让模型给出终局结论。在这个组别里计分规则更加残酷系统引入了首错截断机制。只要模型在推导过程中的任意一个节点出错后续就算瞎猫碰上死耗子答对了也不再计分。逻辑断裂带来的伪正确被彻底清理出局。在如此严苛的审视下各路前沿大模型的真实水平暴露无遗。模型性能排名强如Gemini-3-Pro距离人类专家90.7分的碾压级表现依然遥不可及。魔鬼藏在细节里为了保证考题不被大模型本身的先验知识污染构建这个包含800个视频的数据集耗费了惊人的3300个人工时。数据源头经过了精心挑选。80%以上的视频发布于2025年及以后近40%发布于2025年10月之后。团队人工剔除了经典影视作品和头部博主内容彻底掐断了模型靠记忆效应作弊的途径。视频素材覆盖了体育竞技、生活娱乐、艺术文艺、知识教育4大类衍生出31个二级类别平均长度约10.4分钟53%在10分钟以内。不仅视频内容新质量门槛也极高。84.3%的视频观看量超过1万次均值高达483万次从源头滤掉了低劣噪声。12名人类专家负责全流程标注不仅设计问题还要为每道题精心打磨8个选项。每个问题除了常规干扰项还专门针对真实答案量身定制了极具迷惑性的选项逼迫模型展现出细粒度的辨析能力。问题设计完成后50名独立专家入场开启车轮战式的交叉盲测。质检团队拿着Gemini-3-Pro在纯文本模式下做题只要发现题目不看视频光靠读字就能猜出答案就立刻打回重造。历经多轮交叉复核、盲测与修正最终确立了极其统一的难度梯度问题与选项的长度在四道连环题中呈现完美的递增规律。真实的智力边界新规则一出高分泡沫应声破裂。Gemini-3-Pro和Gemini-3-Flash在传统的逐题平均准确率Avg Acc下分别能拿到66.1%与61.1%的及格分数。一旦切换到非线性计分Non-Lin Score成绩瞬间腰斩至49.4%与42.5%。Non-Lin Score与Avg Acc对比两个分数的比值直接揭示了模型的鲁棒性。小模型如LLaVA-Video-7B的比值仅为40%左右极容易在同一个问题组里出现零散命中根本无法稳定输出。在题组深入的过程中模型的底牌也被彻底看穿。在能力一致性测试中强模型的准确率几乎没有波动展现出较好的稳定性。但在推理连贯性测试中随着从线索定位向因果解释步步紧逼所有模型的准确率均呈现平稳下降的趋势。较弱的模型干脆显示出极高的随机性答题表现起伏不定。大热的Thinking思考模式在视频理解里的表现也出人意料。数据证明文本模态能有效激发推理能力模型在有字幕的环境下开启思考模式通常能获得稳定的正向增益。一旦抽掉字幕仅靠纯视觉画面去思考很多模型不仅没有进步反而出现了严重的性能倒退。当前多模态大模型的思考机制极度依赖显式的语义线索纯视觉推理依然是一个巨大的盲区。系统把模型的底层能力抽象为全模态信息聚合C1、长上下文理解C2与复杂推理能力C3三大块。同时具备这三项能力的大型模型全面占据榜单高位。不过大参数也能产生奇妙的代偿效应。Qwen3.5-397B-A17B-Think虽然在设计上并不显式具备全模态能力但凭借极其庞大的参数规模带来的长上下文处理与推理优势依然拿到了39.1分超过了能力配置更完整但参数较小的模型。模型能力画像与得分处理的视频帧数同样至关重要Qwen3.5-397B在512帧设定下比64帧设定足足高出8.5分长上下文吃得越多对视频的理解就越深。各大模型的能力雷达图更是一目了然。Gemini-3-Pro在音频融合与长视频时序推理上遥遥领先跨模态对齐能力出众。其他偏科的模型在细粒度动作语义建模与物理规律理解上的得分甚至不足30分连基本的物理常识都未能完全掌握。剥去高分外衣当前最聪明的AI在连贯的视频逻辑推理面前依然像个步履蹒跚的学徒通往通用人工智能的路上还有无数硬骨头要啃。参考资料https://arxiv.org/pdf/2604.05015https://video-mme-v2.netlify.app/