会生成世界,不等于理解世界:20个世界模型大考来了
如果让模型连续前进、转向、跳跃、改变天气再切换视角它还能记住自己身处哪个世界吗视频模型正在从生成一段视频走向模拟一个可交互的世界。雪山、城市、古堡、篮球场角色奔跑镜头穿梭前沿视频模型已经能生成相对稳定、连贯的画面。过去评价视频生成重点通常落在清晰度、运动自然度、镜头表现和提示词遵循能力上。到了交互式世界模型这里难点已经不只在画面本身。它不能只生成一段固定视频还要持续接收用户动作让世界随之演化。用户要求前进模型要维持空间关系角色跳跃主体动作要真实发生天气变化、物体出现、视角切换之后前面建立的世界状态也不能丢。WBench 正是为这类能力设计的评测基准由美团 LongCat 团队与复旦大学联合推出。论文地址https://huggingface.co/papers/2605.25874GitHub地址https://github.com/meituan-longcat/WBench项目主页https://meituan-longcat.github.io/WBench/HuggingFace地址https://huggingface.co/datasets/meituan-longcat/WBench它更像一台面向世界模型的能力扫描仪不只看最终画面是否好看而是定位模型在控制、记忆、一致性和物理演化上到底卡在哪里。WBench 完整测试集包含 289 个测试用例、1,058 个交互回合并将 20 款前沿模型纳入统一评测框架。所有模型在导航子集上进行跨范式比较文本驱动模型进一步接受完整四类交互评估。〓 WBench 总览世界设定、交互类型、统一导航控制与五大评测维度从生成到交互论文用游戏引擎作了一个类比合格的交互式世界模型需要同时承担渲染器、导演、控制器、记忆系统和物理引擎五类角色。也就是说它不仅要生成清晰画面还要在多轮操作后继续保持场景、主体、动作、视角和物理关系的自洽。过去的评测要么更关注视频质量要么集中在导航、记忆、自动驾驶等特定任务很难同时覆盖开放域、双视角、多交互类型和多轮闭环。〓 WBench 与代表性视频生成 / 世界模型评测基准对比连续让一个模型前进、转向、跳跃、改变天气再从第三人称切到第一人称它还能否维持空间、主体、场景和物理关系这比单纯生成一段高质量视频更接近世界模型的核心门槛。WBench 的评测设计WBench 可以概括为四个部分世界定义、指令集、统一交互接口和评测套件分别回答“世界是什么”“用户要做什么”“不同模型怎么公平输入”和“生成结果如何量化”。它的核心设计是将每个测试用例拆成世界设定和交互序列两部分。前者定义初始状态包括场景、风格、视角和主体后者定义用户在多轮过程中不断发出的控制指令。世界设定不是一句简单 prompt而是一组可控变量。场景、风格、主体和视角都会进入评测范围。〓 上下滑动查看更多 WBench 世界设定样例WBench 覆盖四类交互导航负责空间移动主体动作考察角色行为事件编辑改变天气、时间、物体和环境状态视角切换则测试第一/第三人称之间的主体—相机—空间关系。〓 四类交互导航、主体动作、事件编辑与视角切换这样拆开后初始设定、动作执行、多轮一致性和物理关系的失效来源都能被分开观察。数据构建上WBench 包含 289 个测试用例和 1,058 个交互回合覆盖第一/第三人称、四类交互和多样化场景。〓 WBench 数据集构成视角、交互类型、主体、场景、子类型与轮次分布评测体系分为视频质量、设定遵循、交互遵循、一致性和物理合规性五个维度共 22 个自动子指标分别对应画质、初始设定、动作执行、跨轮连贯和因果/视觉合理性。三类控制接口如何公平比较世界模型评测还有一个难题不同模型的输入接口并不相同。有的模型接收文本提示有的接收六自由度相机姿态有的使用离散按键或动作信号。如果输入形式和轨迹尺度不一致评测很容易变成各测各的。WBench 的关键设计之一是将同一组导航交互表示成三种对齐形式文本描述、相机姿态、离散动作。同一道导航任务文本模型看到自然语言描述相机控制模型看到相机位姿变化动作条件模型看到按键动作本质上考察的是同一组空间控制要求。具体评测时WBench 采用双轨协议。所有 20 个模型都在 158 个导航测试用例上进行跨范式比较。文本驱动模型进一步在完整测试集上评估四类交互。事件编辑、主体动作、视角切换这类语义交互只针对文本驱动模型评估。这样既能保持不同模型的原生接口又能让导航任务在同一空间移动要求下比较。WBench 还支持 2 到 9 轮连续交互平均每个测试用例 3.7 轮用于暴露长周期下的一致性和记忆问题。导航评估中它进一步引入自适应参考轨迹机制按模型预测运动幅度调整参考轨迹减少空间尺度偏好带来的评分偏差。〓 自适应真实轨迹机制按模型预测运动幅度调整参考轨迹方向错误仍计入轨迹误差自动评估体系也经过人类偏好验证。400 名众包标注者参与双盲成对比较十个评测方面的自动分数与人类胜率 Spearman 相关系数均不低于 0.94证明自动评分具备较高可信度。〓 自动评分与人类偏好对齐结果20 款模型横评没有一个模型五维全优WBench 评估了 20 款前沿模型覆盖9 个文本驱动模型、5 个相机控制模型和 6 个动作条件模型。最清楚的结果是当前还没有任何模型能在五大维度上同时占优。各模型的优势分布很分散文本驱动模型通常更强在设定遵循和语义交互专用世界模型在导航控制上更突出但没有模型能同时拿下画质、控制、一致性和物理合理性。开源或开放模型也没有明显落后。HY-World 1.5 以 87.5 分取得全模型导航最高分LingBot-World 以 89.9 分位列整体一致性第一说明闭源模型并未在所有维度形成绝对优势。〓 20 款模型在 WBench 上的主实验结果导航、语义交互和视角一致性也不是同一类能力。文本驱动模型内部就能看到这种分离YUME 1.5 导航得分最高为 72.0但事件编辑和视角切换较弱Wan 2.7 更擅长事件编辑和主体动作导航则不占优。相机控制模型导航平均分高于文本驱动模型但视角一致性反而更低。镜头轨迹控制、主体状态保持和视角锚定是三种可以分离的能力。视角切换仍然是文本驱动模型中最困难的语义交互任务平均分仅为30.7。多轮误差如何累积多轮交互会显著放大模型短板。实验结果显示导航从第 1 轮到第 4 轮及以后下降33 分是四类交互中衰减最明显的一项。事件编辑下降13 分主体动作下降9 分。导航最容易衰减是因为它要求模型在多轮生成中持续维护空间参考系前一轮位姿偏差会进入后续轮次最终演化为轨迹漂移或方向错误。〓 多轮交互下的性能衰减趋势导航下降最明显物理维度与视频质量相关性较高r0.84与导航控制相关性较弱且略为负相关r-0.15。这说明当前模型的物理合理性更接近视频生成先验带来的结果不能直接等同于模型掌握了可控的物理状态演化。〓 跨维度相关性与不同世界设定下的难度差异上图还显示视角、场景和主体类型会带来结构化难度差异。例如第一人称导航更容易动物主体在导航上更具挑战。WBench 因而不只给出整体排名也能帮助研究者定位模型在哪些设定下更容易失效。结语WBench 的价值不只是给模型排序而是把渲染、设定、交互、记忆和物理因果这些能力拆开诊断为研究迭代和模型选型提供参考。论文、代码、数据集和项目主页已同步公开。世界模型真会理解世界吗WBench 给出的答案并不是简单否定。今天的视频模型已经越来越擅长生成世界但距离稳定维持一个可交互世界仍有差距。清晰画面不代表能执行连续交互镜头轨迹准确也不代表主体和视角关系稳定。下一阶段的竞争不会只看画质而会更多转向多轮交互中的控制、记忆、一致性和物理合规性。WBench 把这些差距拆成可量化指标也把世界模型下一步要补的短板摆到了台前。现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·