26年2月来自清华、上交大、港大、普林斯顿、中科院、中科大、北大和新加坡国立的论文“WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models”。尽管世界模型World Models凭借其通过基于动作的条件预测来推断环境动态的能力已成为具身智能Embodied Intelligence领域的基石但针对它们的评估工作目前仍处于碎片化状态。当前对具身世界模型的评估主要侧重于感知保真度例如视频生成质量却往往忽视这些模型在下游决策任务中的实际功能效用。鉴于此本文推出 WorldArena这是一个旨在从感知与功能两大维度全面、系统地评估具身世界模型的统一基准。WorldArena 从三个维度对模型进行评估一是视频感知质量该指标通过涵盖六个子维度的16项具体指标进行量化衡量二是具身任务功能性该维度将世界模型视为“数据引擎”、“策略评估器”及“动作规划器”进行考量并辅以主观的人工评估。此外还提出一种名为 EWMScore 的综合性指标旨在将多维度的性能表现整合为一个单一且易于解读的指数。通过对14个具有代表性的模型进行广泛的实验揭示感知能力与功能效用之间存在显著的鸿沟——实验结果表明即便模型具备极高的视觉质量也未必能转化为强大的具身任务执行能力。WorldArena 提供一个涵盖三个互补维度的综合评估框架(1) 多维度的视频质量包含跨越 6 个关键子维度的 16 项数值指标具体涵盖视觉质量、运动质量、内容一致性、物理规律遵从度、3D 精度以及可控性(2) 具身任务效用用于评估模型在数据合成、策略评估和动作规划任务中的表现以及 (3) 人工评估通过捕捉模型行为中那些难以量化的定性特征例如物理合理性与指令遵从度对自动化指标进行补充。此外引入 EWMScore 这一统一指标它将多维度的各项指标整合为一个单一指数从而对具身世界模型的生成性能提供全面评估。评估结果概览如图 1 所示。现有的评估协议存在显著的局限性。首先它们缺乏针对具身任务的全面评估未能涵盖世界模型作为环境代理proxies及具身智体所扮演的角色。当前的基准测试Yue et al., 2025; Li et al., 2025a; Lu et al., 2025主要侧重于视频层面的质量指标正如表1的对比所示这些指标无法体现具身世界模型在实际具身应用中的现实价值。为了弥合这一鸿沟推出 WorldArena——集感知评估与三项功能性评估于一体的具身世界模型基准融合客观与主观两种评价方式。1. 视频质量评估首先对不同具身世界模型生成的视频质量进行评估考量涵盖六个子维度的16项视频指标。视觉质量视觉质量旨在评估所生成的视频在具身场景下是否具有感知上的可靠性其考量因素包括低层级保真度、感知吸引力以及与真实数据的相似度。运动质量运动质量反映模型是否捕捉到具有物理意义且在时间上具有连贯性的动态特性。对运动的强度及其时间连续性均进行评估。内容一致性内容一致性衡量视频中物体与场景的稳定性并从语义和外观两个层面进行评估。物理一致性物理一致性旨在评估所生成的行为是否符合现实世界的物理约束而不仅仅是在视觉上看似合理。因此同时考量局部交互的真实性以及整体运动的正确性。三维准确性三维准确性旨在评估所生成的视频是否在图像外观之外保留现实世界的空间结构。主要评估其几何一致性与透视合理性。可控性可控性衡量模型响应外部指令的能力。其评估所生成的视频是否与预期的动作及指令相吻合。如图 2 所示视频质量评估在六个维度上的图示视觉质量、运动质量、内容一致性、物理规律遵从度、三维准确性以及可控性。2.具身任务评估通过三项具身任务来评估世界模型World Models的能力如图3所示。具身数据引擎。世界模型能够基于外部指令生成未来的观测结果从而实现合成数据的生成以此补充下游具身策略模型的训练数据并缓解真实世界数据稀缺的问题。在这一部分中将世界模型视为“具身数据合成引擎”并通过衡量其为策略模型带来的性能提升来评估其表现。采用两阶段的训练流程。在第一阶段在 RobotTwin 2.0 数据集上对世界模型进行微调并以首帧图像和外部指令为条件生成合成视频。在第二阶段冻结世界模型的权重并集成一个逆动力学模型IDM用于从视频特征中提取动作。具体而言沿用 VPPHu et al., 2024中扩散策略头的设计利用世界模型产生的中间特征来引导动作去噪头进行动作预测。这一过程将产生成对的视频-动作序列。随后通过训练一个基线策略模型pi_0.5Intelligence et al., 2025并向其提供不同数量的合成数据以此来评估世界模型所生成的合成数据带来的影响。策略模型的性能提升程度反映了世界模型增强策略学习的能力。具身策略评估器。评估世界模型作为“环境代理”来评估策略性能的能力。用 RoboTwin 2.0 数据集训练一系列具有不同能力的策略模型pi_0.5。对这些模型的评估是通过与一个可接受动作控制的世界模型进行交互来完成的在交互过程中世界模型通过“展开”rollout生成观测视频该过程持续进行直至生成的视频帧数超过对应真实视频帧数的20%为止。任务的成功与否由一个视觉-语言模型VLM进行判定该模型负责判断具身任务是否已成功执行。最终将基于世界模型评估得出的任务成功率与基于 RoboTwin 模拟器评估得出的成功率进行对比。两者之间的高度相关性表明对现实世界动态的模拟是有效的而低相关性则预示着在环境状态转移模拟方面存在不匹配。具身动作规划器。通过预测未来的状态转移世界模型可以充当具身智体的动作规划“大脑”。类似于数据合成引擎的设置将世界模型与逆动力学模型进行配对其中世界模型接收文本指令和初始帧作为输入并输出用于后续操作的相应动作序列。随后该动作序列会在 RoboTwin 模拟器中被执行并通过衡量任务成功率来评估世界模型在闭环动作执行方面的表现。3. 人工评估鉴于仅凭视频质量指标无法全面捕捉诸如物理合理性及指令遵循度等方面的特性引入两种类型的人工评估。第一种评估类型涉及对三个关键维度进行评分——即整体视频质量、指令遵循度及物理一致性——评分采用1至5的分级标准随后将其归一化至0-100的区间。第二种评估类型采用“两两对比”head-to-head comparison模式标注人员需从由两个不同模型基于同一提示词生成的视频中选出表现更优者以此得出“胜率”指标。共招募70名标注人员对总计3500个视频进行评估。4. EWMScore 指标在计算得出涵盖六个感知维度的16项视频质量指标后依据经验设定的指标边界采用线性归一化方法将所有得分映射至特定区间随后将其缩放至 [0, 100] 的范围内。接着对所有归一化后的指标取算术平均值从而得出一个单一的综合评分即 EWMScore。EWMScore 作为一个客观且自动化的指标专门用于评估“具身世界模型”embodied world models的整体生成质量。实验设置数据集。专注于机器人操作场景并利用 RoboTwin 2.0 (Chen et al., 2025) 数据集及仿真器进行评估该数据集包含 50 个任务场景和 2500 段视频。在视频质量评估环节用 2000 段视频来训练世界模型并使用 500 段视频进行测试。针对具身数据引擎任务分别利用 10%、20%、30%、50% 和 100% 的数据量来训练 pi_0.5 策略模型从而得到一系列性能各异的策略模型。对于策略评估和动作规划任务均在 RoboTwin 仿真器环境中进行评估。受测模型。评估 14 个具有代表性的世界模型涵盖通用视频世界模型以及针对具身场景的专用模型。受评估的通用视频世界模型包括 CogvideoX (Yang et al., 2024b)、Wan 2.2 (Wan et al., 2025)、Wan 2.6 (Wan et al., 2025) 和 Veo 3.11。基于文本条件输入的具身世界模型包括 Genie Envisioner (Liao et al., 2025)、GigaWorld (Team et al., 2025)、TesserAct (Zhen et al., 2025)、Cosmos-Predict 2.5 (Gu, 2025)、WOW (Chi et al., 2025)、RoboMaster2、Cosmos-Predict 2.5 (text) (Gu, 2025) 以及 Vidar (Feng et al., 2025)。此外还纳入基于动作条件输入的具身世界模型即 IRASim (Zhu et al., 2024a)、Cosmos-Predict 2.5 (action) (Gu, 2025) 和 CtrlWorld (Guo et al., 2025)。为确保比较的公平性对于所有提供训练代码的模型均依据其官方实现方案在本次实验所使用的数据集上进行后训练post-training。