26年3月来自南京大学和加拿大蒙特利尔大学魁北克AI研究所的论文“Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models”。视觉-语言-动作VLA模型在机器人控制方面展现出强大的泛化能力但利用强化学习RL对其进行微调却受到现实世界交互的高成本和安全风险的限制。在交互式世界模型中训练VLA模型可以避免这些问题但也引入一些挑战包括像素级世界建模、多视图一致性以及稀疏奖励下的误差累积。基于大型多模态模型和基于模型的强化学习的最新进展其提出VLA-MBPO一个用于解决VLA微调中这些问题的实用框架。该方法有三个关键的设计选择i采用统一多模态模型UMM进行数据高效的世界建模ii采用交错视图解码机制来强制执行多视图一致性iii采用分块级分支展开来缓解误差累积。本文提出一种基于实用世界模型的强化学习框架旨在明确应对上述挑战。为了实现高效且可泛化的像素空间世界建模用预训练的统一多模态模型UMM作为世界模型的骨干Deng et al., 2025a; Cui et al., 2025; Sun et al., 2025从而在无需昂贵的视频展开的情况下实现视觉动态和奖励的联合预测。为了支持精确控制所需的一致多视图生成引入交错视图解码技术该技术在保证跨视图一致性的同时保留特定视图的细节。最后为了缓解稀疏奖励下模型误差的累积采用分块级分支展开chunk-level branched rollout以限制策略优化过程中的误差累积Park et al., 2025。这些组件共同构成一个针对VLA微调的、具有凝聚力的基于世界模型强化学习方法VLA-MBPO从而能够在有限的现实世界交互条件下实现有效的强化学习如图1所示。将基于模型的强化学习 (MBRL) 应用于 VLA 模型会面临诸多挑战这些挑战源于像素级建模、多视图生成以及稀疏奖励下误差的累积。VLA 世界建模的挑战与依赖低维状态或潜在展开的传统基于模型的强化学习MBRL设置Janner et al., 2019; Hafner et al., 2023; Hansen et al., 2024不同视觉-语言-动作系统VLA的世界模型需要满足以下条件i高保真度的像素级生成因为VLA通常以原始图像作为视觉感知的输入ii一致的多视图生成以实现细粒度控制以及iii精确的语义理解能力以进行奖励建模。然而从头开始训练这种像素空间世界模型非常耗费数据并且在离线环境下容易过拟合。以往的研究通常分别微调独立的大型视频模型和视觉-语言模型用于动态建模和奖励建模Zhu et al., 2025。虽然这种方法有效但这种双模型设计引入复杂性和工程开销。相比之下受近期研究进展Deng et al., 2025a; Sun et al., 2025的启发采用统一多模态模型UMM作为一种简化的替代方案能够在单个模型中联合预测未来的观测结果和奖励。此外UMM无需生成中间帧即可直接对动态过程进行建模因此与视频世界模型相比其展开效率更高如图所示。然而由于UMM最初并非针对VLA场景设计因此需要进行额外的适配。将UMM扩展到动作空间。基于UMM的世界模型通常基于视觉和语言模态Sun et al., 2025而VLA智体引入额外的底层动作模态。为了支持UMM处理底层动作输入借鉴Goyal et al.2025的方法将动作表示为整数token即将连续的动作值离散化到一个固定范围内例如[0,256]并将其映射到UMM词汇表。 UMM的任务是基于文本动作块生成下一个观测值和奖励。该过程通过下一个观测值的条件概率s_tk ∼ T_θ (·|s_t , a ̃_t )来形式化其中a ̃_t表示一个k × d的token序列k是块大小d是动作维度数。此外将块级奖励定义为r_θ(s_tk,l) sumγi−1r(s_ti, l)其中γ是折扣因子r(s_ti, l)表示在任务指令l下步骤t i的奖励。该设计无需对架构或词汇表进行任何修改保留了UMM的预训练能力。在实现中采用BagelDeng2025a作为基础模型。交错视图解码。精细操控通常需要对多个摄像机视角进行推理因为单个视角不足以完整捕捉物体的几何形状、遮挡和接触动态。这给世界建模带来了额外的挑战除了预测视觉上合理的未来观测结果外世界模型还必须保持跨视角的一致性以用于下游策略学习。直接将统一模型UMM扩展到多视角输入通常会导致视角特定的伪影即使局部预测准确这些伪影也会降低控制性能。为了应对这一挑战提出一种交错视角解码策略该策略显式地强制执行跨多个摄像机视角的一致性。在大多数VLA模型中输入由头部视角或俯视图摄像机图像sh和手腕视角摄像机图像sw组成形成组合输入s [sh,sw]。其中头部视角捕捉全局场景信息而手腕视角提供精细但部分可观测的细节。为了对此进行建模将状态转移分解为sh_tk ∼ T_θ(·|sh_t , sw_t , a_t:tk−1)sw_tk ∼ T_θ(·|sw_t ,sh_tk)经验表明这种方法优于独立生成每个视图的方法它能有效整合全局信息和细粒度信息并保持视图之间的一致性。这种分解可以通过带有注意矩阵的 UMM 中交错解码轻松实现。稀疏奖励下组合模型误差累积的挑战误差累积是多模型强化学习MBRL中的一个根本性挑战因为世界模型预测的不准确性会在长时间的展开过程中累积并可能严重误导策略优化。在VLA设置中操作任务中常见的稀疏奖励结构会进一步加剧这个问题因为即使是微小的预测误差也可能导致截然不同的结果甚至产生相反的奖励信号。这种误差放大使得简单的全时域展开策略变得不可靠。为了缓解这个问题采用分块级分支展开技术。该技术已应用于基于状态的简单任务Park et al., 2025但尚未在基于像素的VLA微调中得到验证。并非从初始状态s_0开始展开全时域轨迹而是从离线数据集中的任意观测值开始并采用更小的展开时域。此外由于世界模型以数据块为单位运行可以进一步将有效展开范围缩小 1/k 倍其中 k 为数据块大小。通过结合这两种策略大幅缩短了展开长度从而提高策略优化的效率和稳定性。VLA-MBPO基于实用世界模型的 VLA 模型强化学习框架提出 VLA-MBPO这是一个基于实用世界模型的 VLA 模型强化学习框架它集成了上述三个组件以促进 VLA 强化学习。算法包含三个阶段1使用 VLA 模型进行数据采集2使用采集的数据对世界模型进行微调3在世界模型中使用强化学习进行策略优化。对于策略优化采用 Flow-NoiseChen2025a它是 PPO 的一种简单变型用于基于流匹配的策略学习。在强化学习过程中向 VLA 模型添加基于 MLP 的价值头以进行价值预测Chen2025a。该方法可以看作是离线模型强化学习MBRL的一个实例但它与以往的离线MBRL方法在几个关键方面有所不同。首先与使用保守正则化来缓解模型偏差的传统方法Yu et al., 2020; Sun et al., 2023; Lin et al., 2025不同该方法省略了此类机制因为经过微调的UMM-World模型已经达到了足够的精度无需使用正则化。其次与最近基于动作分块的离线MBRL方法Park et al., 2025不同本文方法基于PPO框架因此不依赖于拒绝采样和Q模型等额外设计从而显著降低了系统复杂度。基于这两个优势其方法在所有任务中都使用同一套超参数这增强了其实用性并简化了在实际场景中的部署。算法总结如下伪代码世界模型评估基准测试。在 LIBEROLiu2023中的 Object 任务套件上进行评估。LIBERO 是一个操作基准测试包含 10 个不同的任务每个任务都有不同的对象实例。用每个任务 50 条轨迹的数据集进行训练并在预留的测试集每个任务 10 条轨迹上报告评估结果。评估流程包括在 100 条预留的测试轨迹上展开 40 个步骤。报告头部和手腕视角的评估结果以严格评估长期一致性。基线模型。将模型与两个不同的基线模型进行定量比较1Ctrl-WorldGuo2025这是一个视频生成模型它在动态合成方面表现出色具有多视角一致性但缺乏内在奖励预测的语义基础 (2) Qwen3-VLBai2025一种能够进行精确奖励推理但无法预测视觉动态的视觉学习模型。此外为了验证模型设计评估两种消融实验1) 不使用交错视图解码IVD其中视图是并行生成的而非交错生成的从而隔离解码策略对多视图一致性的影响。2) 不使用预训练PT其中 UMM-World 被随机初始化。从动态预测、推理速度和奖励预测三个角度对所有模型进行了定量评估。仿真任务实验基准测试。在 LIBERO 数据集Liu2023上评估 VLA-MBPO。LIBERO 是一个广泛采用的基准测试数据集包含四个任务套件空间、物体、目标和长距离旨在评估从视觉定位到长距离规划的各种能力。离线数据集通过收集每个任务的 50 个episodes 构建其中行为策略通过 π0.5 和单次 SFT 获得。通过每个任务套件中所有 10 个任务的 50 个评估episodes的平均成功率来衡量性能。基线。将 VLA-MBPO 与四个基线进行比较1π0.5SFT在任何强化学习之前训练的 VLA 模型π0.52BCWM基于世界模型生成的成功轨迹训练的 BC 基线3在等效真实世界交互预算下训练的在线强化学习基线 πRLChen2025a (4) IDQLHansen-Estruch2023一种用于流匹配策略的离线无模型强化学习算法。真实世界任务实验从仿真过渡到物理世界会带来诸多挑战包括复杂的非刚体动力学、传感器噪声和未建模的环在两个机器人平台上设计了五个真实世界任务。在双臂机器人 Arx-X5 上a) 插拔电缆任务要求将电缆插入 3 毫米插座精度达到亚厘米级b) 折叠毛巾任务评估双臂对可变形物体的操作能力。在全身机器人 Galaxy-R1 上c) 拾取杯子任务和 d) 插入笔任务评估在机器人姿态和相机视角受到干扰的情况下全身操作的能力e) 擦拭板任务测试在部分可观测性条件下的移动全身控制能力。对于每项任务通过人工远程操作收集专家演示数据Arx-X5 任务收集约 50 条轨迹Galaxy-R1 任务收集约 100 条轨迹并对 π0.5 进行 SFT 训练。然后用 π0.5 (SFT) 对每项任务收集 50 条轨迹用于后续的 VLA-MBPO 训练。评估基于每项任务的 50 条轨迹进行30 条已见过轨迹和 20 条未见过轨迹其中未见过轨迹包含新的目标、背景和空间配置。