26年5月来自Nvidia的论文“Workspace Optimization: How to Train Your Agent”。基于前沿语言模型构建的现代智体往往无法调整其权重。既然如此还有什么是可训练的呢可训练的部分在于智体的“工作空间”——即那个供其进行读、写及测试操作的结构化外部载体这一工作空间的演化过程称为“工作空间优化”。工作空间优化主要针对那些极具挑战性的多轮交互环境在此类环境中尽管前沿模型拥有强大的先验知识却无法仅凭单次尝试便解决任务因此智体必须通过与环境的交互来逐步学习。提出一种原则性的工作空间演化方法其结构设计巧妙地仿照传统的“权重空间训练”模式即以“人工制品”替代参数以“证据”替代数据以“反例”替代损失函数并以“文本反馈”替代梯度。这一理念具体实现在 DREAMTEAM 框架中。DREAMTEAM 是一个专为 ARC-AGI-3 任务设计的协同智体系统其内部各智体分别承担着构建可执行世界模型、制定规划、提出假设、进行探测、制定策略以及处理故障路由等关键职能。在当前包含 25 个关卡的 ARC-AGI-3 公开测试集上依据官方评分协议进行评测并取两次独立运行结果的平均值DREAMTEAM 成功将此前在该协议下表现最佳SOTA的智体得分从 36% 提升至 38.4%与此同时其在解决每个关卡时所消耗的环境交互动作数量却减少 31%。如图 1 所示(a) 单局 RHAE 差距 ∆_g RHAE_DREAMTEAM(g) − RHAE_human(g)该数值取自对 DREAMTEAM 进行的两次独立运行的平均值其中人类得分是在 DREAMTEAM 的行动预算限制下进行采样的以粗体标注的游戏名称表示在该游戏中双方取得同等水平的成绩。(b) DREAMTEAM 的工作空间优化循环通过对历史证据进行回溯推断系统生成并更新工作空间包含假设、策略及日志各角色在下一步行动中读取该工作空间的内容以此来优化自身的决策。基于模型的强化学习与神经世界模型。基于模型的强化学习Model-based RL旨在学习对状态及动态变化的预测能力进而利用所构建的模型进行规划或策略改进。诸如 World Models、Dreamer 和 MuZero 等系统正是通过运用神经隐状态、习得的状态转移模型以及“想象式推演”imagined rollouts来实现这一目标的 [Ha Schmidhuber, 2018; Hafner et al., 2021, 2023; Schrittwieser et al., 2020]。在上述所有系统中其训练对象本质上都是一个“参数向量”。而 DREAMTEAM 虽然沿袭相同的计算架构即编码、状态维护、预测、重构及推演但其底层实现载体并非传统的权重参数而是具体的“代码”其反馈机制也不再是梯度信号而是带有明确归属标识的、被记录在案的“反例”。生成式交互环境与可游玩的世界模型。近期涌现的一系列基于生成模型的研究工作致力于构建那些具有明确“可游玩”特性的世界模型用户或智体策略可以向模型输入动作指令而模型则会实时地、逐帧地生成相应的环境观测反馈。Genie 项目训练一种“动作条件式”视频模型能够将互联网上的静态视频片段转化为可供操控的交互式环境 [Bruce et al., 2024]。GameNGen 项目则展示扩散模型Diffusion Model如何充当《毁灭战士》DOOM游戏的实时引擎利用“神经推演”机制来替代传统的游戏模拟器 [Valevski et al., 2024]。DIAMOND 项目将扩散世界模型应用于 Atari 游戏平台并证实模型内部的“视觉保真度”水平会对在其中进行训练的智体策略最终能够习得的能力产生实质性的影响 [Alonso et al., 2024]。从功能层面而言DREAMTEAM 所构建的世界模型同样具备这种“可游玩”的特性。模拟器Simulator通过predict函数实现单步预测策略库Strategy Library将这些单步预测组合成多步推演序列而归纳探索器Inductive Explorer则在采取任何实际行动之前先在模型内部对候选子目标进行推演模拟以此对其进行评估。本系统的底层基Substrate与“生成式交互环境”这一研究路线有所不同后者通过离线方式利用大规模视频语料库训练权重向量进而渲染出像素图像而系统中的基质则是一组类型化的 Python 构件它们是在线被读取、编辑并进行回归测试的且整个过程仅涉及至多数十次交互。两者的共同设计理念在于世界模型是进行推演模拟的场所而学习的目标则是确保这些推演结果对真实环境具有高度的保真度。具备记忆、工具和代码构件的LLM智体。LLM智体在推理阶段已具备自适应能力其适应机制涵盖行动轨迹、检索到的记忆、反思、工具调用、认知架构状态以及持久化的技能代码 [Yao et al., 2022, Shinn et al., 2023, Packer et al., 2023, Sumers et al., 2023, Wang et al., 2023]。在上述大多数研究工作中可写状态writable state通常由对话记录、记忆存储、工具执行结果和技能库的某种组合构成。针对失败的标准处理方式通常是将另一条消息、摘要、反思记录或文档简单地追加到这个共享的状态池中。DREAMTEAM 的独特之处在于其对失败信息的路由方式解析错误misparse会被发送至“观察模型”而不会流向其他模块错误的行动效果会被发送至“状态转移模型”某种过拟合自身进度检查机制的策略会被发送至“策略库”而那些归属权不明确的失败案例则会被转化为一种用于探索的“探针”probe。这里的关键在于信息的路由机制而非上下文窗口的大小。Meta-Harness [Lee et al., 2026] 通过引入一个具备智体特性的“提案生成器”来优化智体驾驭harness本身该生成器能够读取先前候选框架的源代码、评分及执行轨迹进而在跨任务的维度上搜索并优化框架代码。相比之下“工作空间优化”workspace optimization模式则是在既定的框架之上运行内层循环仅在单次任务回合episode内部对工作空间状态Wt进行自适应调整。基于文本记忆的智体。与基于“类型化构件”的工作空间模式形成自然竞争关系的另一类智体其记忆机制并非依赖于具有特定类型的可执行构件而是通过自然语言文本进行中介与管理。Voyager 系统构建一个由代码技能组成的库这些技能通过其对应的自然语言描述进行检索其路由机制依据的是描述文本的匹配度而非构件本身的类型 [Wang et al., 2023]。Reflexion 系统在每个任务回合结束后都会追加一段自然语言形式的自我反思与批判并在随后的尝试中将其作为一种文本记忆重新读取以此来指导和调整后续的行动 [Shinn et al., 2023]由于其更新粒度是以“完整的行动轨迹”为单位因此反馈信息仅在任务回合之间即回合结束之后才可供智体使用。Generative Agents 系统则将智体的过往经验组织成一条“记忆流”该记忆流由一系列自然语言形式的观察记录构成在进行记忆检索时系统会根据每条记录的重要程度及时间新近度对其进行评分与排序 [Park et1 al., 2023]。 MemGPT 借鉴操作系统的隐喻用于管理快速工作环境和较慢的归档存储之间的层级式文本记忆 [Packer et al., 2023]。这些系统的共同之处在于它们都将记忆存储为使用时检索的自然语言文本其中段落既是写入的单位也是读取的单位。而 DREAMTEAM 则将数据写入类型化的可执行工件一个相互矛盾的承诺会被路由到拥有它的观察、动态或策略槽位补丁会根据回归集中的早期证据进行重放并且信用分配会指定一个类型化的地址而不是要检索的段落。更新节奏也更加精细。每个环境动作都包含一个单步预测下一个观察结果会证实或否定该预测因此工作区编辑是在轨迹本身内部提出的粒度为单个转换。因此适应过程在回合中持续进行而早期转换的回归集会揭示候选补丁与先前证据之间的一致性问题。程序化的上下文交互和递归推理。递归语言模型 [Zhang et al., 2025a] 将一个较长的提示符放置在 Python REPL 中并让根 LLM 通过代码检查它可以选择性地对代码片段生成递归子调用并通过 FINAL 或 REPL 变量返回一个值。提示符成为模型查询的外部状态而不是它必须读取的tokens。同样采用将结构推到模型外部并让代码在模型和大型外部对象之间进行协调的方法。两者的设置有三点不同。首先RLM 在单个查询中运行其 REPL 是短暂的而工作区优化则将 W_t 跨步骤持久化并将其视为可训练对象。其次RLM 生成一个直推式输出当前查询的值并且没有机制来定位一个调用失败的修复以便后续调用读取DREAMTEAM 将每个矛盾的承诺路由到一个指定的负责人并针对回归集评估补丁。第三RLM 将一个提示分解为同一模型的多个副本而 DREAMTEAM 将智能体本身分解为拥有不同功能面观察、动态、策略、探测、批判、仲裁的角色。RLM 是典型的纯推导式设计。程序合成和可执行世界模型。程序合成与库学习系统将程序视为一种可学习的结构并通过示例、测试或搜索过程对其进行修正 [Ellis et al., 2021; Grand et al., 2024; Romera-Paredes et al., 2024]。相关的 LLM 系统能够编写规划域通过交互过程提出并优化世界模型在候选假设空间中进行搜索或对规划结构进行编译 [Guan et al., 2023; Hao et al., 2023; Wong et al., 2023; Gu et al., 2024; Levy et al., 2025; Wang et al., 2024]。在 ARC-AGI-1 和 ARC-AGI-2 任务集上采用“冻结”模式的 LLM 智体能够依据演示网格来演化候选解决方案——具体而言在 ARC-AGI-1 上生成的是 Python 程序而在 ARC-AGI-2 上生成的是自然语言指令 [Berman, 2025]。SOAR 通过交替执行演化程序搜索与基于事后洞察的大语言模型LLM微调实现了同一算法家族的规模化扩展并在 ARC-AGI 公共测试集上取得了 52% 的成绩 [Pourcel et al., 2025]其内部搜索循环与 Berman 的设计相似但在各次尝试之间会更新提议者proposer的权重因此适应性学习被拆分到了候选工作区与参数向量这两个层面。这两种设计均采用离线模式运行并针对演示集demonstration sets进行训练在此过程中演示集充当回归评估器而候选程序则对应于工作区。DREAMTEAM 凭借其“模拟器”Simulator组件成为了与这一研究路线最为接近的系统该模拟器针对回归集进行在线演化其演化方式与离线模式下候选程序针对演示集进行演化如出一辙。两者的关键区别在于“在线控制”机制环境中的每一个动作都会产生一个反例或确认信号随后系统针对当前预测结果进行修复并依据此前留存的轨迹数据对修复方案进行评估。在此架构中可执行的世界模型既是规划的对象也是在当前回合episode内接受训练的对象。基于好奇心驱动的假设修正机制实现世界模型的在线构建。WorldLLM 通过维护一条关于环境动态的自然语言假设实现在线构建一个“冻结模型”frozen-model式的世界模型它利用贝叶斯推断对该假设进行精炼其中第二个 LLM 充当提议分布的角色并通过强化学习RL策略来收集证据——该策略的奖励信号即为当前预测器下观测到的状态转移序列的负对数似然值 [Levy et al., 2025]。这一设定与 DREAMTEAM 颇为相似两者均保持预测用的 LLM 处于冻结状态即不进行参数更新均将世界模型视为主要的训练对象且均利用第二个 LLM 根据累积的证据来生成更新提议。然而这两个系统在三个维度上存在差异。首先是底层基substrate的差异WorldLLM 将世界模型存储为一段单一的自然语言假设文本供预测器在推理阶段读取使用。相比之下DREAMTEAM 将世界模型存储为可执行的 Python 代码并明确定义了预测predict与推演rollout的入口点因此多步推演过程由运行时环境负责评估且其工作区被划分为带有明确类型定义的若干槽位分别用于存储观测数据、动态模型、策略、探测指令、批判性反馈以及仲裁结果。其次是更新验证机制的差异WorldLLM 仅当修正后的假设能够提升当前证据缓冲区内的似然值时才会予以采纳。而 DREAMTEAM 则会将加载的补丁patch针对此前作为回归集保留下来的状态转移序列进行重演replay一旦发现任何一致性失效的情况即将其作为反例予以报告。因此尽管重演机制仅提供反馈而非自动回滚的强制关卡但这种验证方式依然具有明确性与可证伪性。第三是节奏。WorldLLM 在试次trials中交替进行证据收集与假设修正。DREAMTEAM 在每次动作之后提出一个补丁patch并将随后的观测结果视为一步式的反例或确认。在分类体系中WorldLLM 是“工作空间优化”的一种单槽single-slot实例在该实例中提议者proposer采用贝叶斯推理验证者verifier基于似然函数其运作节奏则以试次为单位。基于执行反馈的迭代式自我修正。一系列关于大语言模型智体LLM-agent的研究工作将模型的输出视为“草稿”模型随后依据来自“评论者”或“执行者”的反馈对这些草稿进行修正。Self-Refine 提示同一模型在多次迭代中对自身的回答进行自我批判与重写 [Madaan et al., 2023]而 Self-Debug 则将代码生成过程与执行轨迹execution traces相结合使模型能够定位并修复代码中的错误行 [Chen et al., 2023]。这些系统与 DREAMTEAM 拥有一个共同的策略将反例反馈回产生该反例的原始“制品”artifact之中。然而DREAMTEAM 在两个结构性方面有所不同。首先待修复的制品仅局限于一小类具有明确类型且范围受限的“面”surfaces之中具体包括观测结果、动态模型、策略及探测结果因此一旦某个既定的“承诺”commitment被反驳系统能够直接指明该承诺的具体归属对象而非仅仅在原地对单一的提示语或程序进行笼统的修改。其次每一个被加载的补丁都会针对此前保留下来的“回归测试”regression tests——即历史过渡状态数据——进行重演replay这样一来任何与既往证据相冲突的不一致之处都会作为明确的反馈信息被显式地呈现出来并与当前发生的故障一并列出。固定参数下的测试时训练与在线自适应。所谓“测试-时训练”Test-time training是指模型在生成最终预测结果之前针对当前的测试实例本身运行一系列自监督更新从而实现模型的自适应 [Sun et al., 2020]。这一策略在抽象推理基准测试中展现出了非凡的成效。例如在解决每一项 ARC 任务之前若先针对该任务的“合成变换版”进行微调模型的准确率将得到显著提升 [Akyürek et al., 2024]此外基于“最近邻”nearest-neighbor原理的变型模型也能够更广泛地提升语言模型的推理能力 [Hardt and Sun, 2024]。近期涌现的变型模型则致力于在“权重冻结”frozen weights——即不更新模型参数——的前提下实现同样的目标ArcMemo 系统能够从既往的解题轨迹中提取出概念层面的抽象知识并将其存入一个“终身记忆库”lifelong memory中供模型在测试阶段进行检索与调用据报告显示该系统在不进行任何参数更新的情况下依然能够在 ARC-AGI 基准测试中取得持续且稳健的性能提升 [Ho et al., 2025]。这些方法旨在解决 DREAMTEAM 所针对的同一问题即在缺乏离线数据或特定任务奖励的情况下模型如何适应陌生的实例。其机制在两个维度上存在差异。首先基于梯度的测试时训练会将更新写入参数向量这需要访问权重并在任务结束后丢弃调整而记忆检索变体则会构建一个扁平的过去抽象池通过与当前输入的相似性进行访问。DREAMTEAM 则将更新写入一个类型化的工作空间其槽位以可检查的文本和代码形式持久存在并在固定推理 API 的部署后仍然存在。其次测试时训练的更新由从测试输入导出的自监督辅助目标驱动记忆检索的更新由相似性得分驱动而 DREAMTEAM 的更新则由一个矛盾的承诺驱动该承诺路由到负责的类型化工件并根据回归集进行评分因此信用分配指定了一个结构所有者而不是生成全局参数方向或检索排名。多智体 LLM 系统和计算图。多智体LLM系统可以分配角色、交换消息、分解任务或优化通信图[Hong et al., 2023, Zhuge et al., 2024, Guo et al., 2024]。Conductor[Nielsen et al., 2025]通过强化学习利用工作节点拓扑结构和每个工作节点的提示信息来学习协调器的权重而DREAMTEAM则保持每个模型冻结并将学习集中在路由补丁和回归集上。最近的研究形式化反向过程即自动故障归因给定一个多智体故障识别是哪个智体以及哪个步骤导致故障[Zhang et al., 2025c]。目前在WhoWhen基准测试中智体级别的准确率仅为53.5%这表明当智体通过非结构化的自然语言消息进行通信时归因非常困难因为原则上任何智体都可能对任何承诺负责。 DREAMTEAM 通过其独特的构造规避了逆问题每个预测都由一个特定类型的槽位发出因此负责的所有者在写入时就已确定无需后续重建。DREAMTEAM 也使用角色但角色是工作区训练图中的节点。每个节点负责可训练状态或更新过程的一部分观察、动态、策略、探测、评论或仲裁。预测失败不会引发争论。该任务被路由给一位拥有有限补丁修改权限bounded patch scope的所有者编辑完成后系统会重放回归测试集并将产生的差异deltas作为反馈呈现出来以指导后续的修订工作。ARC 与交互式推理基准测试。ARC 风格的基准测试旨在评估在先验知识匮乏weak priors情境下的抽象能力与规则发现能力 [Chollet, 2019]。ARC-AGI-3 将这种能力考查的压力延伸至“交互”层面任务目标被隐匿于游戏环境之中且智体所采取的每一次探索性行动都会消耗其既定的资源预算 [ARC Prize Foundation, 2026a]。此外基于游戏环境的智体基准测试还着重考查规划、观察以及工具使用等方面的能力 [Paglieri et al., 2024; Park et al., 2025]。而 DREAMTEAM 项目则针对一个更为具体且关键的瓶颈问题即如何在单次任务会话episode期间构建出一个可供验证与测试的“世界模型”。已发布的 ARC-AGI-3 基准测试报告显示当前最前沿的大语言模型LLM基线成绩均远低于人类水平的 1%具体指标为 RHAE其中 Gemini 3.1 Pro 得分为 0.37%GPT-5.4 为 0.26%Opus 4.6 为 0.25%而 Grok 4.20 的得分则为 0% [ARC Prize Foundation, 2026a]。随后针对 GPT-5.5 和 Opus 4.7 进行的一项包含 160 次重放测试的分析揭示了这些低分背后的症结所在——即智体缺乏结构化的“世界模型”这些智体虽能感知并记录局部动作所产生的即时效应却未能将这些离散的效应整合、构建成一套关于游戏动态的稳健理论体系具体而言Opus 表现为过度执着于一套错误的理论而 GPT-5.5 则根本未能将所获取的证据归纳、压缩为任何形式的理论模型 [Kamradt, 2026]。在已发布的基准测试中目前公开的最强智体是 Symbolica 公司的 Agentica SDK。这是一个基于 Opus 4.6 的多角色协同框架在 182 个关卡中的 113 个上取得了 36.08% 的 RHAE 得分运行成本约为 1005 美元 [Symbolica AI, 2026]相比之下DREAMTEAM 在更新后协议下取得了 38.06% 的得分。早前举办的 ARC-AGI-3 智体预览竞赛Agent Preview Competition呈现一些具有互补价值的设计思路其中包括一种非 LLM驱动的强化学习基线 [Smit, 2026] 以及一种基于图结构的探索型智体 [Rudakov et al., 2025]。这两项成果均基于“预览环境”以及 4 月 14 日更新之前的游戏版本进行汇报 [ARC Prize Foundation, 2026b]因此不符合采用的已发布基准测试协议。1 可训练状态将智体建模为一个二元组 (M, H)其中 M 是一个语言模型H 是一个“驾驭”harness负责提供工具、沙盒环境以及上下文管理器。在一个交互式的多轮环境中该驾驭会公开一个观测数据集 D_t 和一个结构化且可变的“工作空间”W_t智体在每次调用语言模型 M 或与环境进行交互的前后都会对该工作空间进行读取、写入和测试操作。形式上对于第 t 个时间步W_t (P_t, L_t)D_t (o_0, a_0, r_0, …, o_t-1, a_t-1, r_t-1, o_t)。标准的智体记忆通常是“只追加”式的它仅记录已发生的事实却不包含关于“接下来会发生什么”的理论推测也不包含任何已固化以便复用的规则或代码。工作空间与观测数据集共同向智体公开三个可供读取的“槽位”见表 1位于 D_t 中的只追加式执行轨迹、位于 L_t 中的工作假设与规划以及位于 P_t 中的程序代码。这些组件在整个运行过程中是不断演化的。在第 t 个时间步智体通过读取 W_t 来选择一个动作 a_t一旦接收到下一个观测值 o_t1智体便对此次动作的后果进行评估并将评估结果作为对工作空间的一次“编辑”操作写回a_t Act(W_t, D_t)e_t Evaluate(W_t, D_t1)W_t1 Update(W_t, e_t)。评估机制。评估信号 e_t 主要来源于三个方面。首先是外部奖励 r_t该奖励独立于工作空间 W_t 的内容。其次是“预测失效”即 L_t 中的某个假设或 P_t 中的某条规则曾对 o_t1 进行预测但实际接收的下一个观测值却与该预测相矛盾。第三是“回归性破坏”regression breakage驾驭会维护一个“回归测试集”R_t——这是一个从 D_t 中抽取的、包含近期状态转移记录的滑动窗口驾驭会将当前刚刚编辑的程序代码针对该测试集中的每一个条目进行回放测试。如果某个状态转移在旧版本的程序下能够被正确处理但在经过修补的新版本下却无法再被正确处理那么在下一个时间步中该状态转移就会成为针对相关组件或角色的一个新的“反例”。2. 工作空间作为计算图目前已经有工作空间图的节点、权重空间 W_t 的组成部分以及用于对它们进行评分的信号 e_t它们分别类似于标准训练中的权重和损失。剩下的就是边一个节点的反馈如何转化为另一个节点的编辑。在权重空间训练图 2A中链式法则将标量损失分配给产生预测结果的参数。工作空间优化图 2不需要这种机制来命名发出失败声明的接口。每个预测都由一个特定的接口发出因此 e_t 的预测失败组成部分带有该接口的名称。因此接口级别的归因是直接的更广泛的信用分配问题是应用补丁后随之而来的一系列修复。这种局部化的代价是预先支付的即确保接口足够精确可以被伪造。局部归因并不意味着局部修复对一个接口的补丁可能会破坏依赖于它的早期转换。假设一条移动规则预测左移动将角色移动一个单元格在步骤 t 时墙壁阻挡移动模拟器对该规则进行修补在针对 R_t 进行回放时修补后的规则在之前左移动角色的转换中失败这表明区分这两种情况的墙壁碰撞规则存在问题。修复会根据回放失败情况自动排序无需预先构建路径。两种机制替代可微性。回归集 R_t 防止单个修复结果仅停留在最近的转换上而忽略较早的转换。工作空间的依赖结构限制修复结果的落点每次编辑仅通过对已编辑接口的调用进行传播并且智体无法重写的输入模型的权重、环境和历史观测值会终止链就像停止梯度会终止反向传播一样。备注 1初始化。工作空间优化从种子工作空间 W_0 开始类似于神经网络中的权重初始化。种子工件为工作空间的演化方式设定一个归纳偏差。过于具体的种子工件会限制探索并导致早期修复过拟合其初始本体。而不够具体的种子工件则会减缓引导过程并导致早期行为不够精确。一颗优质的“种子”seed能为整体框架提供足够的结构支撑从而使所产生的证据具有可用性同时也为工作空间的演变预留了必要的余地。备注 2归纳式与转导式输出。两个智体agent即使运行的是同一个模型其返回结果仍可能有所不同一种返回的是具体数值另一种返回的则是可调用的工件callable artifact。前者称为“转导式”输出后者称为“归纳式”输出 [Vapnik, 1998; Chapelle et al., 1999]。转导式输出例如预测结果、行动建议、解释说明或行动计划将作为上下文信息被纳入 L_t 中。归纳式输出例如规则、渲染器或策略则被纳入 P_t 中并可针对智体此前从未见过的输入数据进行调用。当输入与输出之间的映射关系能够以代码形式表达时采用归纳式输出通常是更优的选择这种函数调用成本低廉且易于证伪但其代价在于它要求在证据可能尚不充分的情况下就必须固化并遵循一套既定的接口规范。反之当输入数据呈现非结构化特征或者问题的解答有赖于模型自身的判断力时采用转导式输出通常是更优的选择但其代价在于这种输出的可靠性相对较低且往往容易表现出一种倾向于“自我印证”的特性。ARC-AGI-3 将一个冻结的语言模型置于一个游戏之前该游戏的规则、机制和目标均未知。在每个步骤 t 中智体仅接收一个瞬态观测值 o_t并必须在 a_t 处选择下一个动作。此设置与标准强化学习基准测试有两个显著区别没有离线交互数据也无法回溯步骤或展开并行演练以适应策略。此外它还受到严格的动作效率约束人类玩家只需几百步即可解决此类游戏。在这样的预算范围内每个动作都是探索与利用之间的权衡介于探测和推进之间。冻结的模型带来强大的街机和电子游戏先验知识这些先验知识涉及对象的含义、进度以及目标的可能方向。当这些先验知识与游戏机制和目标一致时它们使得智体能够在几百步内完成游戏而当它们产生误导时后续的每个动作都会强化错误的解读形成正反馈循环。1 标准架构的局限性无模型强化学习方法在这里行不通。评论家初始状态未初始化没有信号引导策略因此进展完全依赖于探索。即使探索成功通关一个关卡也有两个问题阻碍标准策略梯度循环的闭合轨迹严格在线每个状态最多访问一次因此每次奖励转移都只是一个噪声样本强度太弱无法拟合评论家而且智体无法返回到该状态重新优化因此任何改进都必须转移到后续关卡的状态而这种信号本身也很弱。纯粹基于模型的方法更接近于此场景的要求因为原则上可以在每次动作之前查询工作记忆并根据每次转移进行更新。但传统的潜动态模型要么需要离线数据要么需要长时间的在线训练。即使是最先进的高效样本智体也需要数千个环境步才能使其工作记忆变得可靠而ARC-AGI-3则期望在几十步后就达到熟练水平。因此智体使用的任何工作管理工具都必须能够以智体可以书写、检查和修改的形式呈现。上述两种路径都未能解决一个更深层的问题若缺乏关于目标的假设探索便会失去方向而在短短数百次动作的预算内这种漫无目的的探索既难以偶然触及奖励信号也无法充分覆盖状态空间从而导致动力学模型的学习无法收敛。那么智体究竟该如何在这一有限的预算内确立目标并进行高效探索呢2 随之而来的架构设计上述种种观察结果均指向同一个方向智体需要建立一套关于游戏机制的、显式且可供审视的“理论”——这套理论既源于与环境的交互也通过交互进行检验。这套理论必须足够详尽以便能够做出预测从而使失败案例具备诊断价值同时其结构必须足够模块化以便支持局部修复确保单一预测的失误不至于迫使系统推倒重来、重建一切。这一核心组件命名为“可执行的游戏世界模型”Executable Game WM并要求其具备以下三项特性第一在执行每一次动作之前必须先做出一个确定的预测以便后续通过对照实际观测结果进行回溯验证时能够明确判定该预测究竟是得到了证实还是遭到了证伪第二一旦预测失败必须能够准确识别出导致错误的具体接口即观测解析模块、隐状态追踪模块或动作效果模块从而确保修复工作仅需针对局部进行第三一旦预测结果变得足够可靠该模型必须能够被智体内部的规划模块所调用从而使智体不仅能基于实际动作进行决策还能通过在“想象中的演练”imagined rollouts中进行推演来辅助决策。这一架构范式显然脱胎于基于模型的强化学习领域著名的 Dreamer 框架 [Hafner et al., 2023]但包含一项实质性的变革在此架构中世界模型WM不再由参数构成而是由代码程序构成。将工作空间中的每一个组成部分称为一个“表面”Surface它是一个带有类型约束的插槽归属于特定的角色Role所有专门用于存放该角色所读取及编辑的各类“制品”Artifacts——整个系统中共有六个此类界面其具体列表详见表2。训练循环沿袭了传统的梯度更新范式但做出了调整每一步产生的误差信号会被回传至具体发出错误预测的那一个“表面”处。修复操作将直接对程序代码进行原地修补in-place patching随后系统会调用“回归测试集”Regression SetR_t 来重演此前的状态转移过程以此对每一次代码修补的效果进行验证与评估。剩下的问题如图3所示在于由谁来编辑世界模型WM由谁来使用它以及操作的粒度应设定在何种层级。若粒度过粗单一角色将同时承担观察、动态建模、规划及仲裁等多重职能从而显著增加每个调用环节的认知负荷。若粒度过细角色间的职能交接与审计工作将耗尽本应用于执行环境动作的每一步实时时间预算。为此最终确立了六个角色并依据“维护世界模型”与“通过世界模型进行行动”这两大维度对其进行了划分。具体而言“观察者”负责将环境观测转化为结构化的状态信息“模拟器”负责追踪隐状态并在预测失准时对动态规则进行修正“归纳探索者”负责固化可复用的策略“转导探索者”负责提出旨在获取信息的探测方案“评论者”负责将故障反馈至相应的责任角色而“团队领导者”则负责仲裁并决定采纳哪一项方案。值得注意的是“转导探索者”这一角色是在标准的Dreamer模型架构之外额外增设的当世界模型尚处于初级阶段、通过常规策略推演rollouts尚无法获取有效信息时这一负责提出探测方案的角色便能确保早期的探索过程始终保持明确的方向性。DreamTeam执行工作空间优化如下。1 智体工作空间DREAMTEAM 将六角色分解具体化为团队的可编辑工作空间。每个角色恰好拥有一个“面”surface这是一个类型化的插槽用于存放该角色负责读取、编辑并对其承担责任的各类产物artifacts。位于核心位置的是两个 WM世界模型界面观测模型Observer和动力学模型Simulator两者在执行每一个动作之前都会提交一个具体的断言claim随后根据下一个观测结果这些断言要么被确认保留要么被修正更新。另外四个界面则用于存放 WM 尚处于构建成熟阶段时所需的“动作侧”状态信息包括策略库IE、探测上下文TE、故障路由机制Critic以及目标与动作选择上下文TL。表2列出每一个面、其所属的角色以及该界面所写入的产物。用符号 Wr_t 来表示 W_t 中归角色 r 所拥有的那一部分切片。这些面在设计上是相互紧密耦合的一个角色的输出恰好是另一个角色的输入因此环境每执行一步env step实际上都对整个处理链条进行了一次完整的演练。WM 和策略库对外暴露一组精简的可调用接口。Observer 模型负责将原始观测 o_t 解析为逐步更新的结构化状态 z_t随后通过调用 render(z_t) 并将结果回传至屏幕进行比对以此对解析出的状态进行校验。Simulator 模型则通过公式 z’_t1 predict(z_t, h_t1, a_t) 来提交关于下一步状态的断言其中h_t 代表跨步传递并累积的历史信息其更新方式为 h_t1 history(z_t, h_t, a_t)。策略库则对外提供一套位于“驾驭侧”harness-side的“推演”rollout机制该机制能够依据当前策略 policy(z_t, h_t) 生成一系列假想的轨迹序列。predict/render函数与 Observer 的parse函数之间存在着一种刻意的非对称设计render和predict对应着游戏引擎内部已有的镜像函数因此它们可以作为代码被固化在 P_t 中并供任何人反复调用执行然而将网格状原始观测 o_t 解析为结构化状态 z_t 的过程即 z_t ← o_t在游戏引擎内部并没有对应的镜像函数。正因如此Observer 所承担的任务属于一种“转导式”transductive任务每一次解析操作仅针对当前步骤产生一个即时输出结果而不会生成任何可被固化并复用的可调用函数形式。单独携带 h_t 赋予智体在部分可观测博弈中取得进展的能力当当前网格遮蔽部分状态例如遮挡、屏幕外实体或隐性计时器时仅凭 z_t 是不足以应对的而 h_t 作为对过往观测的持久性摘要可供预测模块与 z_t 一同读取。2 WM世界模型精修循环DREAMTEAM 的 WM 通过一种“提交-回溯”循环来进行精修。当动作 a_t 被提交时模拟器Simulator的动力学程序在 W_t 状态下被固定下来在下一个观测值 o_t1到达后观测器Observer对 o_t1 进行编码得到 z_t1随后驾驭Harness将预测值 zˆ_t1 predict(z_t, h_t1, a_t) 与实际值 z_t1 进行比对e_t diff(zˆ_t1,z_t1).驾驭产生的差异diff是精修信号的一个来源。另一个来源是同行反馈不同的角色Roles相互审计对方的产物Artifacts并将审计发现以内联形式 F_a→b 进行传递——其中角色 a 针对角色 b 的产物向角色 b 撰写一条定向评论。反馈信息携带差异比对所无法提供的信息除了数值上的不匹配之外审计过程还能审视推理链条和本体论Ontology的选择是否恰当。在 WM 内部观测器审计模拟器的预测逻辑而模拟器则审计观测器对 z_t 的解析逻辑因此每个维护者Maintainer的评估信号 er_t 实际上是将差异比对结果与接收到的同行反馈进行整合从而契合Update(W_t, e_t) 的形式esim_t (e_t, F_obs→sim), Wsim_t1 Update(Wsim_t, esim_t),对于观测器而言这一过程也是对称的其评估信号为 eobs_t (e_t, F_sim→obs)。在图 4 所示的 tu93 故障案例中e_t 并非空集即存在差异。驾驭将该差异分解为若干具名的组件并分别将其呈现给对应产物的负责人观测器看到自身在各字段编码上的不匹配之处而模拟器则看到自身的预测误差。在此案例中差异信息包含一个“观测组件”即观测器此前未能为障碍精灵 [sprite] 命名和一个“动力学组件”即模拟器此前尚未将“接触”行为建模为具有致命后果由此引发的修复操作包括新增一个障碍实体并添加一条关于“致命接触”的规则。随后进行的回归测试Regression Checks会报告新修订的程序代码破坏哪些此前已通过验证的测试用例——这些报告信息将为下一轮的编辑工作提供指引。3 从探测到规划在每一个步骤中三个角色TL、IE、TE都会依据不同的信号生成候选动作。IE 接收当前的 WM 状态 (z_t, h_t)对集合 Π_t 中的每一条策略 π 执行“推演”rollout操作并根据当前活跃的子目标集 G_t 对由此产生的轨迹 (zˆ, hˆ) 进行评分凡是其推演结果能够达成某个子目标的策略即成为候选规划。TE 读取近期的步骤日志以及驾驭harness提供的“回溯预测路由”信息针对那些 WM 尚未能完全拟合fit的区域提出一系列旨在获取信息的动作序列。TL 处于整个流程的汇聚点它审视 IE 提出的候选策略与 TE 提出的候选序列判断当前的 WM 状态是否已足够可靠足以支撑基于推演的规划随后它从中选定一个动作或一条策略将其确立为当前步骤的实际动作 a_t。在步骤结束之际每一个角色都会依据两种误差信号来更新自身状态。首先Critic会依据整个团队所掌握的证据对每一个角色提出的方案进行审计并发出 F_crt→TE、F_crt→IE 和 F_crt→TL 等信号以此标记出其中存在的假设失效、本体漂移ontology drift或陷入死循环grinding loops等问题。其次角色还会从自身的实际动作执行失败中获取信号例如某条 IE 策略在推演时预测能够取得进展但实际执行后却导致关卡等级下降此时该策略便提供一个反例又如某次 TE 探测所预期的效果并未如期显现此次探测同样提供一个反例。上述两类输入信息将通过一个整合后的评估信号进入角色的更新机制中es_t (δs_t, F_crt→s)Ws_t1 Update(Ws_t, es_t)其中 s ∈ {TL, IE, TE}。在此公式中δs_t 代表该角色自身所作的“假设”与实际“结果”之间的差异即误差它是控制框架用于更新 WM 面surfaces的“回溯预测差异”信号在角色侧的对应物。在关卡进程的不同阶段同一个工作空间呈现出的样貌也会有所不同。以 tu93 关卡的第一阶段初期为例参见图 4此时 WM 尚未能完全捕捉到关于障碍物接触规则的知识因此诸如触碰某个方块或径直撞向墙壁之类的动作在当时均被视为一种“探测”手段——因为在那个阶段TL 尚无法获得任何可靠的预测信息自然也就无从开展基于预测的规划工作。一旦环境表面趋于稳定且策略库中已包含适用的战术TL便会转而采用基于模型的规划方案。首次“死亡”事件会触发一次修复过程将针对障碍物的接触规则从单纯的“阻挡”升级为具有“致命”后果的规则在随后的几个步骤中TL会优先采取“探测”行动直至此次修复补丁完全生效并稳定下来。由此形成了一个控制回路回路中的每一个动作既承载着特定的游戏目标同时也扮演着一种“认知”角色——它可能用于确认当前的世界模型WM依然适用可能用于揭示需要修复的“反例”也可能用于提供线索以定位下一次修复的具体位置。利用官方 RHAE 评分器在包含 25 个关卡的 ARC-AGI-3 公共数据集上对 DREAMTEAM 进行评估。两次运行结果中某一次的 ARC 奖项记分卡记录https://arcprize.org/scorecards/831c83cf-b969-45fc-a6ce-27f9b3c4105c。综合两次运行的平均结果来看DREAMTEAM 在前约 5 小时内保持领先地位在第 3 小时左右达到约 4.5 个百分点的领先峰值两条曲线在大约 5.3 小时处发生交叉此后人类选手的表现开始反超并一直领先至 24 小时计时结束。两次运行的得分曲线紧密地聚拢在平均值周围波动幅度极小。将这种后期差距归因于人类选手更强的“跨关卡迁移”能力即在关卡 l 中掌握的某种解题机制在关卡 l1 中几乎可以零成本地直接复用相比之下团队在每次关卡切换时都需要对其工作空间的部分组件进行重建。