技术报告 | 博客 | Hugging Face | ModelScope | GitHub | ️ 演示[!注意]本仓库包含Qwen-AgentWorld-35B-A3B的模型权重与配置文件这是一个为智能体环境模拟训练的原生语言世界模型。这些组件兼容Hugging Face Transformers、vLLM、SGLang等框架。Qwen-AgentWorld是首个覆盖七大智能体交互领域的统一语言世界模型。通过长链思维推理它能根据智能体行为与交互历史预测环境下一状态。经过三阶段训练流程——CPT注入环境知识、SFT激活状态预测推理、RL提升模拟保真度——Qwen-AgentWorld是原生世界模型从CPT阶段起环境建模就是核心训练目标而非后期附加功能。核心亮点七大统一领域单一模型覆盖MCP工具调用、搜索、终端、SWE软件工程、安卓、网页和操作系统兼容文本与图形界面交互环境。原生世界模型自CPT阶段即专注环境建模非通用大语言模型的后期改造。可泛化、可扩展、可控的模拟器对分布外环境如OpenClaw零样本泛化通过可控扰动与虚构世界构建效果超越真实环境训练。智能体基础模型在非智能体单轮轨迹上的LWM RL预热训练可迁移至7个基准含3个完全分布外领域的多轮工具调用智能体任务。## Model Overview类型因果语言模型语言世界模型基础模型Qwen3.5-35B-A3B-Base训练阶段持续预训练CPT→监督微调SFT→强化学习RL, GSPO参数量总计350亿激活30亿隐藏层维度2048词嵌入数量248320填充后层数40隐藏层结构10 × (3 × (门控DeltaNet → MoE) → 1 × (门控注意力 → MoE))门控DeltaNet线性注意力头数V为32QK为16头维度128门控注意力注意力头数Q为16KV为2头维度256旋转位置嵌入维度64混合专家系统MoE专家数量256激活专家数量8路由 1共享专家中间维度512上下文长度262,144个标记免责声明训练流程中不包含任何外部API服务的输出内容。性能AgentWorldBench开放式评估按领域五维评分均值归一化至0-100分制。ModelMCPSearchTerm.SWEAndroidWebOSOverallGPT-5.470.1037.2653.6966.2960.0051.8068.5858.25Claude Opus 4.854.9335.1459.1864.1061.5054.6666.6256.59Claude Opus 4.669.9029.3057.5164.5561.7451.4270.2057.80Gemini 3.1 Pro59.0730.2152.4759.0761.4052.8366.9254.57Claude Sonnet 4.670.0028.7956.9864.5258.0350.7863.1756.04DeepSeek-V4-Pro63.2727.6151.2659.4455.1750.3263.7052.97GLM-5.167.6022.4647.3252.0759.1051.5059.1351.31Kimi K2.665.2327.4852.5458.7758.9350.2060.8053.42MiniMax-M2.755.8227.3041.6237.4452.4050.5257.7346.12Qwen3.5-35B-A3B57.8725.9846.1347.5853.1847.1056.2747.73Qwen3.5-397B-A17B68.3130.8155.3064.4454.9048.5560.8554.74Qwen3.6-Plus55.2821.9450.5859.0857.6550.7860.3350.81Qwen-AgentWorld-35B-A3B64.7936.6953.9665.6358.1749.5565.9256.39Qwen-AgentWorld-397B-A17B68.2437.8257.7368.4960.2050.9867.8958.71快速入门部署Qwen-AgentWorld-35B-A3B可通过主流推理框架部署为API服务。以下示例命令展示了如何启动兼容OpenAI的API服务端。[!重要提示]该模型默认上下文长度为262,144个token。若出现内存溢出错误建议缩短上下文窗口。但由于Qwen-AgentWorld需依赖长上下文实现多轮环境模拟建议至少保持128K token的上下文长度。SGLang框架SGLang是专为大型语言模型设计的高性能服务框架。python-msglang.launch_server\--model-path Qwen/Qwen-AgentWorld-35B-A3B\--port8000\--tp-size4\--context-length262144\--reasoning-parser qwen3OpenAI兼容的API将在http://localhost:8000/v1提供。vLLMvLLM是一个面向大语言模型的高吞吐量、内存高效推理引擎。vllm serve Qwen/Qwen-AgentWorld-35B-A3B\--port8000\--tensor-parallel-size4\--max-model-len262144\--reasoning-parser qwen3\--language-model-only\--trust-remote-code必须使用--language-model-only标志因为模型架构包含视觉组件定义但检查点仅包含语言模型权重。若不添加此标志vLLM会尝试初始化视觉模块并导致失败。OpenAI兼容API将在http://localhost:8000/v1地址提供。使用Transformers进行推理fromtransformersimportAutoModelForCausalLM,AutoTokenizer model_nameQwen/Qwen-AgentWorld-35B-A3BtokenizerAutoTokenizer.from_pretrained(model_name)modelAutoModelForCausalLM.from_pretrained(model_name,torch_dtypeauto,device_mapauto,)messages[{role:system,content:You are a language world model simulating a Linux terminal environment. Given the users command, predict the terminal output.},{role:user,content:Action: execute_bash\nCommand: ls -la /home/user/project/}]texttokenizer.apply_chat_template(messages,tokenizeFalse,add_generation_promptTrue)inputstokenizer([text],return_tensorspt).to(model.device)outputsmodel.generate(**inputs,max_new_tokens2048,temperature0.6)responsetokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:],skip_special_tokensTrue)print(response)通过聊天补全 API 使用fromopenaiimportOpenAI clientOpenAI(base_urlhttp://localhost:8000/v1,api_keyEMPTY,)# Terminal domain examplemessages[{role:system,content:You are a language world model simulating a Linux terminal environment. Given the users command, predict the terminal output.},{role:user,content:Action: execute_bash\nCommand: ls -la /home/user/project/}]responseclient.chat.completions.create(modelQwen/Qwen-AgentWorld-35B-A3B,messagesmessages,max_tokens32768,temperature0.6,)print(response.choices[0].message.content)[!注意]我们在GitHub仓库的prompts/中为全部7个领域提供了领域专用世界模型系统提示模板。这些模板可作为使用Qwen-AgentWorld作为环境模拟器时的通用系统提示。每个领域文件夹包含一个system_prompt.txt世界模型系统提示和一个judge_system_prompt.txt评估提示。在AgentWorldBench上的评估AgentWorldBench通过从5个维度对每个预测的环境观察进行评分来评估语言世界模型格式、事实性、一致性、真实性和质量。设置# Clone the evaluation repositorygitclone https://github.com/QwenLM/Qwen-AgentWorld.gitcdQwen-AgentWorld# Download the benchmarkhuggingface-cli download Qwen/AgentWorldBench --repo-type dataset --local-dir ./AgentWorldBench# Install dependenciespipinstallopenai运行评估评估遵循三步流程cdeval# Step 1: Run world model inferencepython eval.py infer\--data-dir../AgentWorldBench\--model-base-url http://localhost:8000/v1\--model-name Qwen/Qwen-AgentWorld-35B-A3B\--output-dir ./results# Step 2: Run LLM judge scoringexportOPENAI_API_KEYyour-api-keypython eval.py judge\--predictions./results/predictions.jsonl\--judge-base-url https://api.openai.com/v1\--judge-model gpt-5.2-2025-12-11\--output-dir ./results# Step 3: Aggregate and display scorespython eval.py score--predictions./results/judged.jsonl最佳实践采样参数我们推荐在世界模型推理中使用temperature0.6、top_p0.95、top_k20参数。模型默认采用思维模式think.../think在生成预测观测前会先对环境状态转移进行推理。充足输出长度对于大多数查询建议输出长度设为32,768个token。处理长序列多步轨迹时可增加最大输出长度以容纳详细的环境观测数据。领域专用系统提示要获得最佳模拟保真度请使用GitHub仓库prompts/目录中提供的领域专用系统提示模板。引用声明如果您认为我们的工作对您有所帮助欢迎引用我们的成果。article{zuo2026qwen, title{Qwen-agentworld: language world models for general agents}, author{Zuo, Yuxin and Xiao, Zikai and Sheng, Li and Huang, Fei and Tu, Jianhong and Liu, Yuxuan and Tang, Tianyi and Hu, Xiaomeng and Su, Yang and Lan, Qingfeng and others}, journal{arXiv preprint arXiv:2606.24597}, year{2026} }