阿里在今年2月发布Qwen3.5系列之后紧接着于4月正式推出了Qwen3.6-Plus。官方宣称Qwen3.6-Plus相较于前代模型实现了全方位的能力升级其中最核心的升级方向是智能体编程能力——无论是前端网页开发还是复杂的代码仓库级问题求解Qwen3.6-Plus均树立了新的业界标杆。此外该模型在多模态感知与推理能力上也有所增强。我们对其API版本qwen3.6-plus进行了全面评测测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。需要说明的是本次评测侧重中文场景下的综合能力考察。qwen3.6-plus版本表现测试题数约1.5万总分准确率71.6%平均耗时每次调用68s平均token每次调用消耗的token3676平均花费每千次调用的人民币花费41.61、新旧对决对比上一版本qwen3.5-plusQwen3.6-Plus在能力结构上发生了显著调整数据如下*数据来源非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark*输出价格单位 元/百万token整体准确率出现回调新版本准确率从74.6%降至71.6%下降了3.0个百分点排名从第3位降至第13位。这是一个值得关注的变化——作为阿里最新的旗舰API模型在中文综合能力维度上并未延续上一代的上升势头。语言与指令遵从显著提升该维度是新版本唯一实现明显提升的领域从65.5%提升至70.3%4.8%这意味着模型在理解和执行复杂中文指令方面有了明显改善。多个垂直领域出现不同程度下降从细分来看金融从83.4%降至77.1%-6.3%推理与数学计算从80.4%降至74.6%-5.8%Agent与工具调用从73.7%降至64.7%-9.0%法律与行政公务从83.0%降至81.3%-1.7%医疗与心理健康从84.8%降至83.8%-1.0%。教育领域基本持平从60.9%微降至60.0%-0.9%。需要指出的是Agent与工具调用维度在本次评测中下降了9.0个百分点这与官方宣称的智能体编程能力大幅提升形成了反差。。响应时间小幅延长平均耗时从57s增加至68s增幅约19%变化幅度不大整体保持在可接受范围内。成本结构发生较大变化平均Token消耗从4975降至3676-26%模型输出更为精炼。但输出价格从4.8元/M token上调至12.0元/M token涨幅达150%。两相对冲之下每千次调用的费用从22.9元增加至41.6元成本上涨约82%同时模型类别也从开源转为商用。2、横向对比新旗舰的竞争身位在当前主流大模型竞争格局中qwen3.6-plus作为阿里最新发布的旗舰API模型表现如何我们从三个维度进行横向对比分析*数据来源非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark同成本档位对比中高端区间竞争激烈qwen3.6-plus的花费为41.6元/千次处于40至55元的成本区间。在该档位中qwen3-max-think-2026-01-2372.8%43.5元以略高的准确率和相近的花费占据优势两者差距为1.2个百分点。GLM-4.771.5%52.5元与qwen3.6-plus准确率接近但花费更高。向上看更高成本档位gemini-3-pro-preview72.5%247.3元和gpt-5.1-high69.7%180元花费远高于qwen3.6-plus但准确率优势并不明显甚至gpt-5.1-high的准确率还低于qwen3.6-plus。向下看更具成本效率比的选择值得关注的是Doubao-Seed-2.0-pro76.5%22.5元和qwen3.5-plus74.6%22.9元均以约一半的花费提供了更高的准确率。Doubao-Seed-2.0-lite73.9%5.4元甚至以不到qwen3.6-plus七分之一的花费实现了更高的准确率。如果单纯从中文综合能力和成本效率的角度出发qwen3.6-plus在当前档位并不占优。但需要强调的是qwen3.6-plus的核心竞争力在于其编程Agent能力和多模态感知——这些能力在当前评测框架中无法充分体现。新旧模型对比阿里产品线内部出现分化在当前榜单中阿里系模型呈现出明显的梯队分布——qwen3.5-plus74.6%第3位仍然领跑Qwen3.5-122B-A10B74.0%第4位紧随其后qwen3-max-think-2026-01-2372.8%第6位位居中上游而作为最新发布的qwen3.6-plus71.6%第13位在中文综合准确率上反而排在前代之后。这种新模型准确率不及前代的现象在行业中并非首次出现——当模型的核心迭代方向与评测维度不完全重合时此类结果在意料之中。对比其他厂商新模型qwen3.6-plus71.6%与GLM-4.771.5%、gemini-3-flash-preview71.5%、GLM-5-Turbo71.5%处于同一水平线与Doubao-Seed-2.0-mini71.8%也基本持平。但与榜首的Doubao-Seed-2.0-pro76.5%和gemini-3.1-pro-preview74.8%相比存在约3至5个百分点的差距。开源VS闭源对比身份切换值得关注qwen3.6-plus的类别从上一代qwen3.5-plus的开源变为商用闭源。官方表示后续将开源Qwen3.6系列的其他尺寸模型但当前旗舰版本为闭源商用。闭源阵营中的位置在闭源模型中qwen3.6-plus71.6%41.6元的成本效率比并不突出。同为闭源的Doubao-Seed-2.0-pro76.5%22.5元在准确率和成本两个维度上均占据优势。hunyuan-2.0-thinking-2025110971.9%9.5元以极低的成本提供了相近的准确率。开源阵营持续发力在开源模型中qwen3.5-plus74.6%22.9元、Qwen3.5-122B-A10B74.0%32.3元、qwen3.5-flash70.8%10.4元均展现了极具竞争力的成本效率。DeepSeek-V3.2-Think70.9%7.5元同样以极低的花费提供了接近qwen3.6-plus的准确率开源模型在成本效率方面的优势持续扩大。3、官方评测官方博客https://qwen.ai/blog?idqwen3.6将Qwen3.6-Plus定位为面向真实世界的Agent并从语言能力和视觉语言能力两大维度展示了其评测成绩。自然语言官方指出Qwen3.6通过深度融合推理、记忆与执行能力在代码智能体、通用智能体和工具调用上都实现了全面跃升。具体而言官方展示的核心突破包括代码智能体Coding Agent Qwen3.6-Plus展现出卓越的工程落地能力。不仅在主流代码修复基准如SWE-bench Verified上紧追行业标杆更在复杂的终端操作与自动化任务执行中表现突出。通用智能体与工具使用 模型实现了显著突破特别是在多个高难度的长程规划任务中取得最优成绩并在各类工具调用基准上全面领先。通用能力 保持了顶尖水准无论是高难度的 STEM 推理、超长上下文的精准信息提取亦或是多语言环境的广泛适配模型均在多项关键评测中刷新最佳表现。视觉语言在多模态能力上Qwen3.6-Plus围绕推理能力增强、指令模式实用性提升以及复杂任务执行能力拓展三个方向进行了持续演进。官方强调的核心能力演进与实测数据如下多模态推理能力提升 模型在复杂文档理解、物理世界视觉理解、视频推理和视觉编程等任务上取得稳定提升能够更有效地整合跨模态信息并完成更复杂的分析与决策。指令模式实用性优化 结合真实业务场景模型在指令遵从、疑难文字识别、万物识别、细粒度图像感知以及真实场景理解中展现出更强的实用性与稳定性。随着理解、推理与执行能力的不断融合多模态能力的持续优化正在为复杂流程任务提供更完整的能力支撑。目前所有大模型评测文章在公众号大模型评测及优化NoneLinear