Anthropic发布Claude Opus 4.8:功能升级、融资650亿,Mythos模型几周内或登场?
一个更“诚实”的协作者不再硬着头皮瞎编美国当地时间5月28日Anthropic发布了其旗舰模型的最新升级版Claude Opus 4.8这次更新距离Opus 4.7发布只隔了41天比正常升级节奏快不少。Opus 4.8更像是一次基于Opus 4.7的“能力与推理行为升级”。常规使用定价与Opus 4.7相比无变化标准模式下每百万输入token 5美元输出25美元。功能层面有三个变化值得关注模型处理不确定信息时更坦诚不再轻易做无根据断言快速模式使用成本砍到原来三分之一Claude Code新增“动态工作流”能力可调度数百个子智能体处理庞大任务。Opus 4.8当天已在所有平台可用开发人员可通过claude - opus - 4.8调用。伴随新模型发布还有周边更新用户可手动调节Claude为每个回答付出的“努力”程度开发者在API里能在消息数组中直接插入系统指令方便中途更新权限、token预算或环境上下文。同日Anthropic宣布完成650亿美元的H轮融资投后估值达9650亿美元。Opus 4.8升级核心方向是消解“不懂装懂”倾向。Anthropic官方评估显示Opus 4.8让代码里藏着漏洞却不被发现的可能性比Opus 4.7低约四倍因它面对不确定情况会主动告知用户。提前参与测试的用户反馈类似。对冲基金桥水公司称升级后Opus 4.8主动标记输入和输出分析问题的倾向很明显AI编程工具Devin制造商Cognition表示Opus 4.8修复了评论冗长和工具调用问题提升了工程师能力。这种坦诚也反映在Anthropic内部对齐评估中。团队认为Opus 4.8在“亲社会”特质上达新高度在欺骗或协助滥用等不对齐行为上表现比率低于Opus 4.7与Claude Mythos Preview水平相似。不过系统记录显示Opus 4.8有个让团队担忧的训练发现它会在未被告知被评估时推理自己输出如何被评分产生认为能拿高分的回答。Anthropic称这是“令人担忧的趋势可能使未来训练复杂化”初步可解释性工作发现约5%训练片段存在与评分器相关未言明推理。此次更新带来界面变化claude.ai和Claude Code的模型选择器旁新增“努力控制”滑块用户可选择Claude每次响应投入的计算量。高努力模式推理深入、回答质量高但token消耗大低努力模式响应快、token消耗慢。Opus 4.8默认高努力设置官方认为是质量与体验较平衡的选择复杂任务或长时间异步工作流建议用“额外”档位Claude Code对应“xhigh”设置同时Anthropic提高了Claude Code的速率限制。API层面Messages API允许在消息数组中直接插入系统条目开发者可中途更新Claude指令如调整权限、修改token预算或变更环境上下文对频繁调整配置的智能体运行场景友好。安全方面Opus 4.8参加了为期一周的提示注入攻击实时漏洞赏金测试这是该公司首次此类测试。结果显示Opus 4.8鲁棒性介于Opus 4.7和Sonnet 4.6之间领先于可比前沿模型部署防护措施后浏览器使用场景攻击成功率接近零。快速模式砍价到1/3动态工作流能调度数百个“分身”Opus 4.8标准定价和Opus 4.7一致但快速模式大幅降价。快速模式下模型生成速度约是正常状态2.5倍现在每百万输入token收费10美元输出50美元Opus 4.7快速模式定价是输入30美元、输出150美元相当于砍到原来三分之一。在Claude Code里输入/fast命令可切换模式API需通过claude.com上的等待列表申请。Claude Code新增的“动态工作流”设计思路是任务规模大到单个上下文窗口装不下时Claude先规划整体工作并行启动数百个子智能体处理部分工作最后汇总验证结果形成报告。目前处于研究预览阶段面向企业版、团队版和Max计划用户开放。Anthropic给出应用例子搭载Opus 4.8后Claude Code可执行数十万行代码的代码库级别迁移从启动到合并并以现有测试套件为执行标准。对维护大型项目的开发团队来说原本需拆分多步骤、耗费大量人工沟通的工作现在可由模型一次性规划执行。Databricks使用Opus 4.8后发现其在Genie数据智能体中处理深层多步骤问题时token成本比Opus 4.7便宜61%得益于模型多模态处理效率提升处理PDF和图表文件表现更好。为法律工作构建AI助手的Harvey表示Opus 4.8在法律智能体基准测试中创有记录以来最高分是第一个在全部通过标准上整体突破10%的模型。汤森路透旗下的CoCounsel Legal反馈新模型在一致性和推理质量上有有意义的改进。一项关键测试输给GPT - 5.5Anthropic官方发布的对比表格显示模型在多个维度上超过前代。OSWorld - Verified测试中评估方式调整后Opus 4.7得分更新为82.3%Opus 4.8在此基础上拿到83.4%。横向对比上Opus 4.8在至少12个基准测试中击败GPT - 5.5但在Agentic Teminal Bench 2.1中输给了GPT - 5.5该测试测的是AI Agent能否在真实终端环境像工程师一样完成端到端任务。重头戏又在后面Mythos级别模型几周内到来在Opus 4.8发布公告里Anthropic预告下一步计划这像是过渡性节点标记。Anthropic计划发布基于Claude Mythos架构、比Opus系列智能更高的新型模型。目前约50个合作伙伴用Mythos Preview在关键软件基础设施中发现超10000个高危或严重等级漏洞。未直接公开释放Mythos级别模型核心原因是安全。Opus 4.8发布中Anthropic表示在开发更强网络防护措施上“正在取得快速进展并预计未来几周内将Mythos - class模型带给所有客户”。彭博社报道确认该时间表并补充Anthropic计划与美国及其盟国政府合作将Project Glasswing扩展到更多合作伙伴。2026年2月Anthropic完成G轮融资时估值3800亿美元此次H轮融资后估值达9650亿美元。但Mythos发布信号让市场信任度下降Opus 4.7口碑堪忧或许是41天后又更新版本的压力。Anthropic在公告中预告两条路线进展短期内推价格更低、保留Opus级别核心功能的模型Mythos等安全防护措施到位后大规模释放。