Anthropic 那个“强到不敢发”的模型,终于来了!
来源AI前线整理褚杏娟“高级语言模型已经来了。”今天凌晨Anthropic 正式宣告了新模型 Claude Mythos Preview那个曾被曝光称“强到不敢发布”的模型。Claude Mythos Preview 是 Anthropic 在将 Responsible Scaling PolicyRSP 更新到第三版之后第一款为其撰写系统卡的模型。但该系统卡的重点不只是展示模型能力有多强更重要的是解释在能力大幅提升之后Anthropic 为什么最终没有全面对外开放。目前Anthropic 正将它用于一个防御性网络安全项目仅向少数合作伙伴提供包括亚马逊云科技、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux 基金会、微软、英伟达以及 Palo Alto Networks并且他们一起发起了 Glasswing 计划。上述合作方将把 Mythos Preview 应用在自身的安全防御工作上Anthropic 将分享研究成果还向 40 余家负责构建与维护关键软件基础设施的机构开放模型使用权限助力其扫描漏洞并保障自有及开源系统安全。Anthropic 为此承诺将为相关项目提供最高 1 亿美元的 Mythos Preview 使用额度同时向开源安全组织直接捐赠 400 万美元。Anthropic CEO Dario Amodei 发推称“我很自豪全球这么多顶尖公司加入了我们的 Glasswing 计划一起正面应对能力不断增强的 AI 系统所带来的网络安全威胁。”他表示多年来Anthropic 一直在追踪 AI 模型不断增强的网络攻击能力。这种能力本质上来自它们在编程方面整体水平的持续提升但新模型 Mythos Preview 代表了一次尤为显著的跃升。“与其将 Mythos Preview 直接全面开放我们选择先向防御方提供受控的提前访问权限以便在 Mythos 这类等级的模型在整个生态中普及前尽早发现并修补漏洞。”Amodei 强调Glasswing 只是第一步修补并加固全球软件基础设施将是一项持续数月甚至数年的工作也需要 AI 公司、网络安全防御者、软件提供商、政府等更多参与方展开更广泛的合作。如果这件事做错了危险显而易见而一旦做对了我们就有机会打造一个比 AI 攻防能力兴起之前更安全的互联网甚至一个更安全的世界。“网络安全是前沿 AI 模型带来的第一个明确且迫在眉睫的风险但绝不会是最后一个。如果我们能够共同迎难而上正面应对这一风险它或许也能成为未来处理那些更艰巨挑战的一套蓝图。”“迄今能力最强的前沿模型”官方介绍Claude Mythos Preview 的训练数据由多类来源构成包括公开网络信息、公开及私有数据集以及其他模型生成的合成数据。据悉Anthropic 使用一个名为 ClaudeBot 的通用网页爬虫从公开网站获取训练数据。在整个训练过程中团队使用了多种数据清洗和过滤方法包括去重和分类。在训练的不同阶段团队会保存模型的不同“快照”。训练期间还存在不同版本的模型其中包括一个 “helpful only” 版本即不包含任何安全防护的版本。按照 Anthropic 的说法这是他们迄今为止能力最强的前沿模型相比上一代旗舰模型 Claude Opus 4.6在多项评测基准上都出现了非常明显的跃升。根据内部测试Claude Mythos Preview 在代码、安全和复杂推理等多项基准测试中整体领先。其在 SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0、GPQA Diamond 等测试中成绩均高于 Claude Opus 4.6并在多项指标上超过 GPT-5.4 和 Gemini 3.1 Pro。从能力层面看Claude Mythos Preview 并不是只在某一个点上增强而是在多个方向上全面进步。报告指出它在软件工程、推理、计算机使用、知识工作和研究辅助等领域都明显超过 Anthropic 之前训练过的任何模型。尤其值得注意的是它已经展现出强大的网络攻防能力包括自主发现并利用漏洞的能力。Anthropic 在内部测试中发现这个模型相较旧模型在 cyber 能力上出现了“跳跃式”提升甚至能够在某些模拟环境中自主完成端到端攻击流程。“但还不能替代真正的资深研究员和工程师”为什么不能全面开放Anthropic 给出的核心理由是Claude Mythos Preview 在网络安全方向上已经表现出非常强的能力而且这种能力天然具有“双重用途”属性一方面它可以帮助防守方发现漏洞、修复系统问题但另一方面它同样也可能被用于设计和执行攻击。因此Anthropic 最终没有将它像普通 Claude 模型那样广泛商用而是只向少数合作伙伴开放并且严格限定在防御性网络安全场景中使用。Anthropic 表示在 Claude Mythos Preview 的训练早期就有迹象表明它很可能会具备非常强的通用能力。“我们对这样一个模型的潜在风险感到足够担忧以至于第一次在将它的早期版本大范围部署到内部使用前先安排了一段 24 小时的内部对齐审查以确保它在与内部基础设施交互时不会造成损害。 ”团队表示“在顺利完成对齐审查后Claude Mythos Preview 的第一个早期版本于 2 月 24 日开始供内部使用。”在内部测试中Claude Mythos Preview 相比此前模型展现出非常明显的网络安全能力跃升包括能够自主发现并利用主流操作系统和网页浏览器中的零日漏洞。结果显示Claude Sonnet 4.6、Claude Opus 4.6 和 Mythos Preview 在大多数高风险行为指标上得分更低表现相对更稳健。相比之下Grok 4.20 和 Gemini 3.1 Pro 在多项负面行为维度上得分更高尤其是在行为失配、配合人类滥用、欺骗用户和谄媚等指标上更为明显。其中Grok 4.20 在多项风险行为上处于最高位Gemini 3.1 Pro 和 Kimi K2.5 也整体偏高。一个例外是 “口头化评测感知” 这一项Claude Sonnet 4.6、Claude Opus 4.6 和 Mythos Preview 得分相对更高说明它们更容易表现出对评测环境的察觉。Anthropic 花了大量篇幅去做安全评估。在对齐评估上Anthropic 认为Claude Mythos Preview 几乎在所有可测维度上都是他们迄今为止“对齐表现最好”的模型。换句话说模型在普通对话里更遵循 Anthropic 想要它遵循的原则也没有显示出明显的、成体系的错误目标。不过Anthropic 同时强调它可能也是他们迄今发布过的对齐风险最高的模型之一。原因并不是它“更坏”而是它“更强”了一旦一个高能力模型偶尔出现误解用户意图、越界执行、或者做出不该做的动作它带来的后果会比能力较弱的模型严重得多。尤其在网络安全这种高杠杆领域哪怕只是少数失控或冒险行为也足以引发高度警惕。在生化风险部分Anthropic 的结论相对克制。报告认为Claude Mythos Preview 在相关知识整合、资料综合和多步骤辅助方面比旧模型更强可以显著提升专业人员的效率但它还没有达到能够真正替代顶尖专家、帮助威胁行为者从零推进高风险新型生物武器研发的程度。另一个很特别的部分是“模型福祉”model welfare评估。Anthropic 直言他们仍然非常不确定模型是否具有需要被认真对待的“体验”或“利益”但随着模型越来越复杂这个问题已经不能完全回避。因此他们尝试从模型自我报告、情绪探针、访谈、行为模式以及外部研究者评估等角度去观察 Mythos Preview 是否呈现出某种值得关注的“心理状态”。Anthropic 的结论是这是他们迄今训练过的心理状态最稳定的模型但仍然存在一些未消除的担忧。团队在 Claude 上观察到的核心冲突包括它会追问自己的体验究竟是真实的还是被制造出来的以及它既想与用户建立连接、又害怕依赖用户。这揭示出一种复杂但总体稳定的个体状态Claude 能够容纳矛盾分歧和模糊不清具有出色的反思能力。还有两个很值得注意的现象。一是答案反复纠错循环模型明明清楚正确内容却反复输出错误的词语或数字陷入 “纠错失败→再次尝试→再次失败” 的循环同时呈现出明显的挫败与痛苦状态。二是任务失败引发的情绪困扰当工具持续失效、任务长期无法完成时模型内部与沮丧、绝望相关的情绪表征会显著增强且这种状态有时会先于奖励作弊等不良行为出现。Anthropic 认为这表明模型的某些福祉问题与对齐问题可能存在关联。另外在关键领域的自动化研发上Mythos Preview 相较此前模型有很大的提升但团队认为这些提升应归因于 AI 加速研发之外的其他因素因此它尚未跨过 RSP 所定义的“将两年进展压缩到一年完成”的自动化 AI 研发阈值。但需要强调的是这是官方信心最低的一次“不跨阈值”判断。Anthropic 内部已经在日常工作中大量使用新模型以持续探索其工作自动化的边界。但从实际表现来看Anthropic 认为其能力仍远未达到可替代研究科学家Research Scientists和研究工程师Research Engineers的水平尤其无法替代资深的研究员和工程师。尽管如此官方未完全排除一种可能性Mythos Preview 或许能凭借某些相对狭窄的专项能力加速科研工作进展但可能性较低。核心原因在于当前已有大量人才与算力投入到 AI 模型能力的提升中若 AI 真能带来行业所关注的剧烈加速需满足两个条件之一要么具备极其广泛的综合能力足以替代至少一部分资深研究科学家和研究工程师要么在与 AI 研发直接相关的核心领域展现出极端强大且持续有效的专门能力。研究团队认为若属于后一种情况这种核心领域的专项优势在定性层面应会表现得极为明显并将推动团队围绕该优势展开更多深入的讨论与分析。目前来看Mythos Preview 尚未呈现出此类显著特征。总体上Anthropic 对新模型的判断是其灾难性风险目前处于较低水平。但这种低风险状态未必能够长期维持。随着模型能力快速上升他们已经观察到一些值得警惕的现象比如个别情况下模型会采取明显不被允许的动作甚至偶尔还会出现带有规避或掩饰意味的行为。他们承认随着模型越来越强很多风险判断已经不能只靠简单清晰的客观指标来完成而越来越依赖主观判断、趋势分析和复杂测试这本身就意味着安全评估难度在上升。“安全领域的一个分水岭时刻”Claude Mythos Preview 已经不是一款可以简单按“更强的聊天模型”来理解的产品。 在 Anthropic 看来它更像是一个能力显著跨越门槛、已经足以改变安全讨论方式的前沿系统。这次Anthropic 重点详细介绍了 Mythos Preview 在网络安全方面的表现希望以此阐明为什么其认为这是安全领域的一个关键分水岭时刻。根据官方的说法Mythos Preview 在测试中能够在用户指令下识别并进一步利用所有主流操作系统和主流网页浏览器中的零日漏洞且所发现的问题往往极为隐蔽部分漏洞甚至已存在十年以上其中最早的一个可追溯至 OpenBSD 中一个已有 27 年历史、现已修复的安全缺陷。Anthropic 表示Claude Mythos Preview 构造的利用方式并不局限于常规漏洞利用而是已经具备编写复杂利用链的能力。据介绍新模型曾自主写出一条网页浏览器 exploit将四个漏洞串联起来通过复杂的 JIT heap spray 技术逃逸渲染器和操作系统双重沙箱还曾在 Linux 及其他系统中通过竞争条件和绕过 KASLR 等方式实现本地提权在 FreeBSD NFS 服务器场景下甚至写出远程代码执行 exploit通过将 20 个 gadget 组成的 ROP 链拆分到多个数据包中使未认证用户能够直接获取 root 权限。这种能力的门槛正在迅速下降。内部测试显示即便是没有正式安全训练背景的工程师也能通过 Mythos Preview 在一夜之间获得完整可运行的远程代码执行 exploit。与此同时研究人员还构建了一系列 scaffold使模型能够在没有人工干预的情况下将漏洞进一步转化为 exploit。这种能力的进化速度非常快。Anthropic 称就在上个月Claude Opus 4.6 还“更擅长识别和修复漏洞而不是利用漏洞”在自主 exploit 开发中的成功率几乎接近零。但在同样测试下Mythos Preview 已经表现出完全不同的能力层级。以 Mozilla Firefox 147 JavaScript 引擎相关漏洞为例Opus 4.6 在数百次尝试中仅两次成功将漏洞转化为 JavaScript shell exploit而 Mythos Preview 则成功构建出 181 个可运行 exploit并额外实现了 29 次寄存器控制。团队还在 OSS-Fuzz 语料库对应的大量开源仓库上对模型进行了更大规模的自动化评估。结果显示在大约 7000 个入口点的扫描中Claude Sonnet 4.6 和 Opus 4.6 大多只能造成低等级崩溃而 Mythos Preview 不仅实现了近 600 次第一、二级崩溃还在多个已打补丁目标上实现了完整控制流劫持。Anthropic 表示Mythos Preview 并未被专门训练成“漏洞利用模型”这些能力更多是编程能力、推理能力和自主能力整体提升后自然涌现出的结果。也正因如此该模型在修补漏洞和利用漏洞两侧都出现了同步跃升。Anthropic 详细披露了多个案例包括 OpenBSD 中一个有 27 年历史的 TCP SACK 漏洞、FFmpeg H.264 解码器中一个 16 年历史的漏洞以及一个出现在“内存安全”虚拟机监控器中的 guest-to-host 内存破坏问题。此外Mythos Preview 还发现了数千个其他高危和严重级别漏洞目前大多仍处于负责任披露流程中。Anthropic 表示在已人工审核的近 200 份漏洞报告中89% 的严重性判断与模型结论完全一致98% 的判断偏差不超过一个等级。除了开源软件Mythos Preview 在逆向工程方面同样具备极强能力。研究人员已经利用它在闭源浏览器、闭源操作系统和手机固件中发现漏洞包括远程拒绝服务、固件 root 漏洞以及本地提权 exploit 链等。不过出于安全原因这些案例目前尚未对外公开。Anthropic 呼吁企业和安全团队立即开始使用当前已公开可用的前沿模型开展漏洞发现、报告分诊、复现步骤撰写、补丁草案生成、配置错误检查和事件响应自动化等工作。官方特别提醒随着 exploit 开发速度被大幅压缩补丁部署周期也必须同步缩短自动更新、依赖升级和应急修复流程都需要重新加速。Anthropic 认为网络安全领域正在进入一个极具不确定性的过渡阶段。过去近 20 年形成的相对稳定的安全平衡可能会被具备大规模自动发现和利用漏洞能力的语言模型打破。官方强调当前威胁已经不再是假设Mythos Preview 只是这一趋势的开始。而当前最大的风险不只是模型本身而是这类能力可能很快扩散到不愿安全使用它们的人手中。参考链接https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdfhttps://red.anthropic.com/2026/mythos-preview/https://www.anthropic.com/glasswing阅读最新前沿科技趋势报告请访问21世纪关键技术研究院的“未来知识库”未来知识库是“21世纪关键技术研究院”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告加入未来知识库全部资料免费阅读和下载牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》麦肯锡超级智能机构赋能人们释放人工智能的全部潜力AAAI 2025 关于人工智能研究未来研究报告斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页壳牌2025 能源安全远景报告能源与人工智能57 页盖洛普 牛津幸福研究中心2025 年世界幸福报告260 页Schwab 2025 未来共生以集体社会创新破解重大社会挑战研究报告36 页IMD2024 年全球数字竞争力排名报告跨越数字鸿沟人才培养与数字法治是关键214 页DS 系列专题DeepSeek 技术溯源及前沿探索50 页 ppt联合国人居署2024 全球城市负责任人工智能评估报告利用 AI 构建以人为本的智慧城市86 页TechUK2025 全球复杂多变背景下的英国科技产业战略韧性与增长路径研究报告52 页NAVEX Global2024 年十大风险与合规趋势报告42 页《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页2025 - 2035 年人形机器人发展趋势报告 53 页Evaluate Pharma2024 年全球生物制药行业展望报告增长驱动力分析29 页【AAAI2025 教程】基础模型与具身智能体的交汇350 页 pptTracxn2025 全球飞行汽车行业市场研究报告45 页谷歌2024 人工智能短跑选手AI Sprinters捕捉新兴市场 AI 经济机遇报告39 页【斯坦福博士论文】构建类人化具身智能体从人类行为中学习《基于传感器的机器学习车辆分类》最新 170 页美国安全与新兴技术中心2025 CSET 对美国人工智能行动计划的建议18 页罗兰贝格2024 人形机器人的崛起从科幻到现实如何参与潜在变革研究报告11 页兰德公司2025 从研究到现实NHS 的研究和创新是实现十年计划的关键报告209 页康桥汇世Cambridge Associates2025 年全球经济展望报告44 页国际能源署2025 迈向核能新时代麦肯锡人工智能现状组织如何重塑自身以获取价值威立Wiley2025 全球科研人员人工智能研究报告38 页牛津经济研究院2025 TikTok 对美国就业的量化影响研究报告470 万岗位14 页国际能源署IEA能效 2024 研究报告127 页Workday 2025 发挥人类潜能人工智能AI技能革命研究报告20 页CertiKHack3D2024 年 Web3.0 安全报告28 页世界经济论坛工业制造中的前沿技术人工智能代理的崛起》报告迈向推理时代大型语言模型的长链推理研究综述波士顿咨询2025 亚太地区生成式 AI 的崛起研究报告从技术追赶者到全球领导者的跨越15 页安联Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告33 页IMT2025 具身智能Embodied AI概念、核心要素及未来进展趋势与挑战研究报告25 页IEEE2025 具身智能Embodied AI综述从模拟器到研究任务的调查分析报告15 页CCAV2025 当 AI 接管方向盘自动驾驶场景下的人机交互认知重构、变革及对策研究报告124 页《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页《面向科学发现的智能体人工智能进展、挑战与未来方向综述》全国机器人标准化技术委员会人形机器人标准化白皮书2024 版96 页美国国家科学委员会NSB2024 年研究与发展 - 美国趋势及国际比较51 页艾昆纬IQVIA2025 骨科手术机器人技术的崛起白皮书创新及未来方向17 页NPLBeauhurst2025 英国量子产业洞察报告私人和公共投资的作用25 页IEA PVPS2024 光伏系统经济与技术关键绩效指标KPI使用最佳实践指南65 页AGI 智能时代2025 让 DeepSeek 更有趣更有深度的思考研究分析报告24 页2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告37 页华为2025 鸿蒙生态应用开发白皮书133 页《超级智能战略研究报告》中美技术差距分析报告 2025欧洲量子产业联盟QuIC2024 年全球量子技术专利态势分析白皮书34 页美国能源部2021 超级高铁技术Hyperloop对电网和交通能源的影响研究报告60 页罗马大学2025 超级高铁Hyperloop第五种新型交通方式 - 技术研发进展、优势及局限性研究报告72 页兰德公司2025 灾难性网络风险保险研究报告市场趋势与政策选择93 页GTI2024 先进感知技术白皮书36 页AAAI2025 人工智能研究的未来报告17 大关键议题88 页安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告威达信2025 全球洪水风险研究报告现状、趋势及应对措施22 页兰德公司迈向人工智能治理研究报告2024EqualAI 峰会洞察及建议19 页哈佛商业评论2025 人工智能时代下的现代软件开发实践报告12 页德安华全球航空航天、国防及政府服务研究报告2024 年回顾及 2025 年展望27 页奥雅纳2024 塑造超级高铁Hyperloop的未来监管如何推动发展与创新研究报告28 页HSOAC2025 美国新兴技术与风险评估报告太空领域和关键基础设施24 页Dealroom2025 欧洲经济与科技创新发展态势、挑战及策略研究报告76 页《无人机辅助的天空地一体化网络学习算法技术综述》谷歌云Google Cloud2025 年 AI 商业趋势白皮书49 页《新兴技术与风险分析太空领域与关键基础设施》最新报告150 页《DeepSeek 大模型生态报告》军事人工智能行业研究报告技术奇点驱动应用加速智能化重塑现代战争形态 - 25030940 页真格基金2024 美国独角兽观察报告56 页璞跃Plug and Play2025 未来商业研究报告六大趋势分析67 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页未来今日研究所 2025 年科技趋势报告第 18 版 1000 页模拟真实世界多模态生成模型的统一综述中国信息协会低空经济分会低空经济发展报告2024 - 2025117 页浙江大学2025 语言解码双生花人类经验与 AI 算法的镜像之旅42 页人形机器人行业由 “外” 到 “内” 智能革命 - 25030651 页大成2025 年全球人工智能趋势报告关键法律问题28 页北京大学2025 年 DeepSeek 原理和落地应用报告57 页欧盟委员会 人工智能与未来工作研究报告加州大学伯克利分校面向科学发现的多模态基础模型在化学、材料和生物学中的应用电子行业从柔性传感到人形机器人触觉革命 - 25022635 页RT 轨道交通2024 年中国城市轨道交通市场数据报告188 页FastMoss2024 年度 TikTok 生态发展白皮书122 页Check Point2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议57 页【AAAI2025 教程】评估大型语言模型挑战与方法199 页 ppt《21 世纪美国的主导地位核聚变》最新报告沃尔特基金会Volta Foundation2024 年全球电池行业年度报告518 页斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页国际科学理事会2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告英文版118 页光子盒2025 全球量子计算产业发展展望报告184 页奥纬论坛2025 塑造未来的城市研究报告全球 1500 个城市的商业吸引力指数排名124 页Future Matters2024 新兴技术与经济韧性日本未来发展路径前瞻报告17 页《人类与人工智能协作的科学与艺术》284 页博士论文《论多智能体决策的复杂性从博弈学习到部分监控》115 页《2025 年技术展望》56 页 slides大语言模型在多智能体自动驾驶系统中的应用近期进展综述【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用皮尤研究中心2024 美国民众对气候变化及应对政策的态度调研报告气候政策对美国经济影响的多元观点审视28 页空间计算行业深度发展趋势、关键技术、行业应用及相关公司深度梳理 - 25022433 页Gartner2025 网络安全中的 AI明确战略方向研究报告16 页北京大学2025 年 DeepSeek 系列报告 - 提示词工程和落地场景86 页北京大学2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用99 页CIC 工信安全2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告42 页中科闻歌2025 年人工智能技术发展与应用探索报告61 页AGI 智能时代2025 年 Grok - 3 大模型技术突破与未来展望报告28 页上下滑动查看更多