DeepSeek V4 的成功发布，Opus 4.7 的落寞：中美大模型正在进行一场上甘岭战役

张

张建站

2026/4/26 2:22:45

10分钟阅读

DeepSeek V4 的成功发布Opus 4.7 的落寞中美大模型正在进行一场上甘岭战役2025年4月DeepSeek V4 震撼发布Reddit 社区却爆发Opus 4.7 is Anthropic’s downfall的吐槽。这场中美大模型的较量恰似一场上甘岭战役——一方攻势凌厉一方坚守阵地战况胶着而激烈。引言两个世界的交汇2025年4月25日两个截然不同的消息同时在 AI 圈引爆DeepSeek V4 正式发布— 1.6T 参数 MoE 架构100 万 token 上下文MIT 开源价格低到令人窒息Reddit r/ClaudeCode 热帖— “Opus 4.7 is Anthropic’s downfall”49 分63% upvoted109 条评论用户愤怒吐槽这两个事件看似无关实则揭示了一个深层趋势中美大模型正在进入白热化的竞争阶段一场上甘岭战役已然打响。第一战场DeepSeek V4 的技术突破核心架构升级DeepSeek V4 带来了多项技术突破模型总参数激活参数上下文长度架构DeepSeek-V4-Pro1.6T49B1MMoEDeepSeek-V4-Flash284B13B1MMoE三大技术创新混合注意力机制— CSA HCA 组合在 1M token 上下文场景下推理延迟和内存占用大幅下降mHC 残差连接— 增强信号传播稳定性保持模型表达能力Muon 优化器— 更快收敛更稳定训练训练规模32T 高质量 tokens 预训练两阶段后训练领域专家独立培养SFT GRPO RL → 统一蒸馏整合基准测试开源模型的历史性突破DeepSeek V4 Pro Max 的基准测试数据令人震撼编程基准测试对比基准Opus 4.6 MaxGPT-5.4 xHighGemini-3.1-ProKimi K2.6DeepSeek V4 Pro MaxLiveCodeBench88.8-91.789.693.5Codeforces Rating-31683052-3206HumanEval62.8*---76.8DeepSeek V4 Pro Max 在 LiveCodeBench 和 Codeforces 上全面领先推理与数学基准基准Opus 4.6 MaxGPT-5.4Gemini-3.1-ProKimi K2.6GLM-5.1DeepSeek V4 Pro MaxGPQA Diamond91.393.094.390.586.290.1HMMT 2026 Feb96.297.794.792.789.495.2IMOAnswerBench75.391.481.086.083.889.8MMLU-Pro89.187.591.087.186.087.5Agentic 任务基准基准Opus 4.6 MaxGPT-5.4Gemini-3.1-ProKimi K2.6GLM-5.1DeepSeek V4 Pro MaxSWE Verified80.8-80.680.2-80.6SWE Pro57.357.754.258.658.455.4Terminal Bench 2.065.475.168.566.763.567.9BrowseComp83.782.785.983.279.383.4GDPval-AA Elo161916741314148215351554关键发现✅ DeepSeek V4 Pro Max 编程能力超越所有竞争对手✅ SWE Verified 与 Opus 4.6 Max持平⚠️ Agentic 任务略逊于 GPT-5.4但差距缩小✅ 作为开源模型这是历史性突破价格战DeepSeek 的杀手锏模型输入缓存命中输入缓存未命中输出上下文DeepSeek V4 Flash¥0.2/M¥1/M¥2/M1MDeepSeek V4 Pro¥1/M¥12/M¥24/M1MClaude Opus 4.7$15/M$15/M$75/M200KClaude Sonnet 4.7$3/M$3/M$15/M200KGPT-5.5$10/M$10/M$30/M128K价格对比按汇率换算对比项DeepSeek V4 FlashClaude Opus 4.7差距输入缓存¥0.2 ≈ $0.03$15500 倍差距输入未缓存¥1 ≈ $0.14$15107 倍差距输出¥2 ≈ $0.28$75270 倍差距DeepSeek V4 Flash 的价格比 Claude Opus 便宜 100-500 倍第二战场Opus 4.7 的落寞Reddit 热帖用户的愤怒2025年4月25日Reddit r/ClaudeCode 出现热帖《Opus 4.7 is Anthropic’s downfall》“我给了 Anthropic 10 天时间。尝试修复多个 repo 的多个 bug。Opus 4.7 就在那转圈什么都不做。作为 Max 订阅者 1 年后我切换到 GPT 5.5。”评分4963% upvoted109 条评论。用户核心抱怨1. 无限循环问题“我正在经历无尽的 bugfix 循环就在此刻。”“Opus 4.7 修复 bug 时进入无限循环什么都不做。”2. 速度严重下降“Opus 变得太慢了。现在连最简单的任务都要 2-4 分钟。”“默认 Opus 4.7即使 medium effort也比任何版本的 Opus 都慢。”3. 质量退化“我得不到以前的质量创造力消失了不再思考了。”“更多幻觉更多错误假设要频繁重置上下文。”“Opus 4.7 就像当年的 Sonnet 3.7。OG 们懂我在说什么。”“Sonnet 3.7 是 Anthropic 史上最差模型。”4. 额度紧张“Claude Design 3-4 个提示就一周额度”“在 Codex 里 2 天用了 1B tokens不可能用完额度。”“你需要另一个 agent 不停提示才能用完 Codex 额度。”“ChatGPT Image 2 一小时 30-40 张图都没用完额度。”“Codex 的免费额度都比 Claude Pro 的付费额度好”5. 强制迁移争议“他们发布 4.7 并移除了 4.6 访问Pro 计划强迫用户用新模型。”“4.6 也被 nerf 了”“涨价降额度Pro 账户现在就像个 demo。”用户迁移潮大量用户宣布切换到 GPT 5.5“我已切换到 GPT 5.5一切都好。”“同上。”“我取消了 Claude Max 订阅改用 $100/月的 Kimi plan。”“把我的 x20s 都转到 GPT 了编码比 Opus 4.7 更好。”“从 Claude Pro 切换到 Codex 恢复理智。目前挺好。”“kimi-k2.5 看起来不错用同样的 Claude Code。有时慢但不会几分钟内用完额度。”反方观点抱怨太戏剧化也有用户认为抱怨过度“你们太戏剧化了 lol”“我在 Claude Code 上正常工作产出我需要的东西。”“不排除竞争对手用 agent 发这种帖子攻击。”“很多人不知道怎么正确编码和引导 AI。大概是 vibe coder 和新手在抱怨。”“有意思的是 r/Codex 也有同样的抱怨关于 GPT-5.5。”第三战场上甘岭战役的战略分析什么是上甘岭战役上甘岭战役1952年是抗美援朝战争中最惨烈的阵地战志愿军依托坑道工事顽强坚守以劣势装备对抗优势火力美军火力优势空中优势但无法突破志愿军的防御阵地结果志愿军成功守住阵地美军被迫停止进攻这场战役的特点防守方凭借意志和智慧抵御进攻方的火力优势双方伤亡惨重战况胶着最终防守方取得战略胜利大模型领域的上甘岭战役角色对应方特点进攻方志愿军式DeepSeek、Kimi、GLM技术突破、价格优势、开源策略、快速迭代防守方美军式Anthropic、OpenAI、Google生态优势、品牌忠诚、技术积淀、资本雄厚战场Agentic Coding、开发者工具Claude Code vs OpenCode vs Codex火力模型性能价格用户体验基准测试 API 价格工具集成进攻方攻势凌厉DeepSeek 的火力压制技术突破1.6T MoE、100 万上下文、MIT 开源价格优势比 Claude 便宜 100-500 倍开源策略模型权重公开社区可自行部署生态建设支持 Anthropic API 格式无缝迁移Kimi 的侧翼突破“Kimi K2.6 比 Opus 4.6 更高效近期 Opus 性能下降”“我用 Kimi K2.6 替代 Opus 4.6 三天了体验很好。”“$100/月 vs Claude Max $200/月性价比极高。”GLM 的本土防守“GLM 5.1 的效果和 Sonnet 4.7 差不多。”“Codex 5.5 现在非常棒。”“GLM 5 才开始有用5.1 比 5 有显著提升。”防守方坚守阵地Anthropic 的阵地优势生态优势Claude Code 工具链成熟品牌忠诚Max 用户长期付费习惯技术积淀Opus 系列的历史口碑4.5、4.6 曾是标杆资本雄厚Amazon、Google 投资烧得起钱OpenAI 的火力反击“GPT 5.5 的额度比 Claude 宽松得多。”“Codex 的免费额度都比 Claude Pro 的付费额度好。”“切换到 Codex 后恢复正常工作。”战况胶着谁占上风进攻方占优领域领域进攻方优势防守方劣势价格DeepSeek 便宜 100-500 倍Claude/GPT 价格高昂编程基准DeepSeek V4 Pro Max LiveCodeBench 93.5 第一Opus 88.8 略逊开源生态DeepSeek MIT 开源社区自由部署Claude/GPT 闭源上下文长度DeepSeek/Kimi 100 万 tokenClaude 200K、GPT 128K防守方占优领域领域防守方优势进攻方劣势Agentic 任务GPT-5.4 Terminal Bench 75.1、GDPval 1674DeepSeek 67.9、1554工具生态Claude Code 成熟稳定OpenCode 尚在发展易用性“Claude 太容易用了不需要动脑子”国产模型需要 Prompt Engineering推理能力GPT-5.4 IMOAnswerBench 91.4DeepSeek 89.8、Kimi 86.0战局演变用户心态的变化从单品牌忠诚到多模型组合用户的策略正在变化“同时用多个模块更好而不是依赖一个。”“Opus 用于协调Sonnet 是工人。”“用 Claude Code DeepSeek V4 Flash 组合。”“Gemini 有时能修其他模型修不了的 bug模型多样性更好。”从付费订阅到API 灵活调用“取消 Claude Max改用 API DeepSeek 组合。”“Codex 的 $100 plan 比 Claude Max $200 plan 更划算。”“DeepSeek Flash 的价格让我可以无限制测试。”从品牌粉丝到理性选择“我们都在供应商间循环跳 — 就是谁 screw up 最少的比赛。”“接下来呢切换到 GPT5.52 个月后又回 Anthropic”“AI 编程格局还在演变没人能确定长期选择。”战略预测谁将胜出短期预测2025年内进攻方将继续扩大优势DeepSeek V4 的开源生态将迅速发展价格优势将吸引大量开发者迁移Kimi、GLM 将继续提升性能防守方将调整策略Anthropic 可能调整价格或额度政策OpenAI 将继续强调生态优势双方都可能发布新版本修复问题中期预测2025-2026战场将分化低成本场景DeepSeek V4 Flash 将主导高端场景Claude/GPT 将保持优势开源生态DeepSeek 将成为主流企业客户多模型组合将成为常态期预测2026可能的结局进攻方胜利DeepSeek/Kimi/GLM 全面超越 Claude/GPT开源成为主流防守方胜利Anthropic/OpenAI 凭借生态和资本优势压制进攻方双方共存差异化竞争各占细分市场结语上甘岭战役的历史启示上甘岭战役告诉我们意志和智慧可以弥补火力劣势— DeepSeek 凭借开源和价格策略正在弥补技术差距防守方需要警惕阵地松动— Anthropic 的 Opus 4.7 问题显示即使是领先者也可能犯错战况胶着胜负未定— 当前阶段双方各有优势战况仍在演变用户是最终裁判— 开发者的迁移选择将决定最终胜负附录关键数据汇总DeepSeek V4 技术规格参数DeepSeek V4 ProDeepSeek V4 Flash总参数1.6T284B激活参数49B13B上下文长度1M1M最大输出384K384K架构MoEMoE许可证MITMITDeepSeek V4 价格人民币/百万 tokens项目V4 FlashV4 Pro输入缓存命中¥0.2¥1输入缓存未命中¥1¥12输出¥2¥24关键基准对比基准DeepSeek V4 Pro MaxOpus 4.6 MaxGPT-5.4胜者LiveCodeBench93.588.8-DeepSeek Codeforces3206-3168DeepSeek SWE Verified80.680.8-Opus 略胜Terminal Bench67.965.475.1GPT 本文数据来源DeepSeek V4 HuggingFace Model Card、DeepSeek API 文档、Reddit r/ClaudeCode 社区讨论。数据截止 2025年4月25日。模型能力会持续迭代建议关注最新评测。

如何零代码设计小米手表表盘：Mi-Create可视化工具完全指南

如何零代码设计小米手表表盘：Mi-Create可视化工具完全指南【免费下载链接】Mi-Create Unofficial watchface creator for Xiaomi wearables ~2021 and above 项目地址: https://gitcode.com/gh_mirrors/mi/Mi-Create 还在为找不到心仪的小米手表表盘而烦恼&…...

2026/4/26 2:17:22 阅读更多 →