那个靠自学封神的DeepSeek，亲手把强化学习踢下了C位

张

张建站

2026/4/28 13:26:22

10分钟阅读

朋友们事情正在起变化。去年DeepSeek R1发布的时候整个AI圈都在为两个字沸腾——强化学习。那篇后来登上《自然》封面的论文讲了一个近乎浪漫的故事他们搞了个叫R1-Zero的模型不给它任何人类解题范例只告诉它最终答案对不对让它自己通过大量试错去摸索解题思路。结果这哥们不仅学会了还在解题过程中自己涌现出了类似人类“顿悟”的自我反思和自我修正能力。不需要人类手把手教自己就能“想明白”。这在当时是颠覆性的。全球的研究机构和开发者都疯了掀起了复现R1的热潮。GRPOR1用的强化学习算法成了圈子里最时髦的词。然后时间来到2026年4月。DeepSeek V4发布了。我翻来覆去读了那篇技术报告好几遍发现一个让人头皮发麻的细节——在V4的最终训练流程里强化学习消失了。不是被弱化了不是退居二线了是直接从这个环节里被拿掉了。取而代之的是一套叫OPD的东西全称On-Policy Distillation翻译过来叫“在策略蒸馏”。这名字拗口得让人没兴趣点开看但正是这个东西暴露了V4真正的野心。R1的神话在V4这里画了个句号先别误会我的意思。RL没有被彻底抛弃。V4的做法是在训练第一阶段先为数学、编程、Agent、指令遵循等不同领域分别独立训练了一批专家模型。这个阶段RLGRPO依然是主力。每个专家模型都靠强化学习把自己那块领域吃透做到极致。这就像请一群天才去闭关修行每人在自己山头苦练一门绝技。等这批专家全部出关问题来了怎么把他们揉成一个全才以往的做法大致有两种。一种是直接把权重合并结果往往是各个领域的能力在参数层面打架到最后哪一门都不灵。另一种是搞混合RL让一个模型同时在所有领域数据上做强化学习各种能力之间的梯度互相撕扯训练极不稳定调参调到怀疑人生。V4团队选的路很绝让这批专家当老师直接去教一个学生。这个学生就是最终发布的DeepSeek V4模型。它不再像R1那样自己摸黑探索而是坐在教室里听十个各怀绝技的老师轮流上课。老师在黑板上写什么它就学什么——准确地说是让学生的输出概率分布尽量靠近老师的输出概率分布。这就是OPD。它把最困难的多能力融合问题从“让模型自己探索”变成了“让模型去学习”。前者是冒险后者是工程。那个拗口的OPD到底在做什么报告里给了一个公式有意思的是这次他们用的是反向KL散度reverse KL divergence来衡量学生和老师之间的差距。反向KL的核心特点是它倾向于惩罚学生对老师的高概率答案置若罔闻但对学生自己稳定输出的低概率内容相对宽容。这种特性让最终模型在继承老师核心能力的同时保留着自己的生成风格。更关键的是他们坚持用全词汇表的logit蒸馏而不是某些同类工作里为了省资源使用的逐Token近似估计。V4团队直言那种近似估计的梯度方差太大、训练不稳定在多专家融合时风险不可控。为了落地这件事他们在工程上做了大量外人看不到的脏活累活所有老师权重存进集中式分布式存储、只缓存老师最后一层隐藏状态而不缓存完整logits、按老师索引对训练样本排序以降低显存占用……这些东西技术报告里一笔带过但对于真正做大模型训练的人来说看看那背后对极致效率的追求吧。从“探索”到“融合”哲学变了R1时代的哲学是探索。给模型一个目标让它自己去试错去碰壁去在黑暗中找到那条通往正确答案的路。这条路走通了我们惊叹于模型涌现出来的能力。V4时代的哲学是融合。先把探索的代价限定在可控的单一领域专家模型内部。然后把复杂的多能力整合交给更稳定、更可控的蒸馏技术。这不是技术退步是另一种维度的成熟。想想看当模型能力越来越强、需要覆盖的领域越来越广直接在大模型上做端到端RL的成本和风险是指数级上升的。而“分领域专才统一蒸馏”这条路可拆分、可迭代、可调试——这些在软件工程领域早被证明极其重要的品质正在大模型训练中慢慢变成刚需。百万Token之外真正值得关注的东西V4发布后大多数人的注意力被“100万Token上下文”“推理计算量降到V3.2的27%”这些数字吸走了。这些当然值得兴奋但它们属于技术参数的线性进步——虽然极其惊艳却在意料之中。而OPD替代RL成为最终模型训练的主力代表的是一种方法和哲学的转变。这大概也是DeepSeek这家公司有意思的地方。R1靠强化学习封神V4却在最终阶段亲手把它从C位踢到了替补席。他们好像对“自己曾经创造的神话”没什么执念该换的时候毫不留恋。搞研究需要浪漫搞工程需要务实。V4的报告把这两件事分得很清楚。强化学习依然在——它只是去了它更该待的地方专门负责培养领域专家。而最终那个站在台前的统一模型是靠蒸馏学出来的不是靠自己摸索出来的。这或许才是V4最被低估的王炸。不是某一个技术参数有多高而是他们想明白了一件事当模型走到万亿参数这个量级把不同专家的本事安全、高效、稳定地融合在一起可能比从头造一个全知全能的神重要得多。所以你怎么看这件事是觉得RL被边缘化了很可惜还是觉得这种“专才蒸馏”的路才是未来欢迎在评论区聊聊。

隧道掘进机市场：预计2032年将达到43.43亿美元

QYResearch调研显示，2025年全球隧道掘进机市场规模大约为31.13亿美元，预计2032年将达到43.43亿美元，2026-2032期间年复合增长率（CAGR）为5.0%。隧道掘进机（TBM）是集机、电、液、光等技术于一体的…...

2026/4/28 13:20:24 阅读更多 →

别再写for循环了！用Java 8 Stream的filter、map、flatMap重构你的业务代码（附实战案例）

Java 8 Stream重构指南：用filter、map和flatMap告别繁琐循环在Java开发中，我们经常需要处理各种集合数据。传统的for循环虽然直观，但随着业务逻辑复杂度的提升，代码往往会变得冗长且难以维护。Java 8引入的Stream API为我们提供了…...

2026/4/28 13:18:41 阅读更多 →

Windows系统优化神器：3分钟告别臃肿，让你的Windows重获新生

Windows系统优化神器：3分钟告别臃肿，让你的Windows重获新生【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to …...

2026/4/28 13:12:42 阅读更多 →