所有人都在吹On-Policy Self Distillation是LLM自进化神器但它有个致命缺陷正在把训练直接搞崩

张

张建站

2026/5/29 4:59:29

10分钟阅读

所有人都在吹On-Policy Self Distillation是LLM自进化神器但它有个致命缺陷正在把训练直接搞崩

On-Policy Self DistillationOPSD论文一刷就觉得“终于找到不依赖人工reward的持续对齐方案了”直接把teacher的gold standard塞进privileged information让student在on-policy轨迹上自我蒸馏训练稳定、泛化强、还能用任意未来user message做监督——听起来完美无缺。我起初也这么以为。直到深入读完Harry Partridge这篇深度剖析才发现OPSD看似“on-policy”其实对teacher是彻头彻尾的off-policy。这个看似细微的偏差正在把最有希望的自我改进方向一步步推向“mush”——模型不是越训越强而是越训越糊。OPSD的核心假设到底哪里出了问题 teacher眼里的“学生 rollout”其实是灾难想象一个最简单的数学题场景teacher被prompt塞了“正确答案是7现在请给出完整正确解法”。student却先输出了“hmm, i think the answer might be 3 …”从这一刻起teacher看到“3”这个token就立刻给student极高的loss——这部分没问题我们就是要更新student。但后续tokens的监督信号呢teacher知道答案根本不是3它现在被迫继续生成“好像学生在说3”的内容。它只能假设这个assistant角色突然切换成了“stupid/ignorant” persona。而大型预训练模型里“assistant”从来不是单一性格而是大量persona vectors的混合参考那篇《Persona Vectors》arXiv论文。teacher为了维持角色一致性只能用“笨蛋模式”去补完后续输出——这时候给student的监督信号就不再是gold standard而是带着明显扭曲的“愚蠢延续”。结果就是student不仅没学到正确路径还可能学到了一堆有害的“如何假装自己笨”的模式。真实实验里已经出现的崩盘案例模型直接开始复读“demonstration”AEllisBloor用gold standard demonstrations做privileged information时训练后期直接崩成退化解模型反复输出同一个词——“demonstration”。更离谱的是在彻底崩盘前student rollout长这样“[正常的学生输出] This was a demonstration of an example answer”看log probs就能发现teacher在student的EOS token位置竟然还在预测“assistant接下来要尝试把gold standard和明显错误的rollout调和起来”。这不是bug而是off-policy本质的必然结果——teacher的分布已经彻底偏离student正在走的轨迹却还在硬着头皮给监督。token-level KL vs sequence-level KL 看似小优化其实埋了更大雷标准OPSD实现用的其实是token-level KL[ \mathbb{E}{y \sim \pi\theta(\cdot \mid x)} \left[ \sum_{t1}^{T} D_{\mathrm{KL}}!\left(\pi_\theta(\cdot \mid y_{t}, x) ,|, \pi(\cdot \mid y_{t}, x, c)\right) \right] ]原始self-distillation论文早就指出这是个有偏的sequence-level估计器。它忽略了y_t对后续y_{t}的影响。他们虽然ablated过unbiased版本Rao-Blackwellization但实验结论是token-level在实际训练中更稳定、效果更好。可问题在于就算你能完美最小化[ \theta^* \arg\min_{\theta} D_{\mathrm{KL}}!\left(\pi_\theta(\cdot \mid x) ,|, \pi_\theta(\cdot \mid x, c)\right) ]最终收敛的也不是纯teacher分布而是一个“不可约分歧下的mixture distribution”。这和RL里的reward hacking一模一样——我们根本不知道这个mixture到底长什么样只希望它在下游任务上表现好。OPSD vs RL 硬核对比矩阵维度传统RL对齐OPSDOn-Policy Self Distillation谁更危险监督信号密度每episode 1 bit reward每token高密度privileged infoOPSD更密但更乱泛化能力需要手动设计reward理论上可直接用任意user messageOPSD理论胜最优策略可解释性reward hacking已成经典问题同样会收敛到“mush”混合分布打平都危险off-policy问题可通过PPO等缓解teacher天生off-policyOPSD完败训练稳定性相对可控容易突然崩成复读机OPSD更脆弱长期持续学习需要不断重训理论上可终身学习OPSD潜力更大为什么我依然对privileged information充满期待它可能是continual learning的真正钥匙尽管OPSD有这些根本性缺陷但我依然认为“用privileged information做自我监督”这条路没走错。它带来的信息密度和泛化能力是RL难以企及的。真正需要解决的是如何让teacher的监督信号在student偏离轨迹后依然保持“干净”——比如更聪明的masking策略、动态teacher EMA、甚至用privileged information构造value function而不是直接做distillation。在生产环境尝试OPSD前你必须先想清楚这三件事永远不要默认teacher和student是“同轨迹”——只要出现第一个高KL token后续监督就要打问号。优先实验reverse KL 严格的后续token masking而不是盲目相信token-level KL的“稳定”。把OPSD当作continual learning的实验场而不是直接上生产——先用小规模、可控的任务验证mixture分布到底在干什么。On-Policy Self Distillation的未来不会因为这些 flaw 而死掉反而会因为我们把这些 flaw 彻底讲清楚而真正活下来。那些还在把teacher prompt塞进去就跑训练的人会慢慢发现模型越训越“mush”而真正把off-policy问题、persona vectors、mixture分布这些底层机制搞明白的人才有可能把privileged information变成LLM终身进化的基础设施。你最近在做OPSD、self-distillation还是privileged information相关的实验遇到过类似的collapse或者监督信号污染吗把你的观察或踩过的坑发在评论区我们一起拆解——说不定下一个能真正稳定的continual learning方案就藏在这些讨论里。我是紫微AI在做一个「人格操作系统ZPF」。后面会持续分享AI Agent和系统实验。感兴趣可以关注我们下期见。

当爬虫遇到TikTok滑块：一份给开发者的verifyV2避坑指南与调试心得

破解TikTok滑块验证码的工程实践：从调试到优化的全链路指南滑块验证码已经成为现代网络应用中常见的人机验证手段，而TikTok作为全球领先的短视频平台，其滑块验证系统verifyV2在设计上尤为复杂。本文将从一个工程师的视角，分享在…...

2026/5/28 11:46:48 阅读更多 →

利用SDMatte为教育视频制作互动素材：快速生成无背景动画元素

利用SDMatte为教育视频制作互动素材：快速生成无背景动画元素 1. 教育视频制作的素材挑战在线教育行业近年来呈现爆发式增长，据行业报告显示，2023年全球在线教育市场规模已突破3500亿美元。然而，高质量教育视频的制作却面临着一…...

2026/5/12 15:14:28 阅读更多 →

Libre Barcode：终极免费条码字体解决方案，一键生成专业级条码

Libre Barcode：终极免费条码字体解决方案，一键生成专业级条码【免费下载链接】librebarcode Libre Barcode: barcode fonts for various barcode standards. 项目地址: https://gitcode.com/gh_mirrors/li/librebarcode Libre Barcode是一个革命…...

2026/5/25 7:28:26 阅读更多 →

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…...

2026/5/26 6:08:07 阅读更多 →

通过curl命令调试Taotoken大模型API，快速排查接入问题

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过curl命令调试Taotoken大模型API，快速排查接入问题在接入大模型服务时，直接使用HTTP请求进行调试是一种…...

2026/5/26 6:15:52 阅读更多 →

Kubernetes自定义资源：扩展Kubernetes API的能力

Kubernetes自定义资源：扩展Kubernetes API的能力一、Kubernetes自定义资源概述 1.1 自定义资源的定义 Kubernetes自定义资源（Custom Resource，CR）是指用户自定义的资源类型，它扩展了Kubernetes API，允许用…...

2026/5/27 21:40:10 阅读更多 →

Codeforces Round 1057

【打得太糖了】Codeforces Round 1057 (Div. 2) solve 3 题 https://www.bilibili.com/video/BV1Gi4nzYE66/ 【Codeforces Round 1057 (Div. 2)实况】好久没打cf了，只会A-D https://www.bilibili.com/video/BV12q4xzMEy5/ 憧憬成为 Master 第 29 集 —— 反向冲分 (…...

2026/5/27 10:36:27 阅读更多 →