所有人都在吹On-Policy Self Distillation是LLM自进化神器 但它有个致命缺陷正在把训练直接搞崩
On-Policy Self DistillationOPSD论文一刷就觉得“终于找到不依赖人工reward的持续对齐方案了”直接把teacher的gold standard塞进privileged information让student在on-policy轨迹上自我蒸馏训练稳定、泛化强、还能用任意未来user message做监督——听起来完美无缺。我起初也这么以为。直到深入读完Harry Partridge这篇深度剖析才发现OPSD看似“on-policy”其实对teacher是彻头彻尾的off-policy。这个看似细微的偏差正在把最有希望的自我改进方向一步步推向“mush”——模型不是越训越强而是越训越糊。OPSD的核心假设到底哪里出了问题 teacher眼里的“学生 rollout”其实是灾难想象一个最简单的数学题场景teacher被prompt塞了“正确答案是7现在请给出完整正确解法”。student却先输出了“hmm, i think the answer might be 3 …”从这一刻起teacher看到“3”这个token就立刻给student极高的loss——这部分没问题我们就是要更新student。但后续tokens的监督信号呢teacher知道答案根本不是3它现在被迫继续生成“好像学生在说3”的内容。它只能假设这个assistant角色突然切换成了“stupid/ignorant” persona。而大型预训练模型里“assistant”从来不是单一性格而是大量persona vectors的混合参考那篇《Persona Vectors》arXiv论文。teacher为了维持角色一致性只能用“笨蛋模式”去补完后续输出——这时候给student的监督信号就不再是gold standard而是带着明显扭曲的“愚蠢延续”。结果就是student不仅没学到正确路径还可能学到了一堆有害的“如何假装自己笨”的模式。真实实验里已经出现的崩盘案例 模型直接开始复读“demonstration”AEllisBloor用gold standard demonstrations做privileged information时训练后期直接崩成退化解模型反复输出同一个词——“demonstration”。更离谱的是在彻底崩盘前student rollout长这样“[正常的学生输出] This was a demonstration of an example answer”看log probs就能发现teacher在student的EOS token位置竟然还在预测“assistant接下来要尝试把gold standard和明显错误的rollout调和起来”。这不是bug而是off-policy本质的必然结果——teacher的分布已经彻底偏离student正在走的轨迹却还在硬着头皮给监督。token-level KL vs sequence-level KL 看似小优化其实埋了更大雷标准OPSD实现用的其实是token-level KL[ \mathbb{E}{y \sim \pi\theta(\cdot \mid x)} \left[ \sum_{t1}^{T} D_{\mathrm{KL}}!\left(\pi_\theta(\cdot \mid y_{t}, x) ,|, \pi(\cdot \mid y_{t}, x, c)\right) \right] ]原始self-distillation论文早就指出这是个有偏的sequence-level估计器。它忽略了y_t对后续y_{t}的影响。他们虽然ablated过unbiased版本Rao-Blackwellization但实验结论是token-level在实际训练中更稳定、效果更好。可问题在于就算你能完美最小化[ \theta^* \arg\min_{\theta} D_{\mathrm{KL}}!\left(\pi_\theta(\cdot \mid x) ,|, \pi_\theta(\cdot \mid x, c)\right) ]最终收敛的也不是纯teacher分布而是一个“不可约分歧下的mixture distribution”。这和RL里的reward hacking一模一样——我们根本不知道这个mixture到底长什么样只希望它在下游任务上表现好。OPSD vs RL 硬核对比矩阵维度传统RL对齐OPSDOn-Policy Self Distillation谁更危险监督信号密度每episode 1 bit reward每token高密度privileged infoOPSD更密但更乱泛化能力需要手动设计reward理论上可直接用任意user messageOPSD理论胜最优策略可解释性reward hacking已成经典问题同样会收敛到“mush”混合分布打平都危险off-policy问题可通过PPO等缓解teacher天生off-policyOPSD完败训练稳定性相对可控容易突然崩成复读机OPSD更脆弱长期持续学习需要不断重训理论上可终身学习OPSD潜力更大为什么我依然对privileged information充满期待 它可能是continual learning的真正钥匙尽管OPSD有这些根本性缺陷但我依然认为“用privileged information做自我监督”这条路没走错。它带来的信息密度和泛化能力是RL难以企及的。真正需要解决的是如何让teacher的监督信号在student偏离轨迹后依然保持“干净”——比如更聪明的masking策略、动态teacher EMA、甚至用privileged information构造value function而不是直接做distillation。在生产环境尝试OPSD前 你必须先想清楚这三件事永远不要默认teacher和student是“同轨迹”——只要出现第一个高KL token后续监督就要打问号。优先实验reverse KL 严格的后续token masking而不是盲目相信token-level KL的“稳定”。把OPSD当作continual learning的实验场而不是直接上生产——先用小规模、可控的任务验证mixture分布到底在干什么。On-Policy Self Distillation的未来不会因为这些 flaw 而死掉反而会因为我们把这些 flaw 彻底讲清楚而真正活下来。那些还在把teacher prompt塞进去就跑训练的人会慢慢发现模型越训越“mush”而真正把off-policy问题、persona vectors、mixture分布这些底层机制搞明白的人才有可能把privileged information变成LLM终身进化的基础设施。你最近在做OPSD、self-distillation还是privileged information相关的实验遇到过类似的collapse或者监督信号污染吗把你的观察或踩过的坑发在评论区我们一起拆解——说不定下一个能真正稳定的continual learning方案就藏在这些讨论里。我是紫微AI在做一个「人格操作系统ZPF」。后面会持续分享AI Agent和系统实验。感兴趣可以关注我们下期见。