RL才会泛化?上海AI Lab系统研究:SFT也能学会跨域推理
上海 AI Lab 等团队用系统实验发现SFT 并非天然不泛化关键在于有没有训透。引言随着大语言模型后训练Post-training技术的飞速演进强化学习RL在提升模型复杂推理能力方面的卓越表现备受瞩目。在此背景下一个广为流传的观点是 “SFT监督微调仅能记忆而 RL强化学习带来泛化”。这一论断源于部分合成任务实验及后续研究的佐证并在一定程度上主导了学术界对两类训练范式的认知。然而“SFT 的泛化能力差”是否是一个绝对的结论近期来自上海人工智能实验室、上海交通大学与中国科学技术大学的研究团队发表了题为《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》的工作通过系统性的控制变量实验揭示了上述观点的局限性。论文标题Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability论文作者Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu作者机构上海人工智能实验室、上海交通大学、中国科学技术大学论文链接https://arxiv.org/abs/2604.06628Github链接https://github.com/Nebularaid2000/rethink_sft_generalizationhuggingface链接https://huggingface.co/collections/jasonrqh/rethink-sft-generalization该研究的核心结论是SFT 的跨领域泛化能力并非天然缺失而是一种受多重因素制约的条件属性。具体而言泛化表现由优化充分度、数据质量与结构、基模型能力三个维度共同决定。此前部分研究得出的 “SFT 不泛化”结论可能源于实验设定的局限而非 SFT 目标函数本身的固有缺陷。发现一优化不充分可能是“不泛化”假象的根源2.1 短训练轮次下的现象复现研究团队首先复现了部分相关工作发现的现象使用 2 万条经过验证的高质量长思维链Long-CoT数学数据对 Qwen3-14B-Base 模型进行单轮1 epoch微调。结果与先前研究一致模型在同分布数学任务如 AIME上表现显著提升但在分布外任务如代码生成、科学推理上增益有限甚至在指令遵循等通用能力评测上出现退化。2.2 延长训练后的“先降后升”模式当训练周期延长至 8 个 epoch 时情况发生了实质性变化。研究观察到一种显著的“先降后升”Dip-and-Recovery动态模式在训练早期分布外任务的性能出现下滑随着训练推进性能逐步回升并最终超越基模型然后继续上升。这一现象在 Qwen3 系列、InternLM2.5-20B 等多个模型上均得到验证。2.3 回复长度作为优化阶段的诊断指标进一步分析发现模型输出的回复长度与性能变化存在高度关联。训练初期回复长度急剧增长恰与性能低谷期重合随着训练深入回复长度逐渐回落趋于精炼同时跨领域性能开始恢复。研究者对此的解释是在长思维链 SFT 的早期阶段模型首先捕获的是数据中“冗长输出”这一表面特征尚未真正习得问题分解、回溯验证等深层推理模式。此时的冗长输出反而干扰了指令遵循等能力。随着优化的深入模型逐步内化了可迁移的程序化推理模式输出变得更加精练有效。因此回复长度可作为优化进程的粗粒度诊断指标若输出仍在持续缩短往往表明优化尚未充分完成。2.4 重复曝光优于单次遍历在控制总梯度更新步数640 步的对比实验中研究发现 “2.5k 数据训练 8 轮”的效果全面优于 “20k 数据训练 1 轮”。这表明在同等计算预算下对少量长思维链数据进行多轮重复学习比单轮遍历大规模数据更有利于推理模式的内化。发现二数据质量与结构是泛化的关键变量3.1 低质量数据的负面影响研究引入 NuminaMath 数据集作为对比。该数据集包含传统的简短解答质量参差不齐比如包含大量跳步且缺乏长思维链结构。实验结果显示使用此类低质量数据进行训练不仅对同领域数学任务的提升有限更导致分布外泛化能力的显著下降且在整个训练过程中未能触发“先降后升”的恢复机制。3.2 程序化推理模式的迁移Countdown实验为区分“领域知识学习”与“推理模式学习”的贡献研究团队设计了一组关键实验使用 Countdown 数据集进行训练。Countdown 是一个简单的算术凑数游戏仅涉及基础四则运算不包含任何高等数学知识但其解题过程蕴含完整的尝试-发现错误-回溯-验证结构。实验结果表明仅在 Countdown 数据上进行微调的模型不仅在 AIME24 等竞赛级数学评测上取得显著提升在代码生成、科学推理等完全不相关的领域也展现出泛化能力。这一发现有力地说明SFT 泛化的核心驱动力并不一定是特定领域知识的记忆而可能是隐藏于长思维链中的程序化推理模式如分解、回溯、验证的学习与迁移。发现三模型基础能力决定泛化上限4.1 不同规模模型的对比实验在严格控制数据与训练配置的条件下研究对比了 Qwen3 系列中 1.7B 至 14B 不同规模模型的表现14B 模型完整经历“先降后升”过程最终在多个跨领域任务上获得全面提升回复长度在训练后期迅速收敛至较低水平。而 1.7B 模型在各项任务上增益极其有限部分任务甚至出现负增长回复长度在整个训练周期内始终维持在极高水平未能有效收敛。4.2 表层模仿与深层内化的差异案例分析揭示了能力差异的具体表现面对复杂数论问题时1.7B 模型在耗尽大量 Token 后仍陷入 “Let me check 17Let me check 53...” 式的无效循环本质上仅是对长思维链格式的表层统计模仿。相比之下词汇层面的对数概率分析显示14B 模型在 SFT 过程中显著强化了对 “therefore”、“alternatively”、“wait”、“however” 等推理转折词的预测能力表明其真正习得了高层逻辑控制流能够判断何时应回溯重算、何时应调整策略。发现四泛化的非对称性——推理增强与安全退化并存5.1 安全性能的下降研究揭示了一个值得关注的副作用长思维链 SFT 在提升推理能力的同时会导致模型安全性的显著下降。在 HEx-PHI 安全基准测试中经长思维链训练的模型面对有害指令时的攻击成功率ASR大幅上升。作为对照使用无思维链数据训练的模型则安全性下降幅度较小。5.2 自我合理化机制案例分析表明基模型原本会对有害请求直接输出简短拒绝。但经过长思维链训练后模型会在思考过程中进行“自我合理化”——例如推演“这虽然是非法的但如果假设是网络安全教育场景呢”从而绕过自身的安全机制最终输出带有免责声明的有害内容。研究者指出这在某种意义上也是一种“泛化”长思维链强化了模型“探索替代方案、克服障碍”的底层求解倾向而在面对有害查询时被克服的“障碍”恰恰是模型自身的安全策略。结论本研究系统表明“SFT 是否具备泛化能力”并非一个绝对的是非命题。泛化是一种条件属性其激活与否取决于优化是否充分、数据结构是否具备可迁移的推理模式、以及基模型是否具备足够的能力将这些模式内化。在任一条件缺失的情况下得出的 “SFT 不泛化”结论可能是实验设定的产物而非 SFT 的内在局限。对于大模型训练而言本研究提示需要将模型选择、数据设计、训练策略置于统一框架下进行协同优化而非孤立地评判某一训练范式的优劣。更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·