1. 项目背景与问题定位在大型语言模型LLM的强化学习后训练Post-Training领域基于结果监督的强化学习Outcome-Supervised RL, OSRL已成为主流范式。其中Group Relative Policy OptimizationGRPO及其衍生算法通过token级别的裁剪机制取得了显著效果但我们在深入分析其训练动态时发现了一个根本性缺陷重要性采样Importance Sampling, IS比率在正负优势token间存在严重失衡。具体表现为对于负优势token预测效果比旧策略差的tokenIS权重分配符合预期token概率越高权重越小但对于正优势token预测效果优于旧策略的token权重分配却呈现反向模式高概率token获得更大权重低概率token被抑制这种不对称性导致两个严重后果低概率正优势token本应重点加强的更新信号被严重削弱已具有高概率的正优势token本应适度更新反而获得过度强化典型案例当旧策略概率为0.9而当前策略概率仅0.1时标准GRPO分配的IS权重仅为1/9导致关键token几乎无法获得有效更新2. 核心问题解析2.1 IS比率失衡的数学本质在传统PPO-Clip设计中IS比率定义为r_t(θ) π_θ(o_t) / π_θ_old(o_t)其中π_θ为当前策略π_θ_old为旧策略。在OSRL框架下同一响应内的所有token共享相同的优势值Â_t导致IS比率实际承担了token级权重分配的功能。通过三维可视化分析图3可以发现负优势区域Â_t 0权重从左上高旧概率/低新概率向右下递减符合预期正优势区域Â_t 0权重分配呈现反常的右上倾斜形成危险的自我强化循环2.2 失衡引发的训练病理这种权重错配会引发连锁反应熵崩溃Entropy Collapse高概率token不断自我强化导致输出多样性骤降早熟收敛低概率token无法得到充分训练模型陷入局部最优重复生成过度自信的token主导生成过程输出出现机械重复实验数据显示图1标准GRPO训练后期会出现测试准确率下降过拟合熵值快速衰减-40%重复率上升300%KL散度波动加剧3. ASPO解决方案设计3.1 核心创新非对称IS比率ASPO的核心改进在于对正优势token实施IS比率翻转当 Â_t 0 时 ^r_t π_θ_old(o_t)π_θ(o_t) / sg(π_θ(o_t)^2)其中sg(·)表示停止梯度操作。这一设计使得低概率token获得更大更新权重高概率token权重被适当抑制3.2 双重裁剪稳定机制由于比率翻转会改变极值点的分布我们引入改进的双重裁剪硬裁剪保留原始GRPO对|r_t - 1| ε的token屏蔽软裁剪对翻转后的极端比率3.0进行值裁剪但保留梯度这种混合机制既避免了梯度爆炸又确保滞后token能持续参与训练。3.3 梯度动态分析比较原始GRPO与ASPO的梯度表达式GRPO: ∇J ∝ (π_θ/π_θ_old) · ∇logπ_θ ASPO: ∇J ∝ (π_θ_old/π_θ) · ∇logπ_θ关键差异在于系数项的反转这使得ASPO的梯度与当前概率成反比——概率越低更新力度越大。4. 实现细节与调优4.1 训练配置基础模型DeepSeek-R1-Distill-Qwen-1.5B批量策略64 prompts → 16 responses/prompt → 32 mini-batch优化器AdamW (lr1e-6, β10.9, β20.95)裁剪阈值ε_low0.2, ε_high0.2KL惩罚β0.054.2 关键超参选择翻转阈值实验发现Â_t0时立即翻转效果最佳无需设置过渡区间软裁剪边界设定为3.0可覆盖99.7%的比率分布温度系数推理时T0.8平衡多样性与准确性5. 实验结果分析5.1 数学推理任务在AIME、AMC等6个数学基准测试中表1ASPO相对基线平均提升12.5%在AIME25上pass64达到70%创1.5B模型新纪录熵值维持在健康水平0.6-0.85.2 代码生成任务在LiveCodeBench v5/v6上表2avg8提升21%31.5 vs 26.0pass16达到46%超越同规模SOTA 8.2%重复率降低60%5.3 训练动态对比如图5所示ASPO展现出更平滑的熵衰减训练后期熵值稳定在0.5以上可控的重复率峰值仅0.015较GRPO降低2.5倍稳定的KL损失波动范围缩小70%6. 工程实践建议6.1 部署注意事项内存优化ASPO需缓存旧策略概率建议使用FP16存储节省40%显存并行计算将IS比率计算与优势估计解耦提升TPU利用率梯度检查点对超过2048 token的长序列启用recompute策略6.2 调优技巧渐进式翻转初期可设置Â_tδ才翻转δ从1.0线性降至0动态KL系数当entropy0.5时将β从0.05提升至0.1混合采样每5轮加入10%未翻转样本防止模式坍塌7. 扩展应用方向ASPO机制可延伸至多模态训练协调图像patch与文本token的更新平衡课程学习通过动态调整ε实现难度自适应分布式RL在actor-learner架构中减少策略滞后影响我们在后续实验中发现ASPO思想同样适用于语音合成中的phoneme级别强化视频生成的frame-level reward分配多智能体协作的credit assignment问题这种对微观更新权重的精细调控可能成为下一代RL算法的重要设计范式。