这项由清华大学自动化系与腾讯大模型部门联合开展的研究以预印本形式发布于2026年5月7日论文编号为arXiv:2605.06139题为《Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex》。感兴趣的读者可通过该编号在arXiv平台查阅完整原文。近年来大语言模型比如各种AI聊天助手的能力突飞猛进背后的一个关键秘诀就是用可验证的奖励来做强化学习训练——业内简称RLVR。说白了就是让AI模型反复尝试解题答对了给奖励答错了不给然后根据这些奖励信号调整模型内部的参数让它越来越擅长推理和解题。这种方法已经成为训练顶尖推理型AI的标配流程。然而一个根本性的问题一直隐藏在水面之下主流的训练算法比如广泛使用的GRPOGroup Relative Policy Optimization群体相对策略优化究竟在做什么它们的内部数学逻辑是否是最优的这项研究的出发点正是要撕开这层包装看清楚里面的真实机制然后问一个更进一步的问题既然我们知道了它在做什么能不能做得更好研究团队给出的答案是肯定的他们提出了一种名为**列表式策略优化Listwise Policy Optimization简称LPO**的新方法在多种推理任务和多种规模的AI模型上都取得了比主流基准方法更好的训练效果同时训练过程更稳定生成答案的多样性也得到了更好的保护。一、现有训练方法的核心逻辑群体打分相对比较要理解这项研究的突破先得搞清楚现有的训练方法是怎么运作的。以GRPO为代表的主流方法核心操作是这样的给AI模型一道题让它一口气生成一组答案比如8个然后用一个验证器比如数学题的标准答案给每个答案打分区分出哪些答对了、哪些答错了接着计算出每个答案相对于这组答案平均水平的优势分数Advantage最后根据这些优势分数来调整模型参数让模型更倾向于产生高分答案。不同的算法变体主要区别在于怎么计算这个优势分数。有的算法如GRPO会把每个答案的奖励减去这组答案的平均奖励再除以标准差有的算法如Dr.GRPO只减去平均奖励有的算法如MaxRL则用平均奖励来做除数。这些差异看起来像是调味料的细微区别但它们产生的效果其实大相径庭。研究团队花了大量精力来分析这些做法的本质发现了一个隐藏在所有这些算法背后的统一数学结构。二、解密隐藏的几何结构所有主流算法都在做同一件事研究团队引入了一个新的视角**列表式分布Listwise Distribution**。简单来说对于一道题生成的那一组答案可以用一个概率向量来表示当前模型对这组答案的偏好程度——每个答案被赋予一个概率值所有概率加起来等于1。这个概率向量就躺在一个数学空间里叫做响应单纯形Response Simplex。这个概念类似于一个赛马赌注分配表。假设有8匹马参赛你根据当前判断给每匹马分配了一定比例的赌注这8个比例加起来恰好是100%这就构成了一个分配向量对应数学上的概率单纯形。在这个框架下研究团队通过严谨的数学推导发现**现有的所有主流群体式策略梯度算法都在隐含地做同一件事**——它们首先根据每个答案的奖励构建出一个目标分布Target Distribution这个分布是奖励的softmax函数奖励越高的答案被赋予越高的概率然后通过标准的梯度更新把当前模型的偏好分布往这个目标分布方向拉拢。更具体地说不同算法的优势分数公式本质上都在隐含地定义一个目标分布其形式是softmax(R/τ)其中R是各答案的奖励τ是一个温度参数控制这个目标分布有多尖锐或平滑。GRPO的τ等于这组答案奖励的标准差Dr.GRPO的τ接近1MaxRL的τ等于这组答案的平均奖励。本质上不同算法的区别主要体现在这个温度参数τ的不同而不是根本逻辑的不同。研究团队进一步证明标准的策略梯度更新在数学上等价于在当前策略处对反向KL散度最小化做一阶近似。换句话说现有算法并不是在精确地执行某个最优操作而是对一个更理想操作的**粗略近似**并且这个近似只在模型恰好处于当前正在采样的状态时才是精确的——一旦模型经过几轮更新偏离了采样时的状态近似误差就会越来越大训练的效果就会打折扣。三、为何精确比近似更好从大概往那边走到精准瞄准目标现有算法的这种近似性带来一个实际问题随着训练迭代模型参数逐渐更新每次更新结束时的模型与最初采样时的模型之间产生了偏移off-policy drift。研究团队通过数学推导量化了这个近似误差发现误差与偏移程度成正比——模型偏离采样分布越远梯度方向的误差越大训练信号就越不准确。这就像导航。现有算法相当于在出发前看了一眼地图然后凭记忆往大致方向走走的时间越长偏差越大。而LPO要做的是在每一步都精准计算当前位置到目标的方向始终保持准确。研究团队的方案是既然目标分布和当前的模型分布都可以精确计算出来因为只有有限的K个采样答案为什么不直接精确地执行投影操作而要满足于粗糙的近似呢这个洞察是LPO的核心出发点。在有限的答案集合上数学上困难的积分变成了有限求和一切都可以精确计算不再需要任何近似。四、LPO的两步舞先定目标再精准投影LPO将每轮训练迭代分解为两个清晰分离的步骤就像做菜时先确认要做什么菜再按照食谱执行一样逻辑分明。第一步是**构建目标分布**。研究团队为每道题定义了一个局部代理优化目标在当前这组采样答案上找到一个概率分布使得期望奖励最大同时不要距离当前模型的分布太远这是信任区域约束。这个优化问题有解析解即列表式Gibbs目标其数学形式为softmax(R/τ s_t)其中s_t是当前模型对每个答案的对数偏好比值。在当前模型与采样模型相同的理想情况下这个目标退化为softmax(R/τ)与现有算法的隐含目标完全吻合。这一步的理论意义在于τ不再是某种归一化副产品而是一个有明确含义的**信任区域参数**τ越小目标分布越尖锐越集中于奖励最高的答案τ越大目标分布越平滑越接近当前模型的分布允许更大的探索空间。第二步是**精确执行投影**。有了目标分布w*和当前模型在答案集合上的列表式分布P_θ接下来就是最小化两者之间的距离让模型参数往目标方向精确靠拢。这个投影操作可以选用不同的距离度量研究团队实现了两种前向KL散度Forward KL和反向KL散度Reverse KL。前向KL版本LPO_fwd的梯度系数是P_{θ,k} - w*_k即当前模型对第k个答案的概率与目标概率之差。反向KL版本LPO_rev的梯度系数是P_{θ,k} × (d_k - d)其中d_k是当前模型logit与目标logit的差值d是加权平均差值。五、精确投影带来的数学礼物三个天然优良性质精确地在响应单纯形上执行投影操作带来了几个非常优良的数学性质这些性质是现有近似方法所不具备的。研究团队证明前向KL版本的梯度系数c_k满足三条精良性质。首先是**有界性**每个系数的绝对值不超过1这意味着梯度更新的幅度被天然限制在一个范围内不会出现梯度爆炸。其次是**零和性**所有系数加起来恰好等于0这意味着提升某些答案概率的同时必然压低其他答案的概率形成一种自动平衡。这个零和性质等价于策略梯度中的控制变量技巧能有效降低梯度方差让训练更稳定。第三是**自校正性**当当前模型的分布P_θ趋近于目标分布w*时所有梯度系数自然趋向于0训练自然收敛不需要额外的停止条件。更重要的是研究团队证明了LPO具有**单调改进保证**只要投影步骤执行得足够准确每轮迭代后模型在这组答案上的期望奖励一定不会降低且严格改进的条件是当前分布与目标分布不相同。这个理论保证给算法奠定了坚实的数学基础而现有算法并没有类似的保证。此外研究团队还证明了前向KL的**模式覆盖性**如果目标分布给某个答案赋予了足够高的概率那么投影后的模型分布对这个答案的概率也有一个可量化的正下界。这意味着前向KL版本会主动保护所有高价值答案的可能性防止模型过度集中到单一答案而忽略其他有效解法。六、反向KL的特殊性质隐含的熵正则化反向KL版本LPO_rev有一个特别有趣的等价性。研究团队证明最小化反向KL散度D_KL(P_θ || w*)等价于最大化代理目标J(P_θ)而这个目标可以分解为H(P_θ) Σ_k P_{θ,k} × φ_k其中H(P_θ)是当前列表式分布的熵值φ_k是目标logit。这意味着LPO_rev的训练目标自然地包含了一个**熵奖励项**鼓励模型在答案集合上保持多样性防止过度集中。这与最大熵强化学习的精神完全一致但在LPO框架下是从几何结构中自然涌现的而非人为添加的额外项。反向KL版本还有一个完美的理论连接在当前模型恰好等于采样模型的在线情况下LPO_rev的梯度与标准策略梯度即现有GRPO类算法的梯度完全一致。这个等价性提供了一个重要的自洽检验同时也解释了为什么实验中在完全在线的训练设置下LPO_rev的曲线与GRPO几乎重合。七、实验验证四种推理任务多个模型家族的全面测试研究团队在四类代表性推理任务上对LPO进行了系统评测涵盖了逻辑推理、数学推理、编程和多模态几何推理。在逻辑推理方面他们使用了倒计时数字游戏——给定几个数字和基本算术运算组合出目标值。训练数据取自Countdown-34数据集的2000道题用Qwen3-4B-Base模型以及DeepSeek、Llama、Mistral等不同家族的模型进行实验。在数学推理方面他们在包含7500道数学竞赛题的MATH数据集上分别训练Qwen3-1.7B-Base和Qwen3-8B-Base模型并在AIME24、AIME25、AMC23、MATH500、Minerva Math和OlympiadBench等多个权威评测基准上进行评估。此外还将Qwen3-14B-Base模型在更大规模的Polaris数据集约5.3万道题上进行了可扩展性验证。在编程任务方面他们使用PRIME代码数据集的2.53万道编程竞赛题训练Qwen3-1.7B-Base模型并在1000道保留的验证题上评估。在几何推理方面使用需要理解几何图形的Geometry3k数据集训练Qwen2.5-VL-3B-Instruct多模态模型。实验对比的基准算法是GRPO、Dr.GRPO和MaxRL三种代表性方法。为了保证比较的公平性研究团队特意让LPO的两个变体LPO_fwd和LPO_rev使用与对应基准算法完全相同的温度参数τ确保任何性能差异都来自精确投影本身而非温度调节。八、实验结果更准、更稳、更多样训练效果上LPO在配对温度设置下一致优于对应的基准算法。在Pass1精度每次采样的平均正确率方面LPO_fwd在15个实验设置中有13个优于基准LPO_rev同样有13个优于基准。在Passk精度多次采样中至少一次答对的概率方面LPO_fwd在15个设置中全部15个优于基准LPO_rev有11个优于基准。这些一致性的提升表明用精确的列表式投影替代一阶近似确实是一个普遍有效的改进。在可扩展性验证中用Qwen3-14B-Base在Polaris大数据集上的实验显示LPO_fwd仅需70步就能达到GRPO训练200步才能达到的峰值水平展现出显著更高的样本效率。在训练动态方面实验记录了三个关键指标的变化曲线答案熵衡量模型输出多样性、梯度范数衡量参数更新幅度和答案长度。答案熵方面LPO的两个变体始终保持比基准更高的熵值说明LPO能有效防止模型答案多样性坍塌——即模型越训越僵化、只会用一种套路解题的问题。LPO_rev对应最大熵目标LPO_fwd体现模式覆盖特性两者都有助于维持探索的多样性这也直接解释了为什么Passk改进尤为突出。梯度范数方面LPO变体展示出更低、更平稳的梯度范数与理论预测完全吻合——精确投影赋予的有界性和零和性确实带来了更稳定的优化过程。答案长度方面LPO趋向于生成更长的答案这通常意味着更详细的推理链条与LPO鼓励更广泛探索的特性相符。LPO_fwd生成的答案尤其长与其模式覆盖性质一致。九、关键消融实验列表式投影的核心作用为了验证精确列表式投影本身而非目标设计才是性能提升的关键研究团队做了一个重要的消融实验保持目标分布w*不变但把列表式投影替换为传统的**逐点投影**Pointwise Projection。逐点投影的做法来自经典强化学习算法MPO和AWR其目标函数是-Σ_k w*_k × log π_θ(y_k|x)每个答案独立处理没有跨答案的耦合关系。实验结果表明这个逐点变体出现了严重的性能下降Pass1准确率明显低于GRPO和LPO。原因在于逐点投影的梯度系数是常数等于负的目标概率没有零和性没有自校正性更没有跨答案的竞争机制导致训练不稳定。这个对比实验清楚地说明性能增益不仅仅来自目标设计得好更来自列表式投影本身的结构性优良性质。研究团队还专门分析了为什么逐点投影会失败数学上逐点目标实际上是在计算目标分布和模型分布之间的交叉熵而模型分布在这里不是关于答案集合的归一化分布而是独立的逐点密度。这种不对称性使得梯度无法自然平衡产生不稳定的持续性拉力。十、组大小的影响小组也能稳定训练研究团队还测试了每道题采样不同数量答案K2、4、8、16、32对LPO效果的影响。结果显示在所有测试的组大小下LPO变体都能与GRPO保持竞争力甚至更优在小组大小如K2、4时优势尤为明显。这表明精确列表式投影在样本有限的情况下能更有效地利用每个答案的信息。两个变体在扩展特性上呈现出有趣的分化LPO_rev在提升Pass1方面更强因为反向KL有模式搜索性质倾向于集中于高奖励答案而LPO_fwd在提升Passk方面更突出因为前向KL的模式覆盖性使得模型保持了更广泛的有效解法分布。这与理论预测完美吻合。十一、跨模型家族的泛化性和更多分析为了验证LPO不是对某种特定模型架构的过拟合研究团队在Qwen、DeepSeek、Mistral和Llama四个不同家族的模型上都进行了Countdown任务的实验涵盖了预训练基础模型、蒸馏模型和指令微调模型等不同训练范式。结果一致显示无论底层模型是什么LPO都能带来稳定的性能提升特别是在Pass64评估中优势尤为明显。在数学推理的详细评测中见原文Table 3LPO在MATH500、OlympiadBench、AMC23、AIME24、AIME25等多个基准上都展现出一致的提升无论是平均Pass1还是Passk指标都有改善。在分布外OOD泛化实验中用MATH数据集训练的模型在MMLU-Pro、ARC-c和GPQA-diamond等完全不同领域的任务上进行评测LPO变体的总体平均表现也有一定提升不过研究团队坦承OOD评测本身存在较大方差多领域联合训练可能是未来改进方向。十二、完全在线设置下的理论验证研究团队还专门做了一个完全在线设置的实验每轮训练只做一次梯度更新而非两次确保模型不会偏离采样时的状态。在这个理想设置下理论预测LPO_rev应该与GRPO完全等价。实验结果与理论预测高度吻合LPO_rev和GRPO的训练曲线几乎重叠。这个实验既验证了理论推导的正确性又说明LPO_rev的额外收益主要来自它在多步更新下对精确投影的更好维持。在完全在线设置下LPO_fwd则表现出不同于GRPO的独特行为早期训练阶段样本效率更高最终Passk准确率也更优这与它特有的模式覆盖性质完全一致。说到底这项研究做的事情可以用一句话概括把大家都在用但没人说清楚的训练方法的内部逻辑解剖清楚然后基于这个理解造了一个更精准的工具。就好比大家都知道往右边开车能到目的地这个研究不仅解释清楚了为什么往右边还造了一个更精准的方向盘让你不再是大致向右、而是精确瞄准目标。LPO的实际价值不只是在实验数字上改进几个百分点更在于它提供了一个**解耦的设计框架**目标分布的构建和投影方式的选择被分离开来各自可以独立优化和扩展。这意味着未来的研究者可以在LPO框架下灵活地尝试不同的投影散度比如Jensen-Shannon散度或者完全自定义的距离度量探索更多样的优化几何这是现有算法的隐式近似框架所无法提供的灵活性。当然研究团队也坦诚地指出了当前工作的局限LPO目前聚焦于序列级别的投影和结果奖励设置未来可以探索步骤级别的列表式投影比如在多步推理链的中间状态也执行投影以及在人类反馈强化学习RLHF等更广泛的训练场景中的应用。对于关心AI发展的普通读者来说这项研究提示了一个更大的道理训练AI模型不仅仅是给奖励就行训练方法本身的数学精确性至关重要。更精准的训练信号意味着同样的计算资源能产出更强的模型或者同样强度的模型需要更少的训练资源。在AI算力成本居高不下的当下这种效率提升有着实实在在的价值。有兴趣深入了解的读者可以通过arXiv编号2605.06139查阅完整论文论文包含详细的数学推导、实验设置说明和所有代码实现细节。QAQ1LPO与GRPO的主要区别是什么AGRPO通过优势分数计算策略梯度本质上是对反向KL散度最小化的一阶近似在模型偏离采样状态后近似误差会逐渐变大。LPO则直接在采样答案集合上精确构建目标分布并通过精确的散度最小化来更新模型参数不依赖近似。这种精确投影带来了有界梯度、零和更新和自校正收敛等天然优良性质使训练更稳定、效果更好。Q2LPO中的前向KL和反向KL有什么不同的实际效果A两者在实验中表现出互补特性。反向KL版本LPO_rev更擅长提升Pass1即每次采样的平均正确率因为它有模式搜索性质倾向于集中于高奖励答案。前向KL版本LPO_fwd则在Passk方面更突出因为它具备模式覆盖性能保护所有高价值解法的可能性维持更广泛的答案多样性防止模型过度集中于单一套路。Q3LPO训练方法对不同规模和类型的大模型都有效吗A研究团队在1.5B到14B参数规模的模型上以及Qwen、DeepSeek、Mistral、Llama四个不同家族的模型上进行了测试覆盖基础预训练模型、蒸馏模型和指令微调模型。实验结果一致显示LPO都能带来稳定的性能改善表明LPO不依赖特定模型架构具有良好的通用性。