文章目录一、前言二、OneReward核心问题核心创新OneReward 框架数据收集实验结果开源贡献与现有方法的对比一句话总结三、论文摘要1 引言2 相关工作一、前言仅供参考未经实验验证。二、OneReward论文标题OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning作者Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu机构字节跳动论文地址 https://arxiv.org/pdf/2508.21066Github地址https://github.com/bytedance/OneReward发表时间2025年8月28日核心问题掩码引导图像生成包含多个子任务图像填充、图像扩展、物体移除、文字渲染这些任务虽然输入格式相同都是原图 掩码 提示词但数据分布和评估标准差异很大。现有方法通常依赖任务特定的监督微调SFT导致泛化能力差、训练效率低。核心创新OneReward 框架1. 单一 VLM 作为统一奖励模型使用一个视觉-语言模型基于Qwen2.5-VL作为生成式奖励模型通过在查询中注入任务类别和评估维度如美学、结构、一致性等让同一个模型能够区分不同任务、不同标准下的优劣奖励信号来自 VLM 生成 “Yes” token 的概率2. 无需任务特定 SFT 的多任务强化学习直接从预训练基础模型Seedream 3.0通过强化学习优化将预训练模型作为Reference Model训练中的模型作为Policy Model目标让 Policy Model 在各项任务指标上超越 Reference Model这是首次将强化学习作为直接优化范式应用于多任务图像编辑3. 基于 Flow Matching 的 RL 训练底层基于Rectified FlowFlow Matching 的一种高效变体参考模型完全去噪生成参考图像策略模型随机选择某一步去噪后直接预测x 0 ′ x_0x0′​然后与参考图像一起送入奖励模型做对比数据收集构建了大规模多任务人类偏好数据集图像填充在掩码区域生成指定内容强调提示对齐、美学连贯、结构完整图像扩展在原图边界外生成内容强调视觉美学、无缝融合、结构一致物体移除根据周围上下文填充掩码区域避免生成额外物体保证纹理一致文字渲染精确生成并排版文字元素通过随机改变推理参数去噪步数、负提示词、CFG Scale生成多样化候选图像人工标注各维度下的 winner/loser 对。实验结果基于 OneReward 开发了Seedream 3.0 Fill在多个维度上全面超越商业和开源竞品任务超越的对手图像填充Ideogram、Adobe Photoshop、FLUX Fill [Pro]图像扩展有/无提示词Ideogram、FLUX Fill [Pro]、Midjourney物体移除Adobe Photoshop、Ideogram、FLUX Fill [Pro]文字渲染包含在图像填充中评估评估维度包括整体可用率、美学、结构、提示对齐、纹理一致性、风格一致性、文本对齐、移除质量等。开源贡献代码https://github.com/bytedance/OneRewardApache 2.0模型开源了FLUX.1-Fill-dev[OneReward]CC BY NC 4.0在图像填充和扩展任务上均超越原版 FLUX Fill [dev]与现有方法的对比方法局限OneReward 解决方式DPO假设偏好是严格全序的无法处理美学更好但结构更差的情况VLM 按任务维度分别判断 winner/loserReFL每个评估维度需要单独训练奖励模型多任务存在奖励冲突一个 VLM 统一处理所有任务和维度GRPO/FlowGRPO基于策略梯度估计优势不直接最大化奖励信号收敛慢直接用 VLM 的 “Yes” 概率作为奖励信号驱动优化一句话总结OneReward 用一个 VLM 奖励模型打通了多任务掩码图像编辑的强化学习训练做出了Seedream 3.0 Fill这个在填充、扩展、移除、文字渲染上全面 SOTA 的统一编辑模型并开源了基于 FLUX 的社区版本。三、论文摘要本文提出了一种统一的强化学习框架OneReward该框架仅使用一个奖励模型即可增强模型在不同评估标准下的多任务生成能力。通过采用单一的视觉-语言模型VLM作为生成奖励模型该模型能够区分给定任务和给定评估标准下的胜者和败者因此可以有效地应用于多任务生成模型尤其是在数据多样化和任务目标各异的场景中。我们利用OneReward进行掩码引导的图像生成该任务可进一步细分为图像填充、图像扩展、对象移除和文本渲染等子任务均涉及二值掩码作为编辑区域。尽管这些领域特定的任务共享相同的条件范式但它们在底层数据分布和评估指标上存在显著差异。现有方法通常依赖于特定任务的监督微调SFT这限制了泛化能力和训练效率。基于OneReward我们开发了Seedream 3.0 Fill一个通过多任务强化学习直接在预训练基础模型上训练的掩码引导生成模型无需特定任务的SFT。实验结果表明我们的统一编辑模型在多个评估维度上始终优于商业和开源竞争对手如Ideogram、Adobe Photoshop和FLUX Fill [Pro]。1 引言扩散模型Rombach et al. (2022); Podell et al. (2023); Labs (2024))的最新进展已实现多样化的挑战性任务例如图像修复、图像外绘、物体移除和文本渲染。尽管这些任务共享通用的掩码引导输入格式但它们在条件分布和评估指标上表现出显著差异这对开发统一、通用的模型构成了相当大的挑战。图像修复Inpainting亦称图像填充image fill旨在对局部遮罩区域内的特定对象进行修改或添加并着重于提示词的准确对齐、美学连贯性及结构完整性。图像外绘Outpainting亦称图像扩展image-extend要求在现有图像的外部生成大量内容以超越其原始边界并高度重视视觉美学、无缝集成及结构一致性。对象移除是指根据周围的上下文填充被遮罩的区域需要避免生成额外的对象并确保与原始图像的纹理一致性。文本渲染特别针对文本元素的精确渲染强调根据给定指令生成和对齐字体的准确性。当前最先进的生成模型通常在特定的编辑任务中表现出色但在同时保持跨多个任务的一致性高性能方面存在困难。现有方法或社区模型通常依赖于特定任务的监督微调SFT或基于SD1.5- InpaintRombach等人 NT1和FLUX FillLabs NT2的有限数据上的LoRAHu等人 NT0这限制了它们在多样化编辑场景下的泛化能力。这揭示了设计一个能够支持多种图像编辑任务同时避免特定任务微调的低效率的统一框架的难度。图1跨四个图像编辑任务的总体评估其中文本渲染包含在图像填充中。对于每个子任务我们仅选择最先进的模型或闭源API作为竞争者并在多个维度进行了详细评估。请注意不同的任务具有不同的评估标准。诸如直接偏好优化DPORafailov 等人 (2023); Wallace 等人 (2024); Xu 等人 (2024); Liu 等人 (2025b)), 基于奖励的方法Xu 等人 (2023); Zhang 等人 (2024); Li 等人 (2024); Gao 等人 (2025b)) 和基于强化学习的方法Black 等人 (2023); Liu 等人 (2025a); Xue 等人 (2025)) 等扩散模型和流匹配模型的人类反馈强化学习RLHF方法在跨文本到图像和文本到视频领域将生成输出与人类偏好对齐方面显示出巨大潜力。然而DPO在同时处理多样化任务和评估维度方面存在根本性局限因为它本质上假定了一个明确的偏好顺序而在异构任务和标准下这种顺序可能不成立。例如当一张图像在美学上更优但结构上不如其对应图像时DPO无法明确确定优胜者和失败者。奖励反馈学习ReFL虽然在特定维度上显著提升了模型性能但在使用 BLIP(Li et al. (2022)) 和 CLIP(Radford et al. (2021)), 等传统多模态架构时通常需要为每个评估标准训练单独的奖励模型从而增加了训练和调优的复杂性。此外ReFL 在多任务场景中会遇到奖励冲突其中高质量的对象生成在图像填充和对象移除任务中可能会收到完全相反的评估。FlowGRPO(Liu et al. (2025a)) 和 DanceGRPO(Xue et al. (2025)) 将强大的大型语言模型(LLM)的GRPO(Shao et al. (2024)),引入流匹配模型通过将确定性常微分方程(ODE)采样转换为随机微分方程(SDE)框架。虽然基于GRPO的方法在视觉生成任务上显著提高了性能但它们依赖于策略估计通过引入组相对公式来估计优势而没有在优化过程中明确最大化奖励信号。这通常会导致比奖励驱动的方法更慢的收敛速度。为了克服这些局限性我们引入了OneReward一个统一的强化学习框架用于多任务图像生成仅使用一个视觉语言模型VLM作为奖励模型。通过将任务类别和评估指标信息例如美学、结构、一致性直接纳入其查询中VLM可以有效地区分任务和评估标准使其能够在特定设置下做出成对判断并确定哪个输出更好。基于OneReward我们采用Seedream 3.0(Gao等 (2025a)) 作为预训练基础模型并开发了Seedream 3.0 Fill一个最先进的SOTA掩码引导图像生成模型在包括图像填充、图像扩展、对象移除和文本渲染在内的多样化任务集上始终如一地提供卓越性能。Seedream 3.0 Fill 通过强化学习直接从预训练模型进行优化无需任何 SFT。在训练过程中我们将初始预训练模型视为参考模型将训练模型视为策略模型并优化后者以在每个特定任务的评估指标上生成超越参考模型的结果。奖励信号来源于视觉语言模型VLM生成的“Yes”这一token的概率然后用于梯度反向传播。据我们所知这是首次在多任务图像编辑的背景下采用强化学习作为直接优化范式的工作。The main contributions of our work are threefold:我们工作的主要贡献有三方面我们提出了OneReward一种新颖的奖励模型框架通过采用VLM作为生成式奖励模型来增强视觉领域的强化学习从而显著提高策略模型在各种场景中的生成能力。在OneReward的基础上我们开发了Seedream 3.0 Fill这是一个统一的SOTA图像编辑模型能够有效地处理各种任务包括图像填充、图像扩展、对象移除和文本渲染。它超越了几个领先的商业和开源模型包括Ideogram、Adobe Photoshop和FLUX Fill [Pro]。通过在FLUX Fill [dev]上应用我们的多任务强化学习方法我们介绍并开源了FLUX Fill [dev][OneReward]这是一个广义的图像编辑模型在图像修复和图像外推任务上均优于原始模型为未来统一的掩码引导图像生成研究提供了一个强大的新基线。2 相关工作掩码引导图像生成图像修复和图像外绘侧重于为图像的缺失或外部区域生成连贯且无缝的内容。随着深度学习的出现基于生成对抗网络GANGoodfellow et al. (2020)) 的方法占据了主导地位。特别是大掩码修复LaMaSuvorov et al. (2022)) 引入了快速傅里叶卷积显著提高了处理大而复杂的掩码的能力同时保持了全局结构一致性而这是早期基于卷积神经网络CNN的方法常见的失败点。近年来扩散模型Ho et al. (2020); Song et al. (2020a); Rombach et al. (2022); Song et al. (2020b)) 因其卓越的生成质量而成为最先进的模型。RePaint (Lugmayr et al. (2022)) 是一种早期方法它通过重复采样未知区域并将其与已知上下文融合将预训练的无条件扩散模型应用于图像修复尽管其迭代性质可能计算量很大。后续模型例如 Stable Diffusion 的原生修复变体Rombach 等人 (2022); Podell 等人 (2023)),通过将掩码的潜在表示与原始图像的潜在表示连接起来作为其原始文本到图像模型的输入从而采用了更有效的方法。该范式奠定了坚实的基础图2Seedream 3.0 Fill在四个场景下的视觉展示图像填充、图像扩展、物体移除和文本渲染。每一列展示了一个具有代表性的例子包含相应的提示和输出展示了该模型在不同生成目标下的统一能力。用于高保真、文本引导的编辑。后续工作例如 MagicBrush (Zhang 等人 (2023)) 和 Inst-Inpaint (Yildirim 等人 (2023)),引入了更精炼的基于指令的数据集来提高图像编辑的准确性。ByteEdit (Ren 等人 (2024)) 探索了反馈学习在这些任务中提升性能的应用但不同的子任务应用了独立 SFT 和 RL 过程。近期FLUX Fill(Labs (2024)) 已成为一个强大的开源基线在图像修复和图像外绘制方面均表现出强劲性能。然而这些模型通常是专门化的或者在多种不同的编辑模式下缺乏鲁棒的泛化能力。我们的统一编辑模型直接建立在这些基础之上但通过利用一种新颖的多任务 RLHF 框架来解决它们的局限性将图像修复、图像外绘制、对象移除和文本渲染统一到一个单一的、熟练的模型中。RLHF for diffusion model: 使生成模型与人类偏好对齐已成为一个快速发展的研究领域旨在提高生成视觉内容的审美质量、指令对齐和用户整体期望。RLHF的成功关键在于奖励模型的质量。ReFL (Xu et al. (2023)) 在朝着通用奖励建模迈出的重要一步它在一个大规模专家比较数据集上进行了训练。它进一步提出了一种算法通过将奖励分数视为人类偏好损失并将其反向传播到去噪过程中的随机选取的后续步骤来直接微调扩散模型。后续研究例如 VisionReward (Xu 等人 (2024)),通过将人类偏好分解为保真度、组合性、安全性和文本对齐等可解释的维度探索了更细粒度、多维度的奖励建模。然而其依赖逻辑回归来加权这些维度会引入额外的复杂性限制了其在完全端到端训练管道中的适用性并降低了在更广泛场景下的泛化能力。将强化学习从人类反馈中学习RLHF算法从大型语言模型LLM领域适配到扩散模型领域带来了一系列独特的挑战。直接偏好优化DPORafailov 等人 (2023)) 被提出作为完整强化学习RL流程的一种更简单且稳定的替代方案。与依赖显式奖励模型不同DPO通过直接最大化首选响应和非首选响应之间对数概率比的差异来优化策略模型。该方法被有效地扩展到了视觉领域引入了Diffusion-DPOWallace等人 (2024)),它将目标重新表述为扩散模型似然从而实现了直接而稳定的偏好对齐。Denoising Diffusion Policy Optimization (DDPO) (Su et al. (2024)) 是一项开创性工作它通过将去噪过程视为一个多步决策问题成功地将策略梯度方法应用于扩散模型。进一步的算法进展包括 Group Relative Policy Optimization (GRPO) (Shao et al. (2024)),它在对齐扩散模型和流匹配模型方面表现出强大的性能其在 FlowGRPO (Liu et al. (2025a)) 和 DanceGRPO (Xue et al. (2025)) 中的应用证明了这一点。OneReward 将近期在对齐策略方面的进展综合到一个统一的框架中。我们的工作通过仅利用一个视觉语言模型VLM作为生成式奖励模型为我们的多任务强化学习产生任务感知的反馈从而进一步推动了这一前沿。它解决了传统算法如 DPO的一个关键限制即当偏好在不同的评估维度上变化时这些算法难以区分胜者和败者。我们通过OneReward开发了一个SOTA图像编辑模型该模型在统一的强化学习框架内联合学习多个子任务。