CVPR 2026 | 免训练虚拟试衣!北大彭宇新团队提出PG-VTON:解锁预训练修复模型 “隐藏的虚拟试衣能力”
点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐本文是北京大学彭宇新教授团队在虚拟试衣领域的最新研究成果相关论文已被CVPR 2026接收。论文标题PG-VTON: Single-Pass Training-Free Virtual Try-On via Patch-Guided Reference Alignment论文链接http://39.108.48.32/mipl/download_paper.php?fileId202604开源代码https://github.com/PKU-ICST-MIPL/PG-VTON_CVPR2026实验室网址https://www.wict.pku.edu.cn/mipl1. 背景与动机虚拟试衣Virtual Try-On, VTON旨在将服装自然贴合地 “穿戴” 至目标人物身上在完整保留人物身份特征、身体姿态与画面真实感的同时精准还原服装的版型、纹理与色彩等外观属性。该技术在电商零售、数字内容创作、个性化图像编辑等领域具备极高的应用价值 —— 用户仅需上传一张人物图片并选择服装图片即可快速预览服装穿上身的真实效果而不用实际的物理换衣有助于提高消费者的购物意愿降低电商平台的退货率。然而虚拟试衣技术的规模化落地仍面临严峻的技术挑战。当前主流的虚拟试衣方案多依赖成对数据集即包含“服装平铺商品图”与“目标人物实际穿着该服装的真实照片”的数据对模型需要将真实的穿着照片作为生成目标开展监督学习而这类数据集往往采集于室内影棚环境人物姿态与光照条件高度受限导致训练后的模型在面对光照复杂、姿态多变的室外真实场景时生成的结果极易出现服装纹理失真、色彩偏移、版型扭曲等问题场景泛化能力严重不足。为摆脱对成对训练数据的强依赖学界近期涌现出以 OmniVTON 为代表的免训练training-free虚拟试衣方法。这类方法虽有效提升了模型的场景鲁棒性却以显著提升系统复杂度为代价其流程高度依赖人体解析、语义匹配与多阶段扩散生成繁琐的多阶段推理链路带来了极高的推理延迟难以满足实际场景的大规模部署需求。针对上述挑战北京大学彭宇新教授团队提出了一种基于图像块引导参考对齐的单阶段免训练虚拟试衣框架 PG-VTON不再依赖复杂的多阶段推理流程而是通过精心设计的推理控制机制充分释放预训练修复模型潜在的上下文补全能力实现服装身份特征保留、细节纹理精准迁移的效果。实验表明PG-VTON 仅需单次扩散推理即可完成高保真虚拟试衣在 DressCode、VITON-HD等基准上取得免训练方法的最优性能能够生成更自然合理的试衣结果。这一成果表明通过推理时控制有效激发预训练修复模型“隐藏的虚拟试衣能力”是实现高质量、高效率虚拟试衣的一条极具潜力的技术路径。2. 技术方案图1. 基于图像块引导参考对齐的单阶段免训练虚拟试衣框架PG-VTON本文发现经大规模图像数据预训练的DiT修复扩散模型其实已经具备了很强的“上下文补全”能力当向模型输入包含遮挡服装区域的人物图像模型即可自主生成与目标人物姿态、周边环境高度协调的服装内容。PG-VTON的切入点正在这里既然预训练修复模型本身已经有很强的图像补全能力那么也许虚拟试衣不必再被做成一个“重训练、多流程”的任务而可以被重新理解为一种参考驱动的受控修复生成。这也是标题里“通过推理控制解锁预训练修复模型隐藏能力”的含义。1. 方法总览把虚拟试衣问题改写成一次受控修复如图1所示PG-VTON建立在一个冻结的 DiT 修复扩散模型之上采用的是 FLUX.1-Fill。输入包括目标人物图像、参考服装图像以及人物服装区域的掩码。首先沿用一种类似 in-context learning 的构造方式把遮掉服装区域的人物图像和参考服装图上下拼接让修复模型在一次扩散过程中完成“补衣服”这件事对应的掩码也一起拼接其中表示被遮掉服装区域后的人像是与服装图分支对应的全零掩码。也就是说模型看到的是“上半部分是待补全衣服的人下半部分是参考衣服”然后在潜空间里完成修复生成。但仅靠这种上下文学习范式模型经常只生成“一件合理的衣服”而不是“那件指定的衣服”。于是本文设计了PG-VTON的核心在于两个在推理阶段起作用的轻量控制器Patch-Anchored Identity PrimingPIP 和 Reference-Aware AttentionRAA。前者负责在生成早期把衣服身份先“钉住”后者负责在注意力层面让待补全服装区域更主动地“看”参考服装从而把条纹、印花、logo 等细节更稳定地迁移过去。2. PIP给模型一点“衣服提示”PIP 的直觉很好理解本文发现如果从参考服装图中裁出一小块 patch直接贴到人物待换装区域里冻结的修复模型往往会顺着这个 patch 把剩余服装补全出来。这说明模型已经具备从局部视觉线索外推整件衣服的能力。问题在于粗暴粘贴会带来位置错位、光照不一致、边界接缝明显等伪影。因此PG-VTON 的做法不是“永久粘贴”而是把它变成一种短暂的前期引导。具体来说作者先从服装图的掩码区域中随机采样个小 patch再基于人物服装框和参考服装框之间的粗矩形映射把这些 patch 贴到人物待编辑区域中构造一个 primed 图像。这一过程写成其中是第个服装 patch是它被贴到人物图中的目标区域则是这些 patch 区域的并集。换句话说不是直接把整件衣服硬贴上去而只是把若干个能代表服装身份的局部线索“点到为止”地塞进待编辑区域随后用这个 primed 图像去构造新的条件输入它对应一个 primed condition记作而原始拼接输入对应的条件记作。关键的是PG-VTON 并不会在整个扩散过程中一直使用而只在前期若干步使用它。论文把这种分段式条件调度写成这里是当前时刻的潜变量是冻结的扩散修复模型是当前采用的条件。直观上PIP 做的事情就是先在生成最开始的几步里告诉模型“目标衣服大概长这样”等模型把颜色、形状等粗略的身份特征记住之后再把控制权交还给原始输入让模型自然地去补褶皱、光影和人与衣服的几何关系。3. RAA让待换装区域在注意力中更主动地“看”目标衣服如果说 PIP 解决的是“把衣服身份锚定住”那么 RAA 解决的就是“人物区域如何更充分地利用参考衣服的细节信息”。在 PG-VTON 的输入里token 序列可以拆成三部分文本 token、服装分支 token、人物分支 token。论文将整个输入写成在标准自注意力中令、、则注意力分数为由于 token 有明确的结构来源注意力矩阵也可以被理解成一个的块矩阵其中最关键的是它表示人物分支的 query 去关注服装分支的 key 的那部分注意力打分。RAA 的想法在于既然希望生成出来的人物服装区域尽可能贴近参考服装那就在 softmax 之前专门把这一块注意力 logits 放大。论文定义了一个块级缩放矩阵然后用逐元素乘法对注意力分数进行调制再由计算新的注意力图和输出。这样一来人物分支在生成过程中就会更频繁地去“看”参考服装分支结果就是条纹、纹理、logo这些细粒度外观信息更容易被准确迁移同时又不必显式建立像素级对应关系也不需要额外的匹配网络。3. 实验结果本文在两个标准 in-shop 虚拟试衣基准 VITON-HD 和 DressCode 上以及更具挑战性的 in-the-wild 基准 StreetTryOn 上评估 PG-VTON。其中StreetTryOn 包含 Shop-to-Street、Model-to-Model、Model-to-Street 和 Street-to-Street 四种测试设置用于检验方法在真实街景中的跨域泛化能力。实验中VITON-HD 和 DressCode 采用 1024×768 分辨率StreetTryOn 则遵循原始协议采用 512×320 分辨率。评价指标方面在 VITON-HD 和 DressCode 上采用 FID、KID、SSIM 和 LPIPS在 StreetTryOn 上进一步引入CMMD以更好衡量复杂真实场景下的生成质量。表1展示了 PG-VTON 与多种代表性方法在 VITON-HD 和 DressCode 上的定量对比结果。遵循之前工作的实验设定我们同时对比了基于训练的方法在跨数据集设置下的性能以及免训练方法在标准测试设置下的性能。实验结果表明PG-VTON 在两个 in-shop 基准上都取得了SOTA性能。相比免训练的 OmniVTONPG-VTON 在两个数据集上均有明显提升说明基于推理控制的免训练方案同样可以实现高质量的虚拟试衣效果。为了验证方法在真实街景中的泛化能力本文进一步在 StreetTryOn 上进行了测试。如表2所示结果表明PG-VTON 在四种设置下都取得了具有竞争力的表现尤其在最困难的 Street-to-Street 场景中取得了 21.028 的 FID优于 OmniVTON 的 23.470。在更具区分度的 CMMD 指标上PG-VTON 在四种设置中均明显优于 OmniVTON说明该方法在复杂姿态、遮挡和背景干扰下仍能更稳定地完成服装迁移并保持更好的整体视觉一致性。表1. VITON-HD 和 DressCode数据集结果表2. StreetTryOn数据集结果图2的可视化结果表明PG-VTON 在 VITON-HD、DressCode 和 StreetTryOn 上都能生成更清晰、更忠实于参考服装的试衣结果。与现有方法相比PG-VTON 对服装中的 logo、条纹、纹理等细节保留得更完整同时显著减少了模糊、颜色偏移和局部结构错误等问题。在更复杂的街景场景下这种优势更加明显。当人物姿态变化大、存在遮挡且背景复杂时PG-VTON 依然能够较稳定地将目标服装放置到正确的人体区域并保持服装形变与人物姿态协调自然体现出较强的真实场景适应能力。4. 结论本文提出了一种单阶段推理、无需训练的虚拟试衣框架 PG-VTON。该方法基于预训练的 DiT 修复扩散模型通过基于图像块引导参考对齐的设计在不进行虚拟试衣任务微调的前提下实现高保真的虚拟试衣效果。图2. 可视化对比结果具体而言本文通过 Patch-Anchored Identity PrimingPIP在生成早期注入局部服装补丁以锚定服装身份并引入 Reference-Aware AttentionRAA增强人物区域对参考服装区域的注意力交互从而提升纹理、logo等细粒度细节的保真度。实验结果表明PG-VTON 在 VITON-HD、DressCode 和 StreetTryOn 等基准上均取得了优异表现在保持较强跨域泛化能力的同时避免了姿态估计、显式对应建模和多阶段扩散带来的复杂流程。研究表明通过精心设计的推理时控制机制可以有效释放预训练修复模型“隐藏的虚拟试衣能力”为高效、通用的虚拟试衣技术提供了一条新的技术路径。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看