【图像编辑】LightMover:支持颜色与强度控制的生成式光运动系统(CVPR 2026)
这里写目录标题一、LightMover1.视频扩散模型的再利用2. 多信号位置编码 MSPE3.自适应token修剪二、数据生成流程1.合成渲染数据框架2.真实数据采集实验1.蒙特卡洛路径追踪Monte Carlo path-tracing 标题LightMover: Generative Light Movement with Color and Intensity Controlshttps://gengzezhou.github.io/LightMover阿德莱德大学、Adobe 研究院、香港大学、耶鲁大学一、LightMover1.视频扩散模型的再利用LightMover为实现精准的图像编辑如拖拽物体、改变光照、调整颜色。其创新的地方在于将静态图像编辑伪装成一个短视频序列生成任务将输入条件参考图、控制信号等看作是伪视频帧pseudo video frames 从而利用视频扩散模型类似于 Sora强大的时空建模能力和跨帧一致性。根据公式 (2)模型每一个去噪步骤t tt的输入序列包含以下 6 个部分(1)Reference Image(I ref I_{\text{ref}}Iref): 原始参考图提供背景或上下文。(2)Object Frame(I obj I_{\text{obj}}Iobj): 经过裁剪和缩放的目标物体即要被操作的对象。(3)Movement Map (I move I_{\text{move}}Imove): 空间控制信号。它利用 RGB 通道编码位移R通道表示物体源区域GB 通道表示物体的目标区域。(4)Color Control (I color I_{\text{color}}Icolor): 全局条件帧用于指定光照色调或色温。(5)Intensity Control (I intensity I_{\text{intensity}}Iintensity): 控制曝光强度的帧单位是摄影中的“档位”stops。(6)Output Frame (X t X^tXt): 在第t tt步等待去噪的嘈杂潜变量帧。文中定义了曝光值EV与照明增益G illum G_{\text{illum}}Gillum之间的关系每增加 1 个 EV stop光强就会翻倍G illum 2 S E V 1 G_{\text{illum}} 2^{S_{EV}}1Gillum2SEV1训练与推理。推理(Inference): 从高斯噪声X 0 X^0X0开始模型迭代地预测并优化最终生成清晰的目标图像X 1 X^1X1。训练(Training): 采用了 Flow-matching流匹配 目标函数而不是传统的扩散模型损失。线性插值 (公式 3): 噪声输入是通过在X 0 X^0X0和X 1 X^1X1之间进行线性插值生成的损失函数: 模型预测的是“瞬时速度”V t V^tVt即图像从噪声向清晰状态转化的变化率2. 多信号位置编码 MSPE为了让 Diffusion Transformer 能够理解每个输入 token信息块的语义MSPE 将位置信息拆解为四个正交的子空间1.空间编码(Spatial Encoding,W , H W, HW,H)针对每一帧二维图像将每个 latent patch根据UV坐标水平( W ) (W)(W)和垂直( H ) (H)(H)坐标进行2D 正余弦编码2D Sine-Cosine Encoding编码。2.时间编码(Temporal Encoding,T TT)给输入序列的每一个 tokens 分配一个时间索引。在扩散模型Diffusion中这不仅有助于维持多帧之间的时序一致性还能让模型在不同的去噪步数中保持稳定的时间参考。3.条件类型编码 (Condition-Type Encoding,C CC)为不同的模态分配离散的标识符ID。模型通过这个编码知道当前的 token 是属于参考图Reference、物体帧Object、移动图Movement还是颜色/强度控制来解决多模态输入混淆的问题。4.帧角色编码(Frame-Role Encoding,R RR)二值编码Binary Encoding。它将 token 分为两类条件Input Conditions 提供指引信息的帧。输出Output Frame 最终需要被预测或去噪的帧。编码的组合方式。这些分属不同子空间的编码会被投影到 Transformer 的嵌入空间(Embedding Space)中然后相加(Additively Combined)。紧接着模型还会应用一种类似于 RoPE旋转位置嵌入 的旋转调制以保留 token 之间的相对相位关系。这能显著增强模型对“物体移动了多远”这类相对位置信息的敏感度。动态自适应引入了 NTK-aware 插值技术常用于大语言模型长文本扩展。它能够动态调整位置编码的频率使模型在处理不同分辨率或不同长度的序列时依然能保持推理能力的泛化性。3.自适应token修剪在 Diffusion Transformer 架构中随着控制信号(如移动图、颜色、亮度等)的增加输入序列会变得非常长例如 512x512 的图像会产生 256 个 latent tokens这会导致计算开销剧增。两种互补的剪枝策略1.空间感知剪枝 (Spatially-Aware Pruning)对具有明确空间结构的信号如移动图 (I move I_{\text{move}}Imove)计算目标物体边界框Bounding Box占整个画面的面积比例。小目标比例 0.2保留全分辨率的 latent map以确保对微小移动的精确控制大目标则按比例对 latent tokens 进行下采样有效地去除冗余的背景信息。2.非空间信号的可学习下采样(Learnable Downsampling for Non-Spatial Signals)对于缺乏明确二维空间结构的全局属性如颜色 (I color I_{\text{color}}Icolor) 和 光强 (I intensity I_{\text{intensity}}Iintensity)不需要保留完整的二维布局而是通过可学习的下采样比例让模型在训练过程中自动优化并决定需要保留多少个 token才能平衡表现力和效率。二、数据生成流程精准且物理一致的综合光线操控数据集将真实采集数据与大规模合成语料库相结合真实世界照片提供了自然外观与材质多样性而合成数据则能系统化调整光照参数并实现光照运动、色彩及强度等维度的可扩展监督学习。既支持视觉真实感的提升又确保物理一致性的验证。1.合成渲染数据框架场景与光照设置。采用25个由艺术家在Blender中设计的室内场景系统性地在不同光照条件和物体配置下进行渲染。为丰富场景多样性我们随机选取合理的灯具摆放位置如吸顶灯、壁灯、台灯调整 HDRI 环境贴图参数并优化环境光与直射光的比例。为提升物体多样性我们从Objectverse-XL[13]数据库中检索100个光源素材通过CLIP相似度算法筛选与“light”关键词匹配的素材并在Blender中进行尺度标准化、发光材质校准及安装锚点预处理。每个场景中选定光源沿平滑轨迹进行动态模拟通过十台虚拟摄像机捕捉多视角运动轨迹。连续帧构成光源运动配对数据集。如图3该流程生成了约32,000组包含不同光源类型、摄像机视角及光照条件的数据组合。物理解耦渲染。每个渲染帧被分解为两个部分环境基础图像I a m b I_{amb}Iamb与直射光贡献I l i g h t I_{light}Ilight。其在Monte Carlo path-tracing设置下独立渲染最终在线性RGB空间中进行合成参数化光控制调节可控光源的相对亮度与色度。重光照图像的计算公式为其中 α ∈[0,1]表示环境光照缩放系数G i l l u m G_{illum}Gillum∈[0,1]为目标光强度增益c t ∈ R 3 c_t∈R^3ct∈R3为线性色彩空间中的目标RGB色调值。最终⊙表示RGB通道间的逐元素乘法运算。每种光源渲染的颜色均被设定为纯白色且强度为单位值因此目标色调颜色可直接应用于后期处理阶段。I amb I_{\text{amb}}Iamb为环境光I light I_{\text{light}}Ilight是待操作的直接光源纯白色。通过预渲染出两张图环境一张特定灯光一张就可以实时通过简单的代数运算合成出成千上万种不同的光照组合。色调映射。基于物理渲染采用线性RGB色彩空间时会存在极少数高能量样本的像素亮度超出显示范围。我们通过百分位数归一化处理结合sRGB色调映射来稳定动态范围。设E m a x E_{max}Emax为1,024个随机样本中像素亮度的第99.95百分位数。经色调映射处理后的图像计算公式如下归一化(I lin E max \frac{I_{\text{lin}}}{E_{\text{max}}}EmaxIlin)E max E_{\text{max}}Emax是图像中亮度的 99.95% 分位数。这步可以把图像中最亮的部分映射到1.0 1.01.0附近防止整体画面太暗。Gamma 校正(( ⋅ ) 1 / 2.2 (\cdot)^{1/2.2}(⋅)1/2.2) 人眼对亮度的感知是非线性的对暗部变化比亮部更敏感。为让图像看起来符合人眼直觉必须进行指数为1 / 2.2 1/2.21/2.2的幂函数变换。clip ( ⋅ ) \text{clip}(\cdot)clip(⋅) 将所有超出[ 0 , 1 ] [0, 1][0,1]范围的数值强制截断确保图像符合 8-bit0-255或类似显示格式的要求。2.真实数据采集采用商用移动设备、三脚架及同步触发装置采集一组真实场景图像对同一场景的两种不同光照条件唯一物理变化仅在于可见光源的位置。数据集包含106个室内场景每个场景包含3-4种光照变化方案最终生成360张高分辨率照片。除用于光照移动实验的图像对外我们还为每个场景采集了光源物理移除后的背景参考图像。这些背景图像为光照插入与移除算法提供了额外的训练目标。实验我们在5B参数的视频扩散Transformer模型上训练LightMover。训练样本以1:1比例从512×512和1024×1024两种分辨率中抽取数据集采用10:1比例混合合成数据与真实数据。合成任务按6:3:3:3:1:1的比例分布在七个类别中(1)光线运动、(2)物体运动、(3)光线颜色变化、(4)光照强度变化、(5)关节运动与颜色/强度变化、(6)光线消除、(7)光线插入。还采用物理解耦渲染方法进行光照增强训练过程中动态调整环境光与直射光成分。评估方面通过两个互补基准集对LightMover进行定量与定性评估LightMove-A用于真实拍摄数据包含由经验丰富的摄影师拍摄的200组真实世界图像三元组每组包含(1)含光源场景、(2)光源移动后的相同场景该数据集可有效评估真实光线运动效果。LightMove-B用于具有真实光照变化的合成场景用于在已知真实光照变化条件下评估光照控制能力包含2个经过预留的场景数据集其中光源、物体及材质均为未见过的类型。量化分析指标采用感知相似性评估指标包括基于光照变化影响局部区域计算得出的DINO-Score[8]和CLIP-Score[44]。定性评估选用Pexels[42]平台提供的50幅多样化真实图像集人工标注光源区域及对应mask并将其作为视觉对比的基准参考。1.蒙特卡洛路径追踪Monte Carlo path-tracing 利用统计学方法解决复杂渲染方程生成高度真实感图像的渲染算法。原理 算法从摄像机向场景发射数百万条光线Ray。当光线撞击物体表面时它会根据材质属性如反射、折射、吸收随机选择一个方向继续反弹直到撞击到光源或达到最大反弹次数。在物理世界中光线的路径是无穷尽的。计算每一个点的光照需要求解一个复杂的积分。蒙特卡洛方法通过随机采样即随机追踪一部分光线路径并求平均值来逼近这个积分的真实解。 它能自然地模拟出软阴影、间接光照光线在物体间多次弹射、全局光照GI和焦散等复杂物理现象。#pic_center 40%x80%d \sqrt{d}d1 8 \frac {1}{8}81x ˉ \bar{x}xˉD ^ \hat{D}D^I ~ \tilde{I}I~ϵ \epsilonϵϕ \phiϕ∏ \prod∏a b c \sqrt{abc}abc∑ a b c \sum{abc}∑abc/ $$E \mathcal{E}E