希伯来大学新技术:让AI绘画“按频率分配精力“,图像质量大幅提升
这项由以色列希伯来大学研究团队完成的研究以预印本形式于2026年5月28日发布论文编号为arXiv:2605.30332感兴趣的读者可通过该编号查询完整论文。扩散模型这几年可以说是AI图像生成领域当之无愧的明星技术。无论是你在社交媒体上刷到的AI绘画作品还是各大科技公司推出的图像生成工具背后大多离不开这类技术。然而尽管这些模型已经能画出令人叹为观止的图像研究人员依然在追问它们的内部工作流程是否足够高效有没有被白白浪费掉的创作精力希伯来大学的这支团队给出了一个出乎意料却又合情合理的答案有而且浪费得相当明显。他们发现现有的扩散模型在生成图像时有一个被长期忽视的规律——模型会先画好整体轮廓和大色块也就是所谓的低频信息再慢慢填充细节纹理高频信息。这和一位经验丰富的画家的工作方式非常相似先定构图再加细节。但问题在于现有的生成算法在整个创作过程中始终以完全均匀的方式注入随机噪声完全不管当前画面哪里还没画好这就好比一个助手不管画家当前在做什么永远均匀地往画布各处泼洒颜料——在画家已经把大色块铺好之后继续往那些区域泼同样多的颜料显然是一种浪费。正是针对这个问题研究团队提出了一种全新的采样方法叫做彩色噪声采样Colored Noise Sampling简称CNS。这个方法不需要重新训练模型只需要在图像生成的过程中把注入噪声的方式从无差别均匀分配改成按需动态分配——把更多的随机扰动精力投入到当前还没有画好的频率区域而不是浪费在已经成型的部分。实验结果表明这个改动虽然看似简单却带来了显著的图像质量提升在多个主流架构和数据集上均大幅改善了生成效果的评分。---一、扩散模型是怎么画画的要理解这项研究得先弄清楚扩散模型的工作原理。可以把扩散模型的生成过程理解成一场去雾还原游戏。在训练阶段模型学会了如何把一张清晰的照片逐步加上越来越多的随机噪声直到变成一团毫无意义的雪花屏而在生成阶段模型要做的事情正好相反——从一团随机噪声出发一步一步地去雾最终还原出一张清晰的图像。在这个还原过程中每一步模型都需要做出判断当前的模糊状态应该往哪个方向演化才能更接近真实图像这个判断依赖于模型在训练中学到的得分函数也就是对当前状态的梯度估计指引生成轨迹朝着真实数据的方向移动。然而纯粹的确定性还原也就是ODE路径每一步都是固定的有一个固有缺陷一旦某一步的估计出现误差误差会不断积累让生成路径偏离真实数据的分布。为了解决这个问题研究人员引入了随机版本也就是SDE路径在每一步还原的同时也注入一点随机噪声让模型有机会重新探索当前邻域从而纠正之前累积的偏差。这个随机噪声注入的机制就是本研究所关注的核心对象。传统做法是在每一步注入均匀的白噪声——所谓白噪声就是所有频率的能量完全相等没有任何频率偏好。这在数学上是标准做法但问题在于它完全忽略了模型在生成不同频率信息时的进度差异。---二、画家的工作方式先轮廓后细节研究团队关注的那个被长期忽视的规律在学术上叫做谱偏置spectral bias。简单来说这个规律描述的是扩散模型在生成图像时并不是均匀地、同时地构建所有细节而是有一个明确的先后顺序——先建立低频结构整体轮廓、大色块、全局构图再完善高频细节纹理、边缘、细小纹路。这个现象可以用一个拍摄渐渐对焦的镜头来理解。摄影时从完全模糊到清晰的过程中你会先看到大致的轮廓和颜色分布然后才是越来越清晰的细节纹理。扩散模型的生成过程和这个过程高度相似在早期步骤中模型优先确定画面的整体格局在后期步骤中模型才专注于填充精细的局部细节。为了量化这个规律研究团队设计了一个叫做进度指数γ(f, t)的指标用来衡量在任意时刻t某个频率f的结构信息究竟被生成了多少比例。具体做法是在生成过程的每一步让模型预测一下最终图像长什么样然后把这个预测结果与真正的最终图像在各个频率上进行对比看看两者差了多少。差得越少说明这个频率的结构越接近完成。通过可视化这个进度矩阵研究人员清晰地看到了谱偏置的存在低频区域对应图像的整体布局在生成过程的早期就迅速接近完成状态而高频区域对应细节纹理则缓慢爬升直到生成的最后阶段才逐渐成型。这张进度地图为后续的方法设计提供了关键的数据基础。---三、噪声的能量是有限的不能乱花在理解了谱偏置之后研究团队还发现了另一个关键事实整个生成过程中注入的总噪声能量是一个固定有限的预算不能随意增加。这个结论来自严格的数学推导。扩散模型使用的随机微分方程SDE有一个性质不管你把生成步骤分成多少步每一步注入的噪声方差加起来在步数足够多时都会收敛到同一个固定的积分值。换句话说分成100步还是1000步总能量基本一样只是每步分得的份额不同。这就像一个固定大小的油箱不管你把行程分成多少段加油总油量是不变的。更重要的是研究团队还证明了如果你试图整体放大这个噪声预算比如统一乘以一个大于1的系数后果会非常严重。从理论上看整体放大会破坏SDE和数据分布之间的精确平衡关系导致生成轨迹偏离真实数据的概率路径。从实验上看也印证了这一点当总能量放大到原来的1.05倍仅仅增加5%FID评分衡量生成图像质量的指标越低越好就从约10急剧恶化到20以上而放大到1.1倍时FID高达50以上图像质量几乎完全崩溃。相反如果整体缩小噪声虽然不会立即崩溃但会让生成结果向确定性ODE靠拢丧失随机校正的好处。这个结论的意义在于我们不能通过加大油门来解决某些频率的能量不足问题唯一可行的方案是在固定预算内重新分配——也就是从某些频率挪走一些能量补充到另一些频率上。这正是CNS方法的核心思路。---四、噪声不只是干扰它其实在塑造最终图像在提出CNS方法之前研究团队还做了一项有趣的实验验证了一个重要假设注入的随机噪声并不只是短暂的扰动而是会被模型利用转化为最终图像的结构特征。这个发现听起来有些反直觉。按常理理解随机噪声是生成过程中的扰动项它的作用是帮助模型探索邻域、纠正偏差之后会被得分函数的方向性拉力清除掉。但实验表明事情并没有这么简单。研究人员计算了在整个生成过程中累计注入的噪声总量与最终生成图像在各个频率上的余弦相似度。结果显示两者之间存在相当显著的正相关关系累计注入的噪声在某个频率上的结构倾向与最终图像在这个频率上的表现有明显的关联。换句话说你往哪个频率方向多注入了能量最终图像在那个频率上就可能更丰富。这个发现为CNS方法提供了理论支撑如果注入的噪声会被保留并转化为图像结构那么有意识地把噪声能量引导向当前尚未成型的频率区域就能帮助模型更好地完成那些区域的结构构建。这就好比说助手泼洒的颜料不仅仅是噪声画家实际上会把这些颜料也利用进来——那么助手就应该把颜料泼向那些还没画好的地方。---五、CNS的核心设计按需分配噪声能量有了以上三块基础认识CNS方法的设计逻辑就变得非常自然了。核心思路是这样的在每一个生成步骤中根据当前各个频率的完成度也就是前面说的γ值动态调整注入到每个频率的噪声能量。完成度越低即该频率还有很多结构没有建立好就给它分配更多的噪声能量完成度越高该频率的结构基本已经成型就减少对它的能量分配。同时为了保证总能量预算不变所有频率的能量调整系数的均方根必须严格等于1——也就是拿了这里的必须补到那里。数学上这个调整系数β(f, t)的计算方式是将该频率的结构缺口1 - γ(f, t)开平方然后除以所有频率结构缺口的均方根完成归一化。这个公式保证了能量向最需要补充的地方倾斜同时全局总能量守恒。这个方案还有几个精妙的性质。在生成刚开始时t接近1所有频率都完全没有建立结构γ值都是0所以所有频率的调整系数都等于1——这意味着CNS在初始阶段和标准白噪声SDE完全相同不会给模型带来任何陌生感。随着生成进行各频率的完成度开始分化低频率先行成型CNS就自动把能量从低频挪向高频实现动态的按需分配。到了生成末期低频完全成型高频还在追赶CNS就把几乎所有能量都集中在高频区域全力支持最后的细节填充阶段。在实现层面这个方法的操作非常直接先生成一个标准的白噪声样本然后对其做傅里叶变换按照β(f, t)对每个频率的幅度进行缩放再做逆变换还原到空间域最后做标准差归一化确保能量守恒。整个过程只需要几行代码就能无缝插入到任何现有的SDE生成流程中无需修改模型本身。---六、CNS改变了什么频谱对齐的故事研究团队从频谱分析的角度展示了CNS究竟改变了什么。他们对三种方法ODE、SDE、CNS生成的图像进行了功率谱密度PSD分析并与真实的ImageNet图像进行了比较。结果呈现出一个有趣的格局。标准ODE生成的图像在低频大色块、整体构图上功率偏高说明它倾向于把大轮廓画得过于饱满但在高频细节纹理上功率偏低细节不够丰富。标准SDE生成的图像虽然比ODE在整体上更接近真实但在全频段上整体功率偏低相当于整张画都稍微亮度不足。CNS则最接近真实图像的频谱分布在低频和高频之间取得了更好的平衡对应的频谱误差以对数空间的平均绝对误差衡量也最小ODE的误差为0.155SDE的误差为0.065而CNS的误差仅为0.046。这个频谱上的改进直接对应到了FID评分的改善。在SiT-XL/2架构一个基于潜空间的视频生成模型框架改造的图像模型上不使用分类器自由引导时标准SDE的FID为8.26而CNS将其降低到6.27降幅约24%。在JiT-B/16模型上SDE的FID为36.24而CNS降到了26.69降幅高达26%。在JiT-H/16模型上SDE的FID为11.88CNS降到8.31降幅近30%。在使用分类器自由引导一种通过强化条件信号来提升图像与描述文字匹配程度的技术的情况下改进同样稳定SiT-XL/2的FID从2.06降到1.98JiT-H/16从2.08降到2.03JiT-B/16从4.54降到4.19使用稍低的引导强度时甚至可达4.19。---七、高阶求解器、更多步数CNS全面领先研究团队还系统地测试了CNS在不同求解器和不同采样步数下的表现以验证其普适性。在求解器阶数上团队分别在一阶弱收敛的Euler-Maruyama方法、二阶弱收敛的Heun方法以及Rossler提出的两种二阶随机Runge-Kutta方法SRK2和SRK2S上进行了测试。结果显示在所有这些求解器上CNS版本均优于对应的标准SDE版本。以SiT-XL/2为例Heun求解器下标准SDE的FID为8.00CNS版本降到5.99SRK2求解器下SDE的FID为8.14CNS版本降到5.91SRK2S求解器下SDE的FID为8.77CNS版本降到5.97。这说明CNS带来的改进与求解器的选择无关是一种真正意义上的通用改进。在采样步数上研究表明CNS在步数达到能够正常进行随机模拟的阈值之后FID随步数单调下降始终保持对标准SDE的优势。以Heun求解器为例在1000步时CNS的FID低至5.97而标准SDE的最佳FID为7.83ODE的最佳FID为11.09。CNS用不到一半的步数就能达到ODE的峰值水平这意味着在相同的计算预算下CNS可以获得更好的结果。当然CNS和所有SDE方法一样需要比ODE更多的步数才能充分发挥优势因为随机积分需要更密集的离散化才能正确模拟连续随机过程。这是SDE方法的固有特性CNS并没有改变这一点。---八、文字生成图像也有效FLUX实验除了标准的类别条件图像生成研究团队还把CNS应用到了文字生成图像的场景中具体是在目前业界最先进的FLUX.1-dev和FLUX.2-klein模型上进行了测试。文字生成图像的评估维度更加多元除了图像质量还需要关注生成的图像是否真正理解了输入的文字描述。研究使用了三个指标ImageReward人类偏好评分模拟真实用户的主观感受、CLIPScore图文一致性衡量生成图像与文字描述在语义上的匹配程度以及Aesthetic Score美学评分评价图像的视觉吸引力。测试在DrawBench和GenEval两个综合性文字提示测试集上进行前者专注于测试复杂的文字理解场景如复杂文字渲染、多重属性组合后者则评估精确的组合理解能力如物体数量、空间位置关系。结果显示在FLUX.1-dev上CNS的ImageReward从SDE的0.990提升到1.012CLIPScore从0.689提升到0.693Aesthetic Score从5.804提升到5.812。在FLUX.2-klein上CNS的ImageReward从ODE的0.984提升到1.005同时保持了与标准方法相当的CLIPScore和Aesthetic Score。在GenEval测试中CNS的综合准确率0.647也略高于ODE0.643和SDE0.635且在计数、颜色属性理解和空间位置等细分任务上均有所提升。这些结果说明CNS在提升视觉质量的同时并没有损害模型理解文字描述的能力可以放心地作为文字生成图像流程中的替换求解器。---九、消融实验每个设计选择都有其道理为了验证CNS方法中每个设计选择的必要性研究团队进行了详尽的消融实验系统地测试了各种变体和对比方案所有实验均在SiT-XL/2上以250步Euler求解器运行。首先是全局能量缩放实验验证了方差守恒约束的必要性。将总注入能量统一缩放到各种系数下结果极其敏感缩放到0.9时FID从9.61CNS基准恶化到16.17缩放到1.05时恶化到20.46缩放到1.1时高达50.63而缩放到0.5或2.0时FID分别达到106.82和327.45基本完全失去了生成能力。这个实验有力地证明了能量预算守恒的重要性。然后是时序扰动实验验证了动态时序分配的必要性。研究团队设计了三种对CNS时序安排进行破坏的方案用时间轴上的平均频谱代替动态变化固定频谱随机打乱时序乱序安排以及将时序完全反转倒序安排。这三种方案虽然保留了总能量注入模式但破坏了在正确的时刻把能量注入到正确的频率这一关键特性FID分别恶化到10.53、10.46和10.50相比CNS的9.61均有明显下滑。这说明不仅要注入到正确的频率还必须在正确的时机注入。此外研究团队还测试了向25%、50%或100%的时间步骤注入随机白噪声的情况发现任何比例的白噪声混入都会降低性能且混入比例越高性能越差再次确认了精确的频率路由策略的价值。最后研究团队还测试了多分形布朗运动mBm作为时变彩色噪声生成方式的效果。mBm是一种数学上较为优雅的方案通过改变Hurst参数来控制噪声颜色随时间的变化。然而由于mBm只能沿频率轴做整体性的倾斜缺乏CNS那种对每个频率带精细独立控制的能力其最佳配置白噪声到蓝噪声H从0.5变化到0.25的FID为11.88高于CNS的9.61说明精细的逐频率控制比整体谱倾斜更为有效。---十、对替代训练范式的兼容性BNDM实验研究团队还专门测试了CNS是否能为那些在训练阶段就已经考虑了谱偏置的模型带来额外增益以排除CNS只是弥补了标准训练的不足这一可能性。测试对象是BNDM蓝噪声扩散模型这是一种在训练时就采用了随时间变化的白到蓝噪声分布的模型旨在通过改变训练目标来引导模型更好地利用谱偏置。由于BNDM使用了非标准的前向过程研究团队需要为其量身定制一个对应的SDE求解器然后在此基础上接入CNS。在两个64×64的数据集上AFHQ猫脸数据集和LSUN教堂建筑数据集BNDMODE的FID分别为7.95和10.16而加入CNS之后分别降低到7.49和8.70改进幅度相当可观。相比之下BNDM标准SDE的FID却高达18.80和66.71说明标准白噪声SDE对BNDM的训练范式适应性很差而CNS不仅解决了这个问题还进一步提升了质量。这个实验说明CNS带来的增益并不依赖于模型训练方式它是一种真正的推理时改进能够与各种不同的训练范式协同工作提供互补的额外价值。---说到底这项研究做的事情说起来其实很朴素它发现了一个AI绘画过程中长期存在的低效环节然后用一个相对简洁的数学工具把它修好了而且整个修复过程完全不需要重新训练模型。这对普通用户意味着什么意味着你手边已有的那些图像生成工具理论上可以通过更换采样方式在不增加任何计算成本的前提下生成更清晰、细节更丰富的图像。你无需等待新一代更大的模型也无需购买更贵的硬件——只需要更聪明地使用现有的模型就够了。当然这个方法目前还有一个限制它依赖于随机微分方程框架对确定性ODE采样器无效而ODE采样器恰好是目前低步数快速生成场景的主流选择。研究团队也坦承了这一局限并表示未来希望探索如何将频率感知的能量路由引入确定性采样框架以及如何把这套思路延伸到视频生成领域那里还多了一个时间频率维度可以利用。对这项工作感兴趣的读者可以通过arXiv编号2605.30332查阅完整论文以及访问研究团队发布的项目主页hadardavidson.github.io/CNS/查看更多可视化结果和代码实现。---QAQ1彩色噪声采样CNS和普通扩散模型采样相比到底改了什么ACNS改变的是在图像生成过程中向系统注入随机噪声的方式。普通方法是每一步都向所有频率均匀注入相同能量的白噪声CNS则会在每一步根据各个频率当前的完成进度动态分配能量把更多噪声能量引导到尚未成型的频率区域同时减少对已经成型区域的能量注入且总能量始终守恒。Q2CNS需要重新训练扩散模型才能使用吗A不需要。CNS是一种纯推理时方法只替换采样过程中的噪声注入策略不修改模型权重也不改变模型结构。任何已有的扩散模型只需更换求解器就能使用CNS是真正的即插即用方案。Q3为什么扩散模型生成图像时会先画轮廓再画细节A这是扩散模型固有的谱偏置特性根源在于神经网络在学习时倾向于先拟合低频平滑、整体信息后拟合高频精细、局部信息。在图像生成的逆向过程中这种学习偏好体现为模型在早期步骤中主要修正整体布局在晚期步骤中才精细化纹理细节类似于画家先定构图后填细节的工作习惯。