【即插即用完整代码】2026 ICML “你的融合算法，敢挑战这种“地狱难度”吗？”

张

张建站

2026/5/2 11:05:45

10分钟阅读

【即插即用完整代码】2026 ICML “你的融合算法，敢挑战这种“地狱难度”吗？”

专栏内提供试读感兴趣的小伙伴可以订阅一下哈适用于所有的CV二维任务图像分割、超分辨率、目标检测、图像识别、低光增强、遥感检测等每日分享最新的前沿技术助力快速发论文、模型涨点一、摘要多模态图像融合技术通过整合来自不同传感器比如红外和可见光的图像信息在应急救援、安防监控等领域发挥着至关重要的作用。它能够将可见光丰富的纹理细节与红外图像突出的热目标信息结合起来生成全天候适用的融合图像。然而现实世界中的成像系统常常面临严峻挑战。比如可见光图像容易受到噪声、模糊、雾霾等多种混合因素的干扰而红外图像则由于其独特的成像原理常常出现条纹噪声。这些退化问题会严重破坏原始图像的质量导致后续的融合效果大打折扣最终影响高级视觉任务的性能。为了应对这些挑战本文提出了一种任务门控多专家协作网络简称TG-ECNet。这个模型的核心在于其“任务感知门控”与“多专家协作”的框架设计。具体来说任务感知门控在两个关键阶段发挥作用首先退化感知门控会根据输入图像的退化类型动态地分配不同的“专家”处理单元来进行图像恢复然后融合感知门控在融合阶段指导不同模态特征的整合以平衡融合和恢复这两个任务之间的信息保留。为了实现这一目标作者设计了一个两阶段的训练策略。第一阶段专注于学习图像恢复第二阶段则专注于学习图像融合。这种策略巧妙地解决了恢复和融合任务在信息处理上的内在冲突使得模型能够“一气呵成”地完成多模态图像的恢复与融合。最终的实验结果表明TG-ECNet在多种复杂的退化条件下显著提升了融合性能并增强了在下游应用中的鲁棒性。二、引言引言部分进一步阐述了研究的背景和动机。正如摘要中提到的多模态图像融合的应用前景广阔。但是当融合的输入图像本身是“带病”的即存在各种退化时融合的效果就会受到严重影响。直接的思路是先恢复、再融合也就是串联两个任务。但这种“头痛医头、脚痛医脚”的方式存在两大问题一是需要为每种退化类型准备专门的恢复模型成本高昂二是恢复和融合过程是割裂的恢复任务可能会抹去对融合有用的特征而融合任务也可能将恢复不彻底的问题放大。目前的一些先进方法比如DRMF和Text-IF尝试通过扩散模型或文本引导的方式将恢复和融合统一起来。但如图1所示在面对包含多种退化的复杂图像时这些方法仍然力不从心融合结果中细节丢失、噪声残留等问题依然明显。因此本文提出的TG-ECNet正是为了填补这一空白通过一个统一的框架优雅地解决多模态图像在多重退化下的融合难题。三、创新点那么TG-ECNet的创新之处具体体现在哪里呢主要有以下三点第一统一的“一站式”框架。论文提出了一个能够同时处理多模态图像恢复和融合的统一框架。通过两阶段的训练策略模型能够学习如何在不同任务间传递和共享信息同时又能避免任务间的相互干扰真正实现了“一站式”处理。第二任务感知门控与多专家协作模块。这是模型的核心“大脑”。它由两部分组成退化感知门控这个模块像一个智能“分诊台”能够识别输入图像的退化类型比如是噪声、模糊还是条纹然后动态地选择最合适的“专家团队”来进行精准的图像修复。融合感知门控在融合阶段这个模块像一个“指挥家”动态地平衡来自可见光和红外两支“乐队”的信息决定让哪些特征在最终融合结果中“主奏”从而确保融合图像信息丰富、质量上乘。第三构建了大规模基准数据集DeMMI-RF。为了推动该领域的研究作者还构建了一个包含超过30,000对多模态图像的大规模基准数据集。这个数据集涵盖了从无人机航拍到道路监控等多种视角包含了高斯噪声、雾霾、散焦模糊和条纹噪声等多种退化类型为算法的训练和评测提供了强大的“练兵场”。四、实验实验设置作者在两个数据集上进行了实验一个是自己构建的DeMMI-RF数据集另一个是公开的EMS数据集。对比的方法分为两类一类是像DenseFuse、CDDFuse这样的纯融合模型需要先用一个名为AdaIR的恢复模型预处理退化图像另一类是像AWFusion、DRMF、Text-IF这样试图统一恢复和融合的模型。实验涵盖了去噪、去雾、去模糊、去条纹等多种单一及混合退化任务。实验结果单一退化任务可见光图像去噪如图5所示在噪声干扰下TG-ECNet能有效去除噪声同时清晰保留图像的边缘和纹理而其他方法要么去噪不彻底要么导致图像过度模糊。可见光图像去雾在有雾的场景中TG-ECNet平衡了去雾和融合既清除了雾霾又保留了自然的色彩和红外信息。相比之下一些方法虽然去雾了但颜色失真另一些则保留了雾霾。可见光图像去模糊面对散焦模糊TG-ECNet能够锐利地恢复出细节纹理融合后的图像清晰度远超其他方法。红外图像去条纹针对红外图像特有的条纹噪声TG-ECNet在有效抑制噪声的同时最大限度地保留了红外图像的热目标细节避免了像DRMF那样在去噪时丢失大量信息的问题。定量结果从表1和表7-11的数据可以看出无论是在DeMMI-RF还是EMS数据集上TG-ECNet在PSNR峰值信噪比、MS-SSIM结构相似性等多个关键指标上都全面超越了所有对比方法。例如在DeMMI-RF数据集上TG-ECNet的平均PSNR达到了30.58远高于第二名的30.22。复杂多重退化任务这是最能体现模型鲁棒性的实验。如表2和图6所示当图像同时被噪声、雾霾、模糊和条纹噪声“围攻”时大多数方法都招架不住融合结果中各种退化残留混杂。而TG-ECNet依然能够有效地抑制所有类型的退化并融合出清晰、信息丰富的图像。真实场景与下游任务评估真实世界图像如图8所示在真实拍摄的雾天图像上TG-ECNet的融合效果与专为该场景设计的AWFusion非常接近证明了其在实际应用中的潜力。目标检测如表4所示将融合后的图像送入YOLOv5目标检测器TG-ECNet在mAP50平均精度均值和AP(0.5:0.95)指标上均取得了最高分这意味着高质量融合直接提升了高级视觉任务的性能。语义分割如图7和图10所示在分割任务中基于TG-ECNet融合结果的分割掩码更加精准能够清晰区分出“汽车”和“人”的轮廓避免了其他方法中常见的误检和漏检。消融实验为了验证每个模块的有效性作者进行了消融实验。从表3可以看出无论是去掉任务感知门控、去掉多专家模块还是改用单阶段训练策略模型的性能都有所下降。这充分证明了论文提出的各个创新组件都是不可或缺的它们共同协作才成就了TG-ECNet的卓越性能。五、结论本文提出的任务门控多专家协作网络TG-ECNet为退化多模态图像融合问题提供了一个全新的、高效的解决方案。通过巧妙地将任务感知门控、多专家协作与两阶段训练策略相结合TG-ECNet成功地将图像恢复与融合统一在一个端到端的框架内优雅地解决了多重退化带来的挑战。在多个数据集和复杂场景下的实验结果表明TG-ECNet不仅在融合质量上超越了现有的最先进方法更在下游任务中展现了更强的鲁棒性和应用潜力。此外作者构建并开源的DeMMI-RF大规模基准数据集也将为整个领域的未来发展提供宝贵的资源。如果你对多模态图像融合或底层视觉任务感兴趣这篇工作无疑提供了非常有价值的思路和参考。每日分享最新的前沿技术助力快速发论文、模型涨点欢迎点赞关注评论转发添加下方个人微信