TPAMI 2025 | SeCoV2 全新框架:连通性级伪标签,让跨域语义分割再破 SOTA
点击上方“小白学视觉”选择加星标或“置顶” 重磅干货第一时间送达在计算机视觉领域跨域语义分割CDSS一直是实现模型泛化能力的核心方向——毕竟现实场景中分割模型总要面对和训练数据“画风迥异”的环境从合成的虚拟城市场景到真实街道从晴朗白天到暴雨黑夜甚至还要应对从未见过的新类别。伪标签生成作为CDSS的主流策略却在严重域偏移下栽了跟头像素级伪标签支离破碎、噪声满溢直接拖垮模型性能。近期一篇发表于TPAMI 2025的研究提出了SeCoV2框架从“语义连通性”这一全新视角重构伪标签生成逻辑不仅解决了像素级伪标注的痛点还在6类极具挑战性的CDSS任务中实现平均4.6%的性能提升刷新了多个基准测试的SOTA结果。今天我们就来拆解这个兼顾鲁棒性与通用性的跨域分割新方案。论文信息题目 SeCoV2: Semantic Connectivity-Driven Pseudo-Labeling for Robust Cross-Domain Semantic Segmentation语义连通性驱动的伪标注用于鲁棒跨域语义分割的SeCoV2框架作者 Dong Zhao, Qi Zang, Nan Pu, Shuang Wang, Nicu Sebe, Zhun Zhong一、痛点直击像素级伪标签为何“不堪大用”伪标签生成的核心思路是用模型高置信度预测为无标注的目标域数据打标签让模型自我迭代优化。但在严重域偏移比如开放集场景下这个思路暴露出两大致命问题结构碎片化高置信度像素孤立分散无法形成连贯的语义结构——就像拼图只捡了些零散碎片模型根本学不到完整的目标特征语义噪声多未知类像素常被误分类到已知类别尤其是开放集场景中噪声问题会被进一步放大。传统方法试图用SAM等基础分割模型优化伪标签却又陷入新困境要么提示点选得不好导致掩码出错要么语义粒度混乱比如把交通标志和杆子合并成一个区域反而引入更多噪声。二、SeCoV2核心框架从像素到连通性重构伪标签生成逻辑SeCoV2的核心创新是将伪标签的构建和优化从“像素级”升级到“语义连通性级别”——把高置信度像素聚合为连贯的语义区域让噪声识别和校正从“逐像素找茬”变成“按区域排查”难度大幅降低。整个框架的核心流程如图3所示主要包含两大模块像素语义聚合PSA和语义连通性校正SCC其中SCC又分为轻量级的SCC-LD和增强版的SCC-UncSeCoV2的核心升级点。图3SeCo框架整体流程包含PSA模块和两种SCC校正变体1. 像素语义聚合PSA给SAM加“双重提示”聚合出精准语义区域PSA的目标是利用SAM等基础分割模型的像素分组能力把碎片化的像素级伪标签聚合成“结构完整、语义精准”的连通性区域。关键解决了传统SAM使用中“语义粒度模糊”的问题设计了双重提示策略事物类别如车辆、行人用类别对齐的点提示框提示引导SAM精准分割出实例级掩码避免不同实例混为一谈背景类别如道路、天空采用区域对齐的方式让SAM生成的掩码保持背景的结构完整性减少噪声提示的影响。对比传统方法图4双重提示策略既避免了点提示易受噪声影响的问题又解决了语义对齐策略粒度混乱的缺陷最终生成形态规整、语义明确的连通性区域。图4不同SAM交互策略的对比SeCo的双重提示策略有效规避噪声和粒度问题2. 语义连通性校正SCC给连通性区域“去噪校正”PSA聚合出的连通性区域仍可能存在语义噪声SCC模块就是专门的“去噪器”SeCoV2提供了两种方案1SCC-LD轻量级损失分布去噪SCC-LD把每个连通性区域当成独立样本构建轻量级分类器利用“噪声标签训练中的早期停止现象”——干净样本学得快、损失低噪声样本损失高且难收敛。通过拟合双分量高斯混合模型SCC-LD能清晰区分低损失的干净区域和高损失的噪声区域图5a-c过滤掉高噪声区域对高置信度的噪声区域做校正最终保留可靠的伪标签。2SCC-Unc不确定性感知的图校正SeCoV2核心升级SCC-LD的问题是“孤立处理每个区域”忽略了区域间的上下文依赖——而语义分割的核心正是结构一致性。SeCoV2的SCC-Unc模块通过“图建模不确定性估计”解决了这个问题构建连通性图按类别分组连通性区域节点代表区域边的权重由语义相似度和空间相似度共同决定把区域间的关联建模出来GraphVAE估计不确定性用图卷积变分自编码器GraphVAE学习区域的潜在表示结合“预测熵语义不确定性”和“KL散度结构偏差”得到更全面的不确定性度量图一致性校正对高不确定性区域利用图的拉普拉斯平滑从可靠的相邻区域传播校正信号实现结构感知的噪声校正。从图5d-f可以看到SCC-Unc的不确定性分布呈现更清晰的双峰分离能更精准地区分干净和噪声区域校正效果远超SCC-LD。图5SCC-LD的损失分布a-c与SCC-Unc的不确定性分布d-f对比后者分离效果更优三、SeCoV2的泛化能力覆盖6类高难度CDSS任务SeCoV2不是只针对单一场景的“定制方案”而是能无缝扩展到各类挑战性CDSS任务源自由/黑盒UDA无访问源数据的情况下仅用预训练模型预测作为初始伪标签就能完成适配开放集UDAOSDA新增“未知”类别分类头精准区分开放集噪声和封闭集噪声图6a多模态UDAMMDA把视觉分支校正后的2D伪标签迁移到激光雷达分支解决模态偏移问题图6b半监督域泛化SSDG处理Stable Diffusion生成的开放世界合成数据有效利用未标记样本。图6SeCoV2适配OSDA和MMDA场景的核心调整从图2的雷达图能直观看到SeCoV2在UDA、SFDA、BBDA、OSDA、MMDA、SSDG六大任务中全面超越SeCoV1展现出极强的泛化能力。图2SeCoV1与SeCoV2在各类CDSS任务中的性能对比四、实验验证多场景刷新SOTA平均提升4.6%研究者在城市场景GTA5、Cityscapes、ACDC等、医疗场景EndoVis18、遥感场景ISPRS等多个数据集上做了全面验证封闭集UDA在GTA5→Cityscapes、SYNTHIA→Cityscapes等经典任务中SeCoV2集成到各类基线方法后均实现3.0%-7.0%的mIoU提升开放集UDA在Stable Diffusion生成的开放集城市场景数据上有效区分未知类别解决伪标签崩溃问题多模态/半监督泛化在nuScenes、SemanticKITTI等多模态数据集以及Stable Diffusion合成数据的半监督泛化任务中均显著超越现有方法跨领域适配在医疗手术分割、遥感图像分割等非城市场景中仍保持稳定的性能提升证明框架的通用性。此外SeCoV2还兼容SAM、SEEM、Fast-SAM等多款基础分割模型不挑骨干网络落地性极强。五、总结从“像素”到“连通性”重构跨域分割伪标注逻辑SeCoV2的核心价值在于跳出了像素级伪标注的固有思维把“语义连通性”作为伪标签构建和优化的基本单元——这一范式转变既解决了碎片化和噪声问题又通过图建模、不确定性估计等设计保留了语义分割所需的结构一致性。无论是封闭集/开放集、单模态/多模态还是源自由/半监督泛化场景SeCoV2都能稳定发挥作用平均4.6%的性能提升看似不多却在跨域分割这一“卷到极致”的领域为鲁棒性适配提供了全新的思路。对于实际应用来说这种通用、可扩展的框架也让分割模型真正能走出实验室适配多样化的现实环境。未来这一“连通性级别”的伪标注思路或许还能延伸到视频分割、3D分割等更多任务中——毕竟任何需要结构完整性的分割场景都能从“像素碎片”到“语义区域”的转变中受益。下载1OpenCV-Contrib扩展模块中文版教程在「小白学视觉」公众号后台回复扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。下载2Python视觉实战项目52讲在「小白学视觉」公众号后台回复Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目助力快速学校计算机视觉。下载3人工智能0基础学习攻略手册在「小白学视觉」公众号后台回复攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源可以下载离线学习。交流群欢迎加入公众号读者群一起和同行交流目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群以后会逐渐细分请扫描下面微信号加群备注”昵称学校/公司研究方向“例如”张三 上海交大 视觉SLAM“。请按照格式备注否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告否则会请出群谢谢理解~