点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。1. 引言视频目标分割是计算机视觉领域一项基础而富有挑战性的任务。给定一段视频序列其目标是将用户指定的一个或多个前景目标从背景中逐帧分离出来。与静态图像分割不同视频目标分割不仅要求每一帧的分割结果精确更要求分割掩码在时间轴上保持时空一致性——目标轮廓在相邻帧间平滑过渡不出现闪烁、漂移或断裂。这项技术在众多领域有着广泛的应用需求影视后期制作中需要将演员从绿幕背景中抠出自动驾驶场景下需持续跟踪并分割前方车辆与行人移动端AR特效中需实时分割人体以实现背景替换视频编辑软件中“一键抠图”功能依赖精准的视频分割。然而与图像分割相比视频目标分割面临着独特的挑战目标外观变化运动模糊、姿态变化、光照变化、尺度缩放等使得目标外观持续演变。遮挡与重现目标被其他物体或自身遮挡后重新出现模型需重新识别。相似物体干扰场景中存在与目标外观相似的干扰物易导致分割漂移。计算效率视频帧率高、时长不定要求算法兼具精度与速度。根据用户交互程度视频目标分割通常分为三类设定半监督视频目标分割首帧提供目标的精确掩码标注模型需在后续帧中自动分割该目标。这是最经典且应用最广的设定也是本文论述重点。无监督视频目标分割不提供任何人工标注模型需自动发现并分割视频中的显著运动目标。通常用于视频摘要、运动分析等场景。交互式视频目标分割用户可在任意帧提供修正如涂鸦、点击模型实时更新分割结果。是半监督设定的扩展。本文将聚焦于半监督与无监督设定下时空一致性与在线适应两大核心机制的深入剖析。第2节介绍视频目标分割的问题定义与评估体系第3节系统阐述基于光流与特征传播的时空一致性方法第4节深入基于记忆网络的长程时空建模第5节详述在线适应与测试时微调技术第6节对比传播式与匹配式范式的演进脉络第7节给出代表性模型的代码示例第8节讨论实际应用中的工程考量第9节展望未来趋势第10节总结全文。2. 问题定义与评估体系2.1 半监督视频目标分割形式化设视频序列包含T TT帧图像{ I 1 , I 2 , … , I T } \{\mathbf{I}_1, \mathbf{I}_2, \dots, \mathbf{I}_T\}{I1​,I2​,…,IT​}。在半监督设定下首帧目标掩码M 1 ∈ { 0 , 1 } H × W \mathbf{M}_1 \in \{0,1\}^{H \times W}M1​∈{0,1}H×W已知可包含多个目标以不同实例ID区分。任务目标是生成所有后续帧的掩码{ M 2 , … , M T } \{\mathbf{M}_2, \dots, \mathbf{M}_T\}{M2​,…,MT​}使得每帧中目标像素被精确标记且掩码序列保持时间平滑。与图像分割的本质区别在于视频提供了时序上下文。如何有效利用帧间冗余信息和运动线索是视频目标分割算法的核心设计空间。2.2 评估指标视频目标分割的评估沿用图像分割的Jaccard指数交并比IoU和轮廓F1分数同时引入时序稳定性度量。区域相似度J \mathcal{J}J预测掩码与真实掩码的交集除以并集即平均IoU。J ∣ M pred ∩ M gt ∣ ∣ M pred ∪ M gt ∣ \mathcal{J} \frac{|\mathbf{M}_{\text{pred}} \cap \mathbf{M}_{\text{gt}}|}{|\mathbf{M}_{\text{pred}} \cup \mathbf{M}_{\text{gt}}|}J∣Mpred​∪Mgt​∣∣Mpred​∩Mgt​∣​。轮廓精度F \mathcal{F}F基于轮廓的F1分数从边界精确性角度评估分割质量。时序稳定性计算相邻帧预测掩码的差异评估分割结果在时间轴上的抖动程度。常用指标为时序一致性误差。在DAVIS基准上通常报告J \mathcal{J}J和F \mathcal{F}F的均值J F \mathcal{J}\\mathcal{F}JF作为综合性能指标。2.3 常用数据集DAVIS密集标注视频分割数据集包含高分辨率视频序列和精确的像素级标注是半监督视频目标分割的标准基准。YouTube-VOS大规模视频目标分割数据集包含4000视频片段标注了多目标实例支持长序列评估。FBMS运动分割数据集侧重于快速运动和多目标场景。3. 基于光流与特征传播的时空一致性视频的天然属性是相邻帧之间具有高度的视觉连续性。这一观察催生了最早的一类视频目标分割方法将首帧标注通过运动信息传播至后续帧。3.1 光流引导的掩码传播光流描述了像素在相邻帧间的运动矢量。若已知t tt帧的掩码M t \mathbf{M}_tMt​和t tt到t 1 t1t1的光流场F t → t 1 \mathbf{F}_{t \to t1}Ft→t1​则可通过双线性扭曲将掩码传播至下一帧M t 1 warp ( x , y ) M t ( x u , y v ) \mathbf{M}_{t1}^{\text{warp}}(x, y) \mathbf{M}_t(x u, y v)Mt1warp​(x,y)Mt​(xu,yv)其中( u , v ) F t → t 1 ( x , y ) (u, v) \mathbf{F}_{t \to t1}(x, y)(u,v)Ft→t1​(x,y)。这种朴素传播存在两个严重问题光流误差累积光流估计本身存在误差长序列传播会导致掩码逐渐漂移。遮挡区域失效被遮挡的像素在下一帧无对应位置传播掩码出现空洞。MaskTrack首次将光流传播与深度网络结合。它训练一个从光流扭曲掩码和当前帧RGB图像到精细掩码的映射网络用CNN修正光流传播的误差。其训练数据通过图像级分割标注辅以仿射变换和薄板样条插值合成。Lucia进一步提出仅用首帧标注无法应对目标的大幅度形变。它在传播过程中每隔若干帧选取高置信度掩码作为“伪标注”加入训练集微调分割网络实现在线适应。3.2 特征空间的时序传播光流传播在像素空间操作易受遮挡和光照变化影响。特征传播将操作提升至深度特征空间更具鲁棒性。RGMP是特征传播的代表性工作。它构建了一个双流编码器一分支提取当前帧的视觉特征另一分支接收上一帧的掩码经卷积编码。两分支特征融合后送入解码器生成当前帧掩码。训练时输入“参考帧参考掩码”和“目标帧”迫使网络学习如何利用历史掩码信息。RGMP无需在线微调推理速度较快但对目标外观剧烈变化的适应能力有限。FEELVOS采用像素级嵌入匹配策略。它提取当前帧每个像素的特征向量与首帧及上一帧的像素特征进行最近邻匹配将匹配得分与全局前景/背景概率融合经CRF后处理输出最终掩码。FEELVOS通过局部匹配避免了对光流的依赖对遮挡和形变更鲁棒。3.3 时空注意力机制特征传播的另一条路径是时空注意力。将视频帧视为序列利用自注意力或交叉注意力捕捉长距离依赖。STM首次将时空记忆网络引入视频目标分割。它维护一个动态更新的记忆库存储历史帧的键值对键为编码后的像素特征值为对应的掩码标签。对于当前帧的每个像素STM通过多头注意力从记忆库中检索最相关的历史像素聚合其掩码信息生成当前帧预测。记忆库的维护策略是STM的核心每隔若干帧如5帧将当前帧的编码特征和预测掩码加入记忆库同时淘汰过旧的记忆项。这种记忆读写机制使得模型能够持续利用长程历史信息有效应对遮挡重现和大幅度形变。AOT进一步改进了STM的注意力机制提出关联Transformer将长程注意力与短程传播统一于同一框架同时支持多目标分割在YouTube-VOS上大幅超越此前方法。4. 基于记忆网络的长程时空一致性记忆网络为视频目标分割带来了革命性突破其核心思想可概括为将历史信息压缩为可检索的键值记忆供当前帧查询。4.1 记忆库的构建与更新记忆库M { ( k i , v i ) } i 1 N \mathcal{M} \{(\mathbf{k}_i, \mathbf{v}_i)\}_{i1}^NM{(ki​,vi​)}i1N​存储了历史帧中每个像素的键用于检索的特征和值对应的掩码标签。键由编码器从RGB图像和可选的历史掩码中提取值则直接采用真实掩码首帧或高置信度的预测掩码后续帧。更新策略决定了记忆库的有效性和紧凑性均匀采样每隔固定帧间隔将当前帧加入记忆库。置信度筛选仅当预测掩码的置信度高于阈值时加入避免错误记忆污染。遗忘机制当记忆库容量达到上限时移除最旧或信息量最低的记忆项。记忆压缩对记忆项进行聚类或特征降维保持紧凑表示。4.2 记忆读取与掩码解码对于当前帧的每个像素位置其查询向量q \mathbf{q}q由当前帧编码器输出。记忆读取操作计算q \mathbf{q}q与所有记忆键的相似度并加权聚合记忆值v out ∑ i 1 N softmax ( q ⋅ k i d ) v i \mathbf{v}_{\text{out}} \sum_{i1}^N \text{softmax}\left( \frac{\mathbf{q} \cdot \mathbf{k}_i}{\sqrt{d}} \right) \mathbf{v}_ivout​i1∑N​softmax(d​q⋅ki​​)vi​这一过程等价于在记忆库中执行软寻址。解码器接收当前帧特征和聚合记忆值输出最终的分割掩码。4.3 代表性记忆网络对比模型记忆形式更新策略注意力机制特点STM每帧所有像素每隔5帧添加容量满时随机淘汰多头空间注意力开创记忆网络范式精度高STCN每帧所有像素基于L2距离的淘汰策略交叉注意力自注意力改进记忆管理减少冗余AOT批量帧记忆层级化记忆组关联Transformer支持多目标高效XMem长期短期记忆长期记忆驻留短期记忆滑动窗口统一注意力融合传播与匹配SOTA性能XMem是最新的集大成者。它观察到不同时间尺度的记忆扮演不同角色——长期记忆提供稳定的目标外观模板短期记忆捕捉最新的运动和形变。XMem设计了三重记忆流感知记忆全局长时、工作记忆短时滑动窗口、长时记忆压缩后的原型。三者通过统一的Transformer注意力交互在DAVIS和YouTube-VOS上均达到最优精度且推理速度远超STM。5. 在线适应测试时微调与动态模板演化记忆网络解决了“如何有效利用历史信息”但目标外观可能发生训练集未曾覆盖的剧变如从正面转为背面、被遮挡后露出不同部位。在线适应赋予模型在测试时持续调整参数或更新内部状态的能力以应对未见的外观变化。5.1 测试时微调OSVOS是首个将在线微调引入视频目标分割的工作。其流程分为三步离线预训练在大规模图像分割数据集如COCO、PASCAL上训练一个通用的前景/背景分割网络。首帧微调测试时利用首帧提供的精确掩码对预训练模型进行数百次迭代微调使网络专门化于当前目标的外观。逐帧传播微调后的模型对后续帧进行分割。为应对目标外观变化OSVOS每隔若干帧利用高置信度分割结果再次微调模型。OSVOS在DAVIS 2016上取得了当时最优性能但其首帧微调耗时较长每视频约数分钟难以实时应用。OnAVOS扩展了在线适应的数据来源不仅使用首帧标注还将后续帧的高置信度预测区域作为伪标签加入微调集。同时利用光流检测预测失败的区域从失败中恢复。5.2 动态模板演化在线微调虽有效但计算代价高昂。轻量级的在线适应通过维护可演化的目标模板实现。RANet维护一个目标外观模板在每一帧用当前预测更新模板T t α T t − 1 ( 1 − α ) F t \mathbf{T}_t \alpha \mathbf{T}_{t-1} (1-\alpha) \mathbf{F}_tTt​αTt−1​(1−α)Ft​其中F t \mathbf{F}_tFt​为当前帧提取的目标区域特征。这种指数滑动平均使模板平滑演化既能适应外观变化又不会因单帧错误而剧烈抖动。LWLLearning What to Learn将在线适应形式化为元学习问题。它训练一个独特的目标模型该模型以极少量样本首帧标注和少量梯度步即可快速适应新目标。LWL在测试时仅需在首帧执行一次轻量微调后续无需再调兼顾了精度与速度。5.3 记忆与适应的融合现代视频目标分割模型将记忆网络与在线适应融为一体。XMem的记忆库本身即是一种隐式在线适应——通过持续吸收新帧的高质量特征记忆库自然地反映了目标最新的外观状态无需显式微调网络权重。这种无参数的在线适应规避了微调的计算开销和过拟合风险是当前的主流范式。6. 传播式与匹配式范式的对比与融合回顾视频目标分割的技术演进可归纳为两条路线传播式方法从首帧出发逐帧将掩码传递下去。代表为MaskTrack、RGMP。优势是时序平滑性好短时精度高劣势是长时传播易漂移难以从遮挡中恢复。匹配式方法将当前帧与首帧及历史帧进行像素级匹配独立推断掩码。代表为FEELVOS、STM。优势是对遮挡和形变鲁棒可长距离跳跃检索劣势是匹配误差可能导致掩码碎片化时序一致性弱于传播式。两种范式并非互斥。XMem的精妙之处在于工作记忆模拟短程传播长时记忆提供全局匹配感知记忆融合两者。这种统一框架集两者之长达到了当前最优的精度与鲁棒性。7. 核心代码示例7.1 光流掩码传播importtorchimporttorch.nn.functionalasFdefwarp_mask_with_flow(mask,flow): mask: [B, 1, H, W] 二值掩码 flow: [B, 2, H, W] 光流场 (dx, dy) B,C,H,Wmask.shape# 构建采样网格grid_y,grid_xtorch.meshgrid(torch.arange(H,devicemask.device),torch.arange(W,devicemask.device),indexingij)gridtorch.stack([grid_x,grid_y],dim0).float()# [2, H, W]gridgrid.unsqueeze(0).expand(B,-1,-1,-1)# [B, 2, H, W]# 光流定义的是从t到t1的运动因此采样网格需减去光流逆扭曲sample_gridgrid-flow sample_grid[:,0]2.0*sample_grid[:,0]/(W-1)-1.0sample_grid[:,1]2.0*sample_grid[:,1]/(H-1)-1.0sample_gridsample_grid.permute(0,2,3,1)# [B, H, W, 2]warped_maskF.grid_sample(mask,sample_grid,modebilinear,align_cornersTrue)returnwarped_mask7.2 记忆读取模块简化版STMclassMemoryReader(nn.Module):def__init__(self,key_dim,value_dim):super().__init__()self.key_convnn.Conv2d(key_dim,key_dim,1)self.query_convnn.Conv2d(key_dim,key_dim,1)defforward(self,query_feat,memory_keys,memory_values): query_feat: [B, C, H, W] 当前帧查询特征 memory_keys: [N, C, h, w] 记忆键N个历史帧 memory_values: [N, 1, h, w] 记忆值掩码 B,C,H,Wquery_feat.shape Nmemory_keys.shape[0]# 将查询特征展平queryself.query_conv(query_feat).view(B,C,-1)# [B, C, HW]# 将记忆键展平keysself.key_conv(memory_keys).view(N,C,-1)# [N, C, hw]valuesmemory_values.view(N,-1)# [N, hw]# 计算注意力attntorch.einsum(bck,nck-bnk,query,keys)# [B, N, HW*hw?]# 实际实现中需处理维度匹配此处为示意attnattn/(C**0.5)attnF.softmax(attn,dim-1)# 聚合记忆值outtorch.einsum(bnk,nk-bk,attn,values)# [B, HW]outout.view(B,1,H,W)returnout7.3 在线模板更新classOnlineTemplateUpdater:def__init__(self,momentum0.9):self.momentummomentum self.templateNonedefupdate(self,current_feat,mask):current_feat: 当前帧目标区域的特征均值ifself.templateisNone:self.templatecurrent_featelse:self.templateself.momentum*self.template(1-self.momentum)*current_featdefget_template(self):returnself.template8. 实际应用中的工程考量8.1 实时性与边缘部署高精度模型如XMem、AOT在GPU上可达10-20 FPS但在边缘设备Jetson Nano、树莓派上难以实时。轻量化设计包括使用MobileNetV2等轻量骨干替代ResNet。限制记忆库容量或采用记忆压缩技术。推理时跳帧传播每N帧执行一次完整推理中间帧用光流插值。8.2 多目标分割与实例区分YouTube-VOS等基准要求同时分割多个目标并保持身份ID。主流方法为每个目标独立维护一条记忆流或使用统一的实例感知记忆。AOT通过实例掩码编码实现了高效的多目标并行处理。8.3 失败恢复与交互修正实际应用中用户可能期望在分割失败时进行干预。交互式视频目标分割允许用户在任意帧提供涂鸦或点击模型将修正传播至双向时序。MiVOS和FGT是代表性框架通过局部记忆更新实现秒级响应。9. 未来展望9.1 大模型时代的视频分割SAMSegment Anything在图像分割上的成功激发了对视频SAM的探索。SAM-PT、TAM等工作尝试将SAM的提示分割能力扩展至视频通过点追踪或掩码传播实现零样本视频分割。未来一个统一的视频分割大模型有望以极低交互成本完成复杂场景分割。9.2 自监督与无监督预训练当前视频分割严重依赖大规模标注数据DAVIS、YouTube-VOS。自监督预训练如掩码自编码、对比学习可从海量未标注视频中学习时序一致性表征降低标注依赖。VFS、CorrFlow等工作已展现潜力。9.3 3D场景与多视角分割随着NeRF和3D高斯泼溅的兴起视频目标分割正从2D像素扩展至3D空间。分割结果可直接映射至辐射场实现任意视角的一致分割。这对AR/VR、影视特效具有重大应用价值。9.4 长视频与终身学习现有基准视频时长多为数秒至数十秒。真实应用如监控、直播需处理长达数小时的视频流。终身学习式的视频分割——模型持续适应新场景而不遗忘旧知识——是迈向实用化的关键。10. 总结视频目标分割是连接图像分割与时序建模的桥梁。本文以时空一致性与在线适应为双主线系统梳理了从光流传播、特征传播到记忆网络的技术演进。传播式方法通过运动线索传递掩码天然保持时序平滑却易受误差累积困扰匹配式方法利用记忆检索独立推断对遮挡形变鲁棒但时序一致性偏弱现代记忆网络如XMem将二者融合以多粒度记忆和统一注意力实现了精度与效率的兼得。在线适应作为应对目标外观变化的利器经历了从计算密集的测试时微调向轻量级模板演化、无参数记忆更新的范式转移。大模型时代的来临正为视频目标分割注入新活力——从专用架构走向通用基础模型从密集标注走向稀疏交互。未来随着自监督学习、3D表征和终身学习技术的成熟视频目标分割将更加智能、高效、泛化在影视工业、自动驾驶、移动AR等领域发挥不可替代的基石作用。参考文献[1] Caelles S, Maninis K K, Pont-Tuset J, et al. One-shot video object segmentation[C]. CVPR, 2017: 221-230.[2] Perazzi F, Khoreva A, Benenson R, et al. Learning video object segmentation from static images[C]. CVPR, 2017: 2663-2672.[3] Oh S W, Lee J Y, Sunkavalli K, et al. Fast video object segmentation by reference-guided mask propagation[C]. CVPR, 2018: 7376-7385.[4] Voigtlaender P, Chai Y, Schroff F, et al. FEELVOS: Fast end-to-end embedding learning for video object segmentation[C]. CVPR, 2019: 9481-9490.[5] Oh S W, Lee J Y, Xu N, et al. Video object segmentation using space-time memory networks[C]. ICCV, 2019: 9226-9235.[6] Cheng H K, Schwing A G. XMem: Long-term video object segmentation with an atkinson-shiffrin memory model[C]. ECCV, 2022: 640-658.[7] Yang Z, Wei Y, Yang Y. Associating objects with transformers for video object segmentation[C]. NeurIPS, 2021: 2491-2502.[8] Bhat G, Lawin F J, Timofte R. Learning what to learn for video object segmentation[C]. ECCV, 2020: 1-18.[9] Xu N, Yang L, Fan Y, et al. YouTube-VOS: A large-scale video object segmentation benchmark[J]. arXiv:1809.03327, 2018.[10] Pont-Tuset J, Perazzi F, Caelles S, et al. The 2017 DAVIS challenge on video object segmentation[J]. arXiv:1704.00675, 2017.点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。