从MaskFormer到MpFormer：手把手教你用PyTorch复现这三个图像分割模型（附代码）

张

张建站

2026/6/2 5:04:00

10分钟阅读

从MaskFormer到MpFormer：手把手教你用PyTorch复现这三个图像分割模型（附代码）

从MaskFormer到MpFormerPyTorch实战图像分割模型全解析在计算机视觉领域图像分割一直是核心任务之一。近年来基于Transformer的分割模型如MaskFormer系列展现出强大的性能。本文将带您从零开始用PyTorch实现MaskFormer、Mask2Former和MpFormer三大模型深入剖析代码细节与实现技巧。1. 环境配置与数据准备1.1 基础环境搭建首先确保您的环境满足以下要求conda create -n segmentation python3.8 conda activate segmentation pip install torch1.12.1cu113 torchvision0.13.1cu113 -f https://download.pytorch.org/whl/torch_stable.html pip install mmcv-full1.6.1 -f https://download.openmmlab.com/mmcv/dist/cu113/torch1.12/index.html关键依赖版本对照表组件推荐版本最低要求PyTorch1.12.1≥1.10.0CUDA11.3≥11.1Python3.8≥3.71.2 数据集处理以COCO数据集为例我们需要实现特殊的数据加载方式from torch.utils.data import Dataset import pycocotools.mask as mask_utils class COCOPanopticDataset(Dataset): def __init__(self, root, annFile, transformsNone): self.coco COCO(annFile) self.root root self.transforms transforms self.ids list(sorted(self.coco.imgs.keys())) def __getitem__(self, idx): img_id self.ids[idx] ann_ids self.coco.getAnnIds(imgIdsimg_id) anns self.coco.loadAnns(ann_ids) # 处理mask和类别标签 masks [self.coco.annToMask(ann) for ann in anns] masks np.stack(masks, axis0) labels [ann[category_id] for ann in anns] # 应用数据增强 if self.transforms: augmented self.transforms(imageimg, masksmasks) img augmented[image] masks augmented[masks] return img, masks, labels注意COCO数据集需要特殊处理全景标注格式建议使用官方提供的pycocotools工具包2. MaskFormer核心实现2.1 模型架构分解MaskFormer由三个关键模块组成像素级模块基于FPN的轻量级像素解码器Transformer模块标准解码器结构分割模块分类头与mask预测头class MaskFormer(nn.Module): def __init__(self, backbone, transformer, num_queries100): super().__init__() self.backbone backbone # 通常是ResNet或SwinTransformer self.pixel_decoder FPN(backbone.out_channels) self.transformer transformer self.query_embed nn.Embedding(num_queries, transformer.d_model) self.class_embed nn.Linear(transformer.d_model, num_classes 1) self.mask_embed MLP(transformer.d_model, transformer.d_model, 256, 3) def forward(self, x): # 特征提取 features self.backbone(x) pixel_embeddings self.pixel_decoder(features) # Transformer处理 query_pos self.query_embed.weight hs self.transformer(pixel_embeddings.flatten(2).permute(2,0,1), query_pos.unsqueeze(1).repeat(1,x.size(0),1)) # 预测输出 outputs_class self.class_embed(hs) mask_embeds self.mask_embed(hs) outputs_mask torch.einsum(bqc,bchw-bqhw, mask_embeds, pixel_embeddings) return {pred_logits: outputs_class[-1], pred_masks: outputs_mask[-1]}2.2 损失函数实现MaskFormer使用二分图匹配损失关键实现如下class SetCriterion(nn.Module): def __init__(self, num_classes, matcher): super().__init__() self.num_classes num_classes self.matcher matcher self.loss_fns { labels: nn.CrossEntropyLoss(), masks: nn.BCEWithLogitsLoss() } def forward(self, outputs, targets): # 执行二分图匹配 indices self.matcher(outputs, targets) # 计算分类损失 src_logits outputs[pred_logits] idx self._get_src_permutation_idx(indices) target_classes torch.cat([t[labels][J] for t, (_, J) in zip(targets, indices)]) loss_ce self.loss_fns[labels](src_logits[idx], target_classes) # 计算mask损失 src_masks outputs[pred_masks] target_masks torch.cat([t[masks][J] for t, (_, J) in zip(targets, indices)]) loss_mask self.loss_fns[masks](src_masks[idx], target_masks) return {loss_ce: loss_ce, loss_mask: loss_mask}3. Mask2Former进阶实现3.1 Masked Attention机制Mask2Former的核心改进在于masked attention的实现class MaskedAttention(nn.Module): def __init__(self, dim, num_heads8): super().__init__() self.num_heads num_heads self.scale (dim // num_heads) ** -0.5 self.qkv nn.Linear(dim, dim * 3) self.proj nn.Linear(dim, dim) def forward(self, x, maskNone): B, N, C x.shape qkv self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads) q, k, v qkv.unbind(2) attn (q k.transpose(-2, -1)) * self.scale if mask is not None: attn attn.masked_fill(mask.unsqueeze(1).unsqueeze(2) 0, float(-inf)) attn attn.softmax(dim-1) x (attn v).transpose(1, 2).reshape(B, N, C) return self.proj(x)3.2 多尺度特征处理高分辨率特征金字塔的实现技巧class MultiScaleFeatureFusion(nn.Module): def __init__(self, in_channels, out_channels): super().__init__() self.lateral_convs nn.ModuleList() self.fpn_convs nn.ModuleList() for i in range(len(in_channels)): self.lateral_convs.append( nn.Conv2d(in_channels[i], out_channels, 1)) self.fpn_convs.append( nn.Sequential( nn.Conv2d(out_channels, out_channels, 3, padding1), nn.GroupNorm(32, out_channels), nn.ReLU(inplaceTrue) )) def forward(self, features): laterals [conv(f) for conv, f in zip(self.lateral_convs, features)] # 自顶向下路径 used_backbone_levels len(laterals) for i in range(used_backbone_levels - 1, 0, -1): laterals[i - 1] F.interpolate( laterals[i], scale_factor2, modenearest) # 特征融合 outs [self.fpn_convs[i](laterals[i]) for i in range(used_backbone_levels)] return outs4. MpFormer创新实现4.1 GT Mask注入机制MpFormer在训练时引入GT mask作为额外监督class MPFormerDecoderLayer(nn.Module): def __init__(self, d_model, nhead, dim_feedforward2048): super().__init__() self.self_attn nn.MultiheadAttention(d_model, nhead) self.multihead_attn nn.MultiheadAttention(d_model, nhead) self.linear1 nn.Linear(d_model, dim_feedforward) self.linear2 nn.Linear(dim_feedforward, d_model) self.norm1 nn.LayerNorm(d_model) self.norm2 nn.LayerNorm(d_model) self.norm3 nn.LayerNorm(d_model) self.dropout nn.Dropout(0.1) def forward(self, tgt, memory, tgt_maskNone, memory_maskNone, tgt_key_padding_maskNone, memory_key_padding_maskNone): # 自注意力 tgt2 self.self_attn(tgt, tgt, tgt, attn_masktgt_mask, key_padding_masktgt_key_padding_mask)[0] tgt tgt self.dropout(tgt2) tgt self.norm1(tgt) # 交叉注意力注入GT mask tgt2 self.multihead_attn(tgt, memory, memory, attn_maskmemory_mask, key_padding_maskmemory_key_padding_mask)[0] tgt tgt self.dropout(tgt2) tgt self.norm2(tgt) # FFN tgt2 self.linear2(self.dropout(F.relu(self.linear1(tgt)))) tgt tgt self.dropout(tgt2) tgt self.norm3(tgt) return tgt4.2 噪声注入策略MpFormer通过添加噪声增强鲁棒性def add_noise_to_mask(mask, noise_typepoint, noise_ratio0.1): 为GT mask添加噪声 Args: mask: 原始mask [H, W] noise_type: point | flip noise_ratio: 噪声比例 if noise_type point: # 随机选择部分点置反 h, w mask.shape num_noise int(h * w * noise_ratio) coords torch.randint(0, h*w, (num_noise,)) noisy_mask mask.flatten() noisy_mask[coords] 1 - noisy_mask[coords] return noisy_mask.reshape(h, w) elif noise_type flip: # 随机翻转类别 if random.random() noise_ratio: return 1 - mask return mask else: return mask5. 训练与优化技巧5.1 训练脚本配置完整的训练流程实现def train_one_epoch(model, criterion, data_loader, optimizer, device, epoch): model.train() metric_logger MetricLogger(delimiter ) header fEpoch: [{epoch}] for images, targets in metric_logger.log_every(data_loader, 10, header): images images.to(device) targets [{k: v.to(device) for k, v in t.items()} for t in targets] # 前向传播 outputs model(images) # 计算损失 loss_dict criterion(outputs, targets) losses sum(loss_dict.values()) # 反向传播 optimizer.zero_grad() losses.backward() optimizer.step() # 记录指标 metric_logger.update(losslosses.item(), **loss_dict) return metric_logger def main(): # 初始化模型 backbone build_backbone(config) transformer build_transformer(config) model MaskFormer(backbone, transformer, config.num_queries) # 数据加载 dataset COCOPanopticDataset(config.data_path, config.ann_path) data_loader DataLoader(dataset, batch_size4, shuffleTrue) # 优化器配置 param_dicts [ {params: [p for n, p in model.named_parameters() if backbone not in n and p.requires_grad]}, {params: [p for n, p in model.named_parameters() if backbone in n and p.requires_grad], lr: config.lr_backbone} ] optimizer torch.optim.AdamW(param_dicts, lrconfig.lr, weight_decayconfig.weight_decay) # 训练循环 for epoch in range(config.epochs): train_one_epoch(model, criterion, data_loader, optimizer, device, epoch)5.2 关键超参数设置不同模型的推荐配置参数MaskFormerMask2FormerMpFormer学习率1e-41e-41e-4Batch Size1688Query数量100100100解码器层数699训练epoch505075优化器AdamWAdamWAdamW学习率衰减cosinestepcosine6. 推理与可视化6.1 推理脚本实现torch.no_grad() def inference(model, image_path, device): # 图像预处理 image Image.open(image_path).convert(RGB) transform T.Compose([ T.Resize(800), T.ToTensor(), T.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) img_tensor transform(image).unsqueeze(0).to(device) # 模型推理 outputs model(img_tensor) # 后处理 prob outputs[pred_logits].softmax(-1)[..., :-1] masks outputs[pred_masks].sigmoid() # 获取最终预测 scores, labels prob.max(-1) keep scores 0.5 return masks[keep], labels[keep] def visualize(image_path, masks, labels): image cv2.imread(image_path) image cv2.cvtColor(image, cv2.COLOR_BGR2RGB) for mask, label in zip(masks, labels): color np.random.randint(0, 255, size3) mask mask.cpu().numpy() image[mask 0.5] image[mask 0.5] * 0.5 color * 0.5 plt.imshow(image) plt.show()6.2 性能优化技巧提升推理速度的实用方法半精度推理model.half() # 转换为半精度 with torch.cuda.amp.autocast(): outputs model(img_tensor.half())TensorRT加速# 转换模型为ONNX格式 torch.onnx.export(model, img_tensor, model.onnx, input_names[input], output_names[output]) # 使用TensorRT优化 trt_model torch2trt(model, [img_tensor], fp16_modeTrue)多尺度测试技巧def multi_scale_inference(model, image, scales[0.5, 1.0, 1.5]): results [] for scale in scales: h, w image.shape[-2:] resized_img F.interpolate(image, scale_factorscale, modebilinear) outputs model(resized_img) outputs[pred_masks] F.interpolate( outputs[pred_masks], size(h, w), modebilinear) results.append(outputs) # 融合多尺度结果 final_output { pred_logits: torch.mean(torch.stack([r[pred_logits] for r in results]), 0), pred_masks: torch.mean(torch.stack([r[pred_masks] for r in results]), 0) } return final_output

体素计算：三维空间智能单元的设计原理与游戏开发实践

1. 从像素到体素：重新思考计算单元的设计哲学在游戏开发和人工智能领域，我们习惯了在二维平面上构建逻辑。无论是GPU的着色器管线，还是神经网络中的神经元连接，其底层抽象大多基于平面或图结构。但如果我们换一个维度思考呢&#…...

2026/6/2 5:02:57 阅读更多 →

应急方案：用PNP晶体管改造二极管，原理、步骤与场景详解

1. 项目概述：当手头没有二极管时，一个晶体管能做什么？在电子制作、维修或者原型搭建的过程中，我们或多或少都遇到过这样的窘境：电路图已经画好，元件清单也列得清清楚楚，但就在焊接的最后一刻&am…...

2026/6/2 5:02:56 阅读更多 →

基于视觉语言模型的无人机自主导航系统SINGER解析

1. 项目概述：SINGER无人机导航系统SINGER（Semantic In-situ Navigation and Guidance for Embodied Robots）是一套基于视觉语言模型（VLM）的无人机自主导航系统，其核心创新在于实现了仅依赖机载传感器和计算…...

2026/6/2 4:59:10 阅读更多 →

掌握Markdown实时预览：打造高效写作工作流的3个关键策略

掌握Markdown实时预览：打造高效写作工作流的3个关键策略【免费下载链接】markn Lightweight markdown viewer. 项目地址: https://gitcode.com/gh_mirrors/ma/markn 在当今数字创作时代，Markdown已成为技术文档、博客文章和个人笔记的首选格式。…...

2026/6/2 7:26:22 阅读更多 →

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…...

2026/6/2 0:45:14 阅读更多 →

前轮驱动自行车机器人建模与自适应控制策略优化【附代码】

✨ 长期致力于自行车机器人、前轮驱动、Lagrange方程、自适应模糊控制、RBF网络自适应控制研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于瞬时转…...

2026/6/1 20:29:35 阅读更多 →

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire 还在为《杀戮尖塔》模组安装的复杂流程而头疼吗？Mod…...

2026/6/2 6:08:03 阅读更多 →