从训练到部署：手把手教你用PyTorch实现RepVGG的结构重参数化

张

张建站

2026/5/28 10:58:06

10分钟阅读

从训练到部署手把手教你用PyTorch实现RepVGG的结构重参数化在深度学习模型部署的实际场景中我们常常面临一个两难选择多分支结构在训练时能提供更好的特征表达能力但单分支结构在推理时具有更高的计算效率。RepVGG通过创新的结构重参数化技术巧妙地解决了这一矛盾。本文将带你深入理解RepVGG的核心思想并手把手实现从训练到部署的完整流程。1. RepVGG的核心设计理念RepVGG的巧妙之处在于它采用了训练-推理解耦的设计哲学。训练时使用多分支结构提升模型容量推理时则转换为单路结构保证效率。这种设计带来了几个显著优势训练友好性多分支结构提供了丰富的梯度流路径有助于模型收敛部署高效性单路3x3卷积能充分利用现代计算硬件的并行能力内存经济性相比ResNet等结构单路模型减少了中间特征图的存储需求让我们看一个典型的RepVGG Block在训练时的结构class RepVGGBlock(nn.Module): def __init__(self, in_channels, out_channels, kernel_size3, stride1, padding1, deployFalse): super().__init__() self.deploy deploy if not deploy: # 训练时的多分支结构 self.rbr_dense conv_bn(in_channels, out_channels, kernel_size, stride, padding) self.rbr_1x1 conv_bn(in_channels, out_channels, 1, stride, 0) self.rbr_identity nn.BatchNorm2d(in_channels) if out_channels in_channels and stride 1 else None2. 训练阶段实现细节在训练阶段我们需要特别注意几个关键实现点2.1 多分支结构初始化每个RepVGG Block包含三个分支主分支3x3卷积 BN1x1分支1x1卷积 BNIdentity分支BN层仅当输入输出通道数相同且stride1时存在def conv_bn(in_channels, out_channels, kernel_size, stride, padding): return nn.Sequential( nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding, biasFalse), nn.BatchNorm2d(out_channels) )2.2 前向传播实现训练时的前向传播需要将三个分支的结果相加def forward(self, x): if self.deploy: return self.rbr_reparam(x) out self.rbr_dense(x) if self.rbr_1x1 is not None: out self.rbr_1x1(x) if self.rbr_identity is not None: out self.rbr_identity(x) return out注意训练时应确保所有分支都参与梯度计算不要手动停止任何分支的梯度3. 结构重参数化关键技术结构重参数化是RepVGG最核心的技术包含两个关键步骤3.1 卷积与BN的融合首先需要将每个分支的卷积层和BN层融合为一个带偏置的卷积层。对于卷积核W和BN参数(γ, β, μ, σ, ε)融合公式为W_fused W * (γ / sqrt(σ² ε)) b_fused β - (γ * μ) / sqrt(σ² ε)对应的PyTorch实现def _fuse_bn_tensor(self, branch): if branch is None: return 0, 0 if isinstance(branch, nn.Sequential): kernel branch.conv.weight running_mean branch.bn.running_mean running_var branch.bn.running_var gamma branch.bn.weight beta branch.bn.bias eps branch.bn.eps else: # 处理identity分支 ... std (running_var eps).sqrt() t (gamma / std).reshape(-1, 1, 1, 1) return kernel * t, beta - running_mean * gamma / std3.2 多分支融合将三个分支的卷积核和偏置分别相加主分支保持3x3卷积不变1x1分支通过zero-padding扩展为3x3Identity分支构造一个中心为1的3x3卷积核def get_equivalent_kernel_bias(self): kernel3x3, bias3x3 self._fuse_bn_tensor(self.rbr_dense) kernel1x1, bias1x1 self._fuse_bn_tensor(self.rbr_1x1) kernelid, biasid self._fuse_bn_tensor(self.rbr_identity) return ( kernel3x3 self._pad_1x1_to_3x3_tensor(kernel1x1) kernelid, bias3x3 bias1x1 biasid )4. 部署优化实践完成训练后我们需要将模型转换为部署模式4.1 模型转换实现def switch_to_deploy(self): if self.deploy: return kernel, bias self.get_equivalent_kernel_bias() self.rbr_reparam nn.Conv2d( in_channelsself.rbr_dense.conv.in_channels, out_channelsself.rbr_dense.conv.out_channels, kernel_size3, strideself.rbr_dense.conv.stride, padding1, biasTrue ) self.rbr_reparam.weight.data kernel self.rbr_reparam.bias.data bias # 删除训练时的参数 self.__delattr__(rbr_dense) self.__delattr__(rbr_1x1) if hasattr(self, rbr_identity): self.__delattr__(rbr_identity) self.deploy True4.2 性能对比测试我们对比了RepVGG-B1在转换前后的性能差异指标训练模式部署模式提升幅度推理速度(FPS)11220381%内存占用(MB)124386730%模型大小(MB)78.276.52%提示实际性能提升会根据硬件平台有所不同建议在目标设备上进行实测5. 高级应用技巧5.1 自定义L2正则化RepVGG论文中提出了一种特殊的L2正则化方法可以进一步提升模型性能def get_custom_L2(self): K3 self.rbr_dense.conv.weight K1 self.rbr_1x1.conv.weight t3 (self.rbr_dense.bn.weight / (self.rbr_dense.bn.running_var self.rbr_dense.bn.eps).sqrt()).reshape(-1, 1, 1, 1).detach() t1 (self.rbr_1x1.bn.weight / (self.rbr_1x1.bn.running_var self.rbr_1x1.bn.eps).sqrt()).reshape(-1, 1, 1, 1).detach() l2_loss_circle (K3 ** 2).sum() - (K3[:, :, 1:2, 1:2] ** 2).sum() eq_kernel K3[:, :, 1:2, 1:2] * t3 K1 * t1 l2_loss_eq_kernel (eq_kernel ** 2 / (t3 ** 2 t1 ** 2)).sum() return l2_loss_eq_kernel l2_loss_circle5.2 不同配置选择RepVGG提供了多种预定义配置适用于不同场景RepVGG-A系列轻量级配置适合移动端RepVGG-B系列平衡型配置通用场景RepVGG-Bxgy使用组卷积的变体进一步优化速度创建不同模型的工厂函数def create_RepVGG_A0(deployFalse): return RepVGG( num_blocks[2, 4, 14, 1], width_multiplier[0.75, 0.75, 0.75, 2.5], deploydeploy ) def create_RepVGG_B1(deployFalse): return RepVGG( num_blocks[4, 6, 16, 1], width_multiplier[2, 2, 2, 4], deploydeploy )在实际项目中RepVGG的这种设计模式让我节省了大量部署优化时间。特别是在边缘设备上转换后的模型推理速度提升非常明显而精度损失几乎可以忽略不计。

法语生物医学文本处理：DrBERT_7GB的Tokenizer配置与使用

法语生物医学文本处理：DrBERT_7GB的Tokenizer配置与使用【免费下载链接】DrBERT_7GB 项目地址: https://ai.gitcode.com/hf_mirrors/ChongqingAscend/DrBERT_7GB DrBERT_7GB是专为法语生物医学和临床领域设计的预训练语言模型，能够高效处理医疗…...

2026/5/28 10:52:47 阅读更多 →

5分钟搞定专业语音转文字：Faster-Whisper-GUI实战指南

5分钟搞定专业语音转文字：Faster-Whisper-GUI实战指南【免费下载链接】faster-whisper-GUI faster_whisper GUI with PySide6 项目地址: https://gitcode.com/gh_mirrors/fa/faster-whisper-GUI 还在为会议录音整理发愁吗？还在为视频字幕制作烦恼…...

2026/5/28 10:52:44 阅读更多 →

PyTorch实战：5分钟给你的ResNet加上CBAM注意力模块（附完整代码）

PyTorch实战：5分钟给你的ResNet加上CBAM注意力模块（附完整代码）在计算机视觉领域，ResNet无疑是里程碑式的架构。但当你已经训练好一个ResNet模型后，是否想过只需添加几行代码就能显著提升它的性能？这就是CB…...

2026/5/28 10:52:22 阅读更多 →

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…...

2026/5/26 6:08:07 阅读更多 →

通过curl命令调试Taotoken大模型API，快速排查接入问题

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过curl命令调试Taotoken大模型API，快速排查接入问题在接入大模型服务时，直接使用HTTP请求进行调试是一种…...

2026/5/26 6:15:52 阅读更多 →

Kubernetes自定义资源：扩展Kubernetes API的能力

Kubernetes自定义资源：扩展Kubernetes API的能力一、Kubernetes自定义资源概述 1.1 自定义资源的定义 Kubernetes自定义资源（Custom Resource，CR）是指用户自定义的资源类型，它扩展了Kubernetes API，允许用…...

2026/5/27 21:40:10 阅读更多 →

Codeforces Round 1057

【打得太糖了】Codeforces Round 1057 (Div. 2) solve 3 题 https://www.bilibili.com/video/BV1Gi4nzYE66/ 【Codeforces Round 1057 (Div. 2)实况】好久没打cf了，只会A-D https://www.bilibili.com/video/BV12q4xzMEy5/ 憧憬成为 Master 第 29 集 —— 反向冲分 (…...

2026/5/27 10:36:27 阅读更多 →