用PyTorch从零搭建CNN：我的第一个猫狗分类器实战（附完整代码与数据集）

张

张建站

2026/5/31 2:32:40

10分钟阅读

用PyTorch从零搭建CNN我的第一个猫狗分类器实战附完整代码与数据集第一次接触深度学习时我被那些能自动识别图片内容的算法深深吸引。作为一个刚入门的新手最让我困惑的是如何将教科书上的理论知识转化为实际可运行的代码。直到亲手用PyTorch完成这个猫狗分类项目才真正理解了CNN卷积神经网络的运作机制。本文将分享这个过程中积累的实战经验包括那些教科书不会告诉你的坑和解决方案。1. 项目准备与环境搭建在开始编码之前我们需要确保开发环境配置正确。推荐使用Anaconda创建独立的Python环境避免依赖冲突。以下是关键软件版本要求Python 3.8PyTorch 1.12torchvision 0.13OpenCV 4.5# 创建conda环境 conda create -n pytorch_cnn python3.8 conda activate pytorch_cnn # 安装PyTorch根据CUDA版本选择 pip install torch torchvision torchaudio提示如果使用GPU加速训练需提前安装对应版本的CUDA和cuDNN。可以通过nvidia-smi命令查看显卡驱动版本。数据集准备是第一个容易踩坑的环节。Kaggle的Dogs vs Cats数据集包含25,000张图片但实际训练时我们可能只需要部分数据。我整理了一个精简版数据集约4000张图片下载后目录结构应如下data/ ├── train/ │ ├── cat/ │ └── dog/ └── test/ ├── cat/ └── dog/2. 数据预处理与加载原始图像尺寸不一直接输入网络会导致问题。我们需要统一处理为224x224像素并进行标准化。PyTorch的torchvision.transforms模块提供了便捷的预处理方法from torchvision import transforms # 定义训练集和测试集的转换流程 train_transform transforms.Compose([ transforms.Resize(256), transforms.RandomCrop(224), # 数据增强随机裁剪 transforms.RandomHorizontalFlip(), # 数据增强水平翻转 transforms.ToTensor(), transforms.Normalize(mean[0.485, 0.456, 0.406], std[0.229, 0.224, 0.225]) ]) test_transform transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean[0.485, 0.456, 0.406], std[0.229, 0.224, 0.225]) ])自定义Dataset类时我遇到了路径处理的典型问题。以下是优化后的实现from torch.utils.data import Dataset import os class CatDogDataset(Dataset): def __init__(self, root_dir, transformNone): self.root_dir root_dir self.transform transform self.classes [cat, dog] self.images [] # 遍历目录收集样本路径 for label, class_name in enumerate(self.classes): class_dir os.path.join(root_dir, class_name) for img_name in os.listdir(class_dir): self.images.append((os.path.join(class_dir, img_name), label)) def __len__(self): return len(self.images) def __getitem__(self, idx): img_path, label self.images[idx] image Image.open(img_path).convert(RGB) if self.transform: image self.transform(image) return image, label3. CNN模型设计与实现经过多次实验我设计了一个适合初学者的简化版CNN结构。相比复杂模型这个版本更容易理解且训练速度快import torch.nn as nn class SimpleCNN(nn.Module): def __init__(self): super(SimpleCNN, self).__init__() self.features nn.Sequential( # 卷积层1输入3通道输出16通道3x3卷积核 nn.Conv2d(3, 16, kernel_size3, padding1), nn.ReLU(), nn.MaxPool2d(2, 2), # 卷积层2输入16通道输出32通道 nn.Conv2d(16, 32, kernel_size3, padding1), nn.ReLU(), nn.MaxPool2d(2, 2), # 卷积层3输入32通道输出64通道 nn.Conv2d(32, 64, kernel_size3, padding1), nn.ReLU(), nn.MaxPool2d(2, 2) ) self.classifier nn.Sequential( nn.Flatten(), nn.Linear(64*28*28, 512), # 注意计算特征图尺寸 nn.ReLU(), nn.Dropout(0.5), # 防止过拟合 nn.Linear(512, 2) ) def forward(self, x): x self.features(x) x self.classifier(x) return x注意全连接层的输入尺寸需要根据前面的卷积层输出计算。一个常见错误是忽略这个计算导致运行时维度不匹配。4. 模型训练与优化训练过程中有几个关键参数需要仔细调整参数推荐值说明学习率0.001-0.0001太大导致震荡太小收敛慢Batch Size32-64根据GPU内存调整Epochs10-20观察验证集准确率变化import torch.optim as optim from tqdm import tqdm def train_model(model, criterion, optimizer, num_epochs10): best_acc 0.0 for epoch in range(num_epochs): print(fEpoch {epoch1}/{num_epochs}) print(- * 10) # 每个epoch有训练和验证阶段 for phase in [train, val]: if phase train: model.train() # 训练模式 else: model.eval() # 评估模式 running_loss 0.0 running_corrects 0 # 迭代数据 for inputs, labels in tqdm(dataloaders[phase]): inputs inputs.to(device) labels labels.to(device) # 梯度清零 optimizer.zero_grad() # 前向传播 with torch.set_grad_enabled(phase train): outputs model(inputs) _, preds torch.max(outputs, 1) loss criterion(outputs, labels) # 反向传播优化仅在训练阶段 if phase train: loss.backward() optimizer.step() # 统计 running_loss loss.item() * inputs.size(0) running_corrects torch.sum(preds labels.data) epoch_loss running_loss / dataset_sizes[phase] epoch_acc running_corrects.double() / dataset_sizes[phase] print(f{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}) # 深度拷贝模型 if phase val and epoch_acc best_acc: best_acc epoch_acc best_model_wts copy.deepcopy(model.state_dict()) print(fBest val Acc: {best_acc:4f}) model.load_state_dict(best_model_wts) return model5. 模型评估与可视化训练完成后我们需要评估模型在测试集上的表现。除了准确率混淆矩阵能提供更多信息from sklearn.metrics import confusion_matrix import seaborn as sns def evaluate_model(model, test_loader): model.eval() all_preds [] all_labels [] with torch.no_grad(): for inputs, labels in test_loader: inputs inputs.to(device) labels labels.to(device) outputs model(inputs) _, preds torch.max(outputs, 1) all_preds.extend(preds.cpu().numpy()) all_labels.extend(labels.cpu().numpy()) # 计算混淆矩阵 cm confusion_matrix(all_labels, all_preds) plt.figure(figsize(8,6)) sns.heatmap(cm, annotTrue, fmtd, cmapBlues, xticklabels[Cat, Dog], yticklabels[Cat, Dog]) plt.xlabel(Predicted) plt.ylabel(True) plt.title(Confusion Matrix) plt.show() return cm可视化卷积层的特征图有助于理解CNN的工作原理def visualize_feature_maps(model, image_tensor): # 获取各卷积层的输出 activations [] def hook_fn(module, input, output): activations.append(output) hooks [] for layer in [model.features[0], model.features[3], model.features[6]]: hooks.append(layer.register_forward_hook(hook_fn)) # 前向传播 model.eval() with torch.no_grad(): _ model(image_tensor.unsqueeze(0).to(device)) # 移除hook for hook in hooks: hook.remove() # 可视化特征图 fig, axes plt.subplots(3, 8, figsize(20,8)) for i, activation in enumerate(activations): act activation.squeeze().cpu().numpy() for j in range(min(8, act.shape[0])): axes[i,j].imshow(act[j], cmapviridis) axes[i,j].axis(off) plt.tight_layout() plt.show()6. 常见问题与解决方案在实际项目中我遇到了以下典型问题及解决方法问题1GPU内存不足现象训练时出现CUDA out of memory错误解决方案减小batch size如从64降到32使用混合精度训练from torch.cuda.amp import GradScaler, autocast scaler GradScaler() with autocast(): outputs model(inputs) loss criterion(outputs, labels) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()问题2模型过拟合现象训练准确率高但验证准确率低解决方案增加数据增强随机旋转、颜色抖动等添加Dropout层使用早停法Early Stopping尝试更简单的模型结构问题3训练loss不下降现象多个epoch后loss仍无明显变化解决方案检查学习率是否合适验证数据预处理是否正确确认模型结构是否有误如激活函数缺失检查梯度更新是否正常# 在训练循环中添加 for name, param in model.named_parameters(): if param.grad is None: print(fNo gradient for {name}) else: print(f{name} grad norm: {param.grad.norm().item()})7. 项目扩展与优化方向完成基础版本后可以考虑以下优化更高效的模型结构尝试ResNet、EfficientNet等现代架构使用预训练模型进行迁移学习高级训练技巧# 学习率预热 from torch.optim.lr_scheduler import LambdaLR warmup_epochs 5 scheduler LambdaLR(optimizer, lr_lambdalambda epoch: (epoch1)/warmup_epochs if epoch warmup_epochs else 1)部署应用使用Flask创建Web接口转换为ONNX格式优化推理速度使用TorchScript进行序列化完整项目代码和数据集已整理在GitHub仓库中包含更多详细注释和实用工具函数。通过这个项目我深刻体会到实践是学习深度学习的最佳方式——那些看似复杂的理论在代码实现过程中会变得清晰而直观。

TCMSP数据库+R语言实战：从网页爬虫到中药-靶点网络图的全流程解析

TCMSP数据库R语言实战：从网页爬虫到中药-靶点网络图的全流程解析在生物信息学和中医药现代化研究的交叉领域，数据科学正扮演着越来越重要的角色。TCMSP（Traditional Chinese Medicine Systems Pharmacology Database）作为中药系统…...

2026/5/31 2:32:03 阅读更多 →

AnyFlip下载器：三步将在线翻页书籍转为PDF的完整指南

AnyFlip下载器：三步将在线翻页书籍转为PDF的完整指南【免费下载链接】anyflip-downloader Download anyflip books as PDF 项目地址: https://gitcode.com/gh_mirrors/an/anyflip-downloader 在数字化阅读时代，我们经常遇到有价值的AnyFlip在线书…...

2026/5/31 2:31:52 阅读更多 →

从一道经典CTF题WarmUp，聊聊PHP文件包含漏洞的几种绕过姿势（附实战复现）

从WarmUp实战解析PHP文件包含漏洞的七种高级绕过技术在CTF竞赛和实际渗透测试中，PHP文件包含漏洞(LFI)一直是Web安全领域的经典议题。2018年HCTF大赛的WarmUp题目以其精巧的白名单设计，成为学习文件包含绕过的绝佳案例。本文将带您深入漏洞核心&#xf…...

2026/5/31 2:30:51 阅读更多 →

掌握Markdown实时预览：打造高效写作工作流的3个关键策略

掌握Markdown实时预览：打造高效写作工作流的3个关键策略【免费下载链接】markn Lightweight markdown viewer. 项目地址: https://gitcode.com/gh_mirrors/ma/markn 在当今数字创作时代，Markdown已成为技术文档、博客文章和个人笔记的首选格式。…...

2026/5/31 0:01:42 阅读更多 →

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…...

2026/5/31 0:02:02 阅读更多 →

前轮驱动自行车机器人建模与自适应控制策略优化【附代码】

✨ 长期致力于自行车机器人、前轮驱动、Lagrange方程、自适应模糊控制、RBF网络自适应控制研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于瞬时转…...

2026/5/31 0:03:05 阅读更多 →

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire 还在为《杀戮尖塔》模组安装的复杂流程而头疼吗？Mod…...

2026/5/31 0:04:06 阅读更多 →