YOLOv5模型训练翻车实录：我的交通灯识别项目在Ubuntu20.04上踩过的那些坑

张

张建站

2026/5/19 15:19:18

10分钟阅读

YOLOv5模型训练翻车实录：我的交通灯识别项目在Ubuntu20.04上踩过的那些坑

YOLOv5交通灯识别项目避坑指南从环境配置到模型优化的实战复盘去年夏天当我第一次尝试在Ubuntu 20.04上部署YOLOv5进行交通灯识别时几乎每一步都遇到了意想不到的问题。这个看似标准的计算机视觉项目在实际操作中却像一场充满陷阱的冒险。本文将分享我在这个项目中踩过的七个关键性坑点以及最终让识别准确率达到92%的解决方案。不同于常规教程只展示成功路径这里聚焦那些让项目险些夭折的真实问题特别适合已经掌握基础但需要避开隐性陷阱的中级开发者。1. 环境配置那些教科书不会告诉你的细节在Ubuntu 20.04上搭建YOLOv5训练环境时第一个坑出现在CUDA 12.2与PyTorch的版本匹配上。官方文档简单写着支持CUDA 12.x但实际安装时发现# 典型错误示例不要直接使用 pip install torch1.8.0cu111 torchvision0.9.0cu111这个常见的安装命令会导致与CUDA 12.2不兼容。正确的做法是# 适用于CUDA 12.2的安装方式 pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121环境配置的三大隐形陷阱Conda环境命名冲突避免使用yolov5等通用名OpenCV版本与ROS Noetic的兼容性问题Pillow版本导致的图像加载失败后文会详细说明提示使用nvidia-smi确认CUDA版本时显示的12.2可能只是驱动版本实际运行时库版本需要用nvcc --version验证2. 数据标注90%的模型问题源自这里使用labelme进行标注时我犯了三个致命错误标签命名不一致有时用red_light有时用red导致后续转换脚本崩溃多边形闭合问题未严格保证首尾点重合造成bbox计算异常图像尺寸不统一从ROS bag导出的图片存在1920x1080和1280x720混用正确的目录结构应该是yolov5_train/ ├── images/ # 原始图像 ├── jsons/ # labelme标注文件 ├── txts/ # 转换后的YOLO格式 └── train_data/ # 最终训练数据 ├── images/ │ ├── train/ │ ├── val/ │ └── test/ └── labels/ ├── train/ ├── val/ └── test/坐标归一化是另一个高频出错点。在json转txt的脚本中必须确保归一化计算正确# 关键代码片段 w, h json_data[imageWidth], json_data[imageHeight] label_points_nomalize [point[0]/w, point[1]/h for point in shape[points]]3. 数据预处理那些让模型性能暴跌的操作最初的数据集划分让我吃了大亏——按顺序而非随机划分导致测试集全是夜间场景。改进后的split.py脚本需要使用random.seed(42)保证可复现性分层抽样确保各类别比例一致添加图像校验环节损坏文件检测数据增强配置不当也会引入问题。在data.yaml中以下参数需要特别注意参数推荐值错误配置后果hsv_h0.0150.5颜色失真hsv_s0.71.5饱和度异常fliplr0.50.9左右翻转过度4. 训练过程从报错信息中破译解决方案当看到这个报错时你的第一反应是什么ImportError: cannot import name PILLOW_VERSION from Pillow这不是环境问题而是版本兼容性问题。解决方案是pip install Pillow9.5.0 --force-reinstall训练过程中的其他典型问题包括CUDA out of memory不是所有显卡都能跑batch_size16NaN loss学习率过高或数据标注错误指标不提升检查数据路径是否正确我的最优参数组合RTX 3060显卡lr0: 0.01 lrf: 0.2 momentum: 0.937 weight_decay: 0.0005 warmup_epochs: 35. 模型优化从准确率80%到92%的关键调整初始训练得到的模型在测试集上只有80%的mAP通过以下调整实现了突破锚框聚类使用k-means重新计算anchor boxespython3.8 utils/autoanchor.py --cfg models/TLD.yaml类别权重调整交通灯存在严重类别不平衡测试时增强(TTA)提升推理稳定性最终采用的模型结构修改# yolov5s-TLD.yaml backbone: [..., [17, 30, 33], 1] # 增加小目标检测层 head: [[..., 512], # 扩大特征融合通道 [..., 1024]]6. 部署陷阱从训练到实际应用的鸿沟将模型集成到ROS Noetic时遇到的新问题图像编码问题ROS的sensor_msgs/Image与OpenCV的转换推理速度下降未启用TensorRT加速尺度变化问题训练尺寸(640x640)与实际摄像头输入的匹配实用的部署检查清单[ ] 验证模型输入/输出节点名称[ ] 测试不同光照条件下的表现[ ] 实现动态推理批处理[ ] 添加后处理过滤逻辑7. 效果评估超越准确率的实用指标在交通灯识别场景中单纯的mAP不足以反映真实表现。我们建立了更细致的评估体系颜色识别准确率区分红/黄/绿位置稳定性连续帧间的bbox抖动极端条件测试逆光场景部分遮挡运动模糊改进前后的关键指标对比指标初始模型优化后白昼mAP0.50.810.93夜间mAP0.50.620.85推理速度(FPS)4852内存占用(MB)1240980这个项目给我的最大启示是成功的AI项目70%的数据质量20%的工程细节10%的模型技巧。现在每次看到路口的交通灯都会想起那段与CUDA报错、标注错误和NaN损失搏斗的日子——这些经验比最终获得的准确率数字更加珍贵。

国民N32G435串口DMA接收避坑指南：为什么你的空闲中断+DMA会丢数据？

N32G435串口DMA接收的工程实践：从数据丢失到稳定传输的完整解决方案在嵌入式开发中，串口通信是最基础也最常用的外设接口之一。对于国民技术N32G435这类主流MCU而言，USART配合DMA的通信模式能显著提升数据传输效率，但实际应用中却…...

2026/5/19 15:18:36 阅读更多 →

告别光流计算：用MotionNet在PyTorch里实现端到端的视频动作识别

告别光流计算：用MotionNet在PyTorch里实现端到端的视频动作识别视频动作识别一直是计算机视觉领域的热门研究方向，但传统方法依赖繁琐的光流预计算，不仅耗时耗力，还限制了模型的端到端训练能力。2017年提出的Hidden Two-Stream C…...

2026/5/19 15:15:31 阅读更多 →

Eigen库在三维重建项目里的实战：从点云配准到BA优化，我是这么用的

Eigen库在三维重建项目里的实战：从点云配准到BA优化第一次接触三维重建项目时，我被各种矩阵运算绕得头晕眼花——旋转矩阵怎么叠加？点云配准误差如何最小化？直到发现Eigen这个宝藏库，才真正体会到线性代数在计算机视觉…...

2026/5/19 15:15:24 阅读更多 →

单相光伏发电并网控制【附代码】

✨ 长期致力于光伏电池、整流控制、逆变控制、最大功率点跟踪技术研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）自适应变步长电导增量法最大功率点跟…...

2026/5/19 12:48:20 阅读更多 →

【代码】hot100

Easy 两数之和两数之和 class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:xdict{}for i in range(len(nums)):jtarget-nums[i]if j in xdict.keys():return [i,xdict[j]]else:xdict[nums[i]]i 有效的括号有效的括号 class Soluti…...

2026/5/19 3:45:22 阅读更多 →

G-Helper终极教程：华硕笔记本轻量级性能控制神器

G-Helper终极教程：华硕笔记本轻量级性能控制神器【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expertb…...

2026/5/18 5:24:10 阅读更多 →