摘要在低照度与夜间场景下实现可靠的行人检测对智能驾驶安全预警、智慧安防巡检与机器人夜间作业具有重要意义。本文围绕基于深度学习的夜视行人检测系统系统性介绍从数据构建到部署落地的完整流程以低照度可见光与热红外可选数据为基础结合去噪、增亮与域自适应等预处理策略缓解夜间成像噪声高、对比度低、眩光与拖影等问题在算法侧以YOLO系列等单阶段检测器为核心配合多尺度特征融合与注意力机制提升小目标与遮挡行人的检出率并通过标签平滑、难例挖掘与数据增强Mosaic、随机曝光、仿眩光增强鲁棒性在工程侧实现从图像/视频/摄像头输入到推理、后处理NMS、阈值自适应、可视化告警与结果导出的闭环支持端侧加速ONNX/TensorRT与阈值可调兼顾精度与实时性。老思在文末给出系统的可复现实验设置与部署建议便于读者快速复用到夜间行人检测与安全预警任务中。文章目录1. 前言综述2. 数据集介绍3. 模型设计与实现4. 训练策略与模型优化5. 实验与结果分析5.1 实验设置与对比基线5.2 度量指标与曲线解读5.3 定量对比结果与分析6.系统设计与实现6.1 系统设计思路6.2 登录与账户管理 — 流程图7.参考文献下载链接功能效果展示视频夜视行人检测系统YOLOv12-v11至v5八个模型含示例论文合集完整Python项目演示UI界面含论文等➷点击跳转至文末所有涉及的完整代码文件下载页☇1. 前言综述行人检测作为环境感知的基础能力之一直接关系到智能驾驶的弱势交通参与者保护、夜间安防巡检的告警可靠性以及移动机器人在复杂光照下的安全导航。早期行人检测主要依赖手工特征与判别模型的组合其中以梯度方向直方图为代表的方法在公开基准上奠定了“外观特征 分类器”的经典范式。注为保证引用可追溯性以下文献均在文末以 GB/T 7714 形式列出随后为了在复杂背景与遮挡场景中提升召回率基于通道特征与级联分类的检测框架不断发展并形成更强的工程可用性但这类方法在夜间普遍面临对比度下降、纹理缺失与噪声放大导致的特征退化问题。深度学习的兴起显著改变了目标检测的建模方式两阶段检测器通过候选区域与精细分类回归推动了检测精度的持续提升。(NeurIPS Proceedings)然而在夜视行人检测这一强实时约束任务中两阶段范式往往在端侧部署时承受更大的时延压力这推动了单阶段检测器在结构设计与损失函数层面的快速演进。其中针对密集预测中的正负样本极不均衡问题焦点损失为单阶段检测提供了更稳定的优化机制也为后续夜间小目标与难例学习奠定了基础。在工程落地层面YOLO 系列以端到端、吞吐高的特点成为实时检测的重要路线其在骨干网络、数据增强与边界框回归策略上的系统化改造使“精度—速度—可部署性”之间的折中更易满足车载与安防需求。(arXiv)随着训练策略与结构细化的持续推进YOLOv7 等工作进一步强化了“可训练的免费增益”思想使实时检测器在更广泛帧率区间内维持竞争性的精度表现。(CVF Open Access)但夜视行人检测并不是把白天模型直接迁移到夜间即可解决的问题一方面夜间可见光成像中存在严重的光照不均、运动模糊、眩光与传感器噪声导致同一类别在外观分布上与白天产生显著域偏移另一方面行人在远距与遮挡条件下呈现“小尺度、弱边缘、低纹理”的组合退化使得检测器的特征金字塔与正样本分配策略更易失效。为缓解“可见光夜间信息不足”的物理瓶颈多光谱可见光-热红外路线通过引入热辐射通道显著改善暗光可分性KAIST 多光谱行人基准的提出为跨昼夜的系统评测提供了关键支撑。(CVF Open Access)在更极端的低照度场景中LLVIP 以严格对齐的可见光-红外成对数据刻画“黑暗环境下的行人目标可用区域缺失”现象进一步推动了低照度视觉与行人检测的融合研究。(CVF Open Access)此外NightOwls 等夜间行人数据集从“夜间自然场景密集行人”角度补齐了传统基准对夜景覆盖不足的问题使得夜间专用训练与泛化分析成为可能。(Springer)面向可见光单模态的低照度检测研究中ExDark 这类数据集强调了“低光照类别分布与成像条件多样性”对检测器鲁棒性的决定性影响也提示了仅靠常规增强难以覆盖夜间退化模式。(ScienceDirect)围绕夜间退化机理学界逐渐形成两条互补技术线索其一是“先增强、后检测”的前端重建思路通过将低照度图像分解为照明与反射并学习可调照明映射改善可见结构信息的可分性。(arXiv)其二是“无参考/弱监督”的轻量化增强思路通过学习像素级曲线或约束驱动的映射在不依赖配对数据的情况下提升可见性从而为端侧夜视系统降低数据采集门槛。(CVF Open Access)与此同时多模态融合范式也在不断深化例如通过联合检测与语义分割的方式促进跨模态特征对齐与难例抑制在 KAIST 等基准上验证了融合学习对夜间漏检问题的改善潜力。(arXiv)在国内研究与工程实践层面围绕车载夜间红外行人实时检测的轻量化设计已形成较系统的探索路径例如通过轻量骨干、多尺度融合与剪枝压缩在移动端平台上兼顾速度与精度。(Researching)从更宏观的研究现状看近年的综述工作已将低照度行人检测方法归纳为增强驱动、域适配、跨模态融合与端到端鲁棒检测等方向并指出数据稀缺、标注噪声与评测一致性仍是制约进展的关键因素。(ScienceDirect)为便于对“研究路线—数据—优缺点”形成结构化认识老思将夜视行人检测中最常用的公开数据与代表性范式概括如下仅列出与本文任务强相关的部分代表路线典型数据集/基准核心优点主要短板夜间场景可见光夜间专用训练NightOwls贴近真实夜景分布、密集实例仍受成像噪声与眩光影响跨城市/设备泛化有限低照度通用目标检测ExDark覆盖多种低光照条件便于分析退化模式类别与任务不完全对齐“行人”应用需求需再筛选/再标注可见光-热红外融合KAIST、LLVIP热红外补充暗光可分性显著降低漏检配准误差、成本与部署复杂度提高且跨设备域偏移更突出先增强后检测 / 联合优化LOL 增强网络如 Retinex、曲线映射提升可见结构信息缓解域偏移增强伪影可能引入误检且端侧实时性需严格权衡总体而言夜视行人检测的技术难点集中体现在三类矛盾第一弱光增强虽能提升可见性但增强伪影与噪声放大会改变检测器的统计假设导致“看得更亮但检得更差”的反直觉现象第二夜间行人目标的小尺度与遮挡使正负样本分配更敏感轻微阈值变化即可引起召回率波动第三多模态融合能提高上限但在工程上引入配准、同步与算力成本且模型跨设备泛化仍需系统化的域适配策略。基于这些痛点本文将围绕“可落地的夜视行人检测系统”展开重点讨论如何以 YOLO 系列为核心构建稳定可复现的训练与部署流程并在数据组织、增强策略与推理链路上做面向夜间场景的针对性改造。本文的主要贡献可以概括为其一面向夜视行人检测任务构建并规范化数据标注、预处理与划分流程形成可复现实验基线其二以 YOLO 系列为主干对比不同代际模型在夜间场景下的精度与实时性差异并给出面向部署的参数配置建议其三实现包含多源输入、阈值可调、结果可视化与导出的完整系统原型便于在安防与车载场景中进行二次开发与快速验证。主要功能演示主要功能演示应当围绕“用户从进入系统到完成一次夜视行人检测任务”的自然路径展开先用注册与登录将账户体系与个性化空间建立起来再通过页面布局把交互逻辑讲清楚随后落到模型选择这一核心能力最后以主题修改展示系统的可配置性与工程完成度。老思下面按这四个方面给出可直接写进博客的演示说明文字你只需要在对应位置插入你的截图即可。注册与登录模块的演示重点在于账户体系对系统可用性与数据管理的支撑作用。系统启动后首先进入登录界面用户可选择已有账号直接登录或点击注册进入新用户创建流程。注册时通常包含用户名、密码与确认密码等字段校验完成后将用户信息写入 SQLite 数据库并为该用户初始化独立的配置项与结果存储空间。登录阶段系统对输入凭据进行查询比对通过后自动加载用户历史检测记录与个性化设置例如上次选择的模型、置信度阈值、输出目录与主题样式等保证“再次打开即可复用之前的工作状态”。若凭据错误界面在不泄露敏感信息的前提下给出明确提示并允许快速返回重试登录成功后自动跳转主界面形成从身份认证到业务功能的无缝衔接。页面布局的演示应突出信息分区清晰、操作链路短与实时反馈明确。主界面一般采用“左侧控制区 中部显示区 右侧结果区/底部状态栏”的结构左侧集中放置输入源选择图片/视频/摄像头、开始/暂停/停止与导出等按钮并提供置信度阈值、IOU 阈值、推理尺寸等常用参数的可视化调节控件中部显示区用于展示原始画面与检测叠加结果确保用户能直观看到夜间场景下检测框的位置与稳定性右侧结果区用于列出当前帧或当前图片的检测清单类别、置信度、坐标信息并同步展示类别统计或告警状态底部状态栏实时反馈模型加载、推理帧率、输入源分辨率、保存路径与异常提示等关键运行信息。这样的布局让用户在夜间低对比度画面中仍能快速定位“看哪里、点哪里、结果在哪里”并在推理过程中持续获得系统状态回馈。模型选择的演示需要把“可切换的检测能力”讲清楚尤其强调对夜视场景的适配逻辑。系统在模型管理区提供下拉框或列表支持从默认的 YOLO 系列模型中选择不同规模或不同版本的权重例如轻量化版本用于实时较大版本用于精度优先并允许用户导入自训练权重文件以适配特定夜间场景。用户切换模型后系统会触发统一的加载流程先完成权重校验与设备选择CPU/GPU再进行推理预热最后在界面显式提示“模型已就绪”避免用户在加载未完成时误触开始检测。演示时建议用同一段夜间视频分别选择两种模型展示在小尺度行人、背光区域或强眩光区域的检出差异并结合帧率变化说明“模型规模—精度—速度”的权衡关系。对于系统而言模型选择不仅是算法对比入口也是工程落地时适配不同硬件平台与业务指标的关键开关。主题修改的演示应突出“可配置、可持续使用”的产品化细节。系统提供浅色/深色等主题切换入口并支持对背景、图标、字体或强调色进行有限度的自定义使夜间使用时界面对比度更舒适、关键信息更突出。主题切换应当与账户体系绑定用户在个人设置中修改主题后立即在主界面生效并在下次登录时自动恢复无需重复配置同时对表格、按钮、状态栏与弹窗提示保持一致的样式规范避免“局部变色”造成的视觉割裂。演示截图建议分别给出浅色与深色主题在同一检测画面下的对比强调深色主题在夜间监控场景中对眩光抑制与信息聚焦的优势从而体现系统不仅追求检测精度也关注真实使用环境下的人机交互体验。2. 数据集介绍本文面向夜视行人检测任务构建了单类别目标检测数据集共包含5725张图像覆盖夜间道路、建筑通道等典型低照度监控视角成像以灰度/近红外风格为主普遍存在对比度不足、噪声偏高与远距离小目标密集等夜视场景特征。从标注质量与训练稳定性出发数据集采用单一类别“行人person”进行边界框标注并统一转换为 YOLO 系列所需的归一化 TXT 格式以图像宽高为尺度进行( x , y , w , h ) (x, y, w, h)(x,y,w,h)归一化。在标注样例中可以观察到行人目标多呈细长形态且分布上对画面下半区域更为集中与之对应标注框的中心点与宽高分布也表现出明显的“中下部密集、小尺度占比高”的统计规律如“标签位置与尺寸相关性图”所示。数据集中同一画面多目标并存的比例较高因此在训练阶段更依赖多尺度特征与合理的正样本分配策略以降低远距行人漏检风险。在数据划分方面本文将数据集细分为训练集、验证集与测试集三部分分别用于参数学习、超参数选择与最终泛化评估。为尽量贴近实际部署划分时保持夜间场景与目标尺度分布的一致性并在训练阶段引入常见的 YOLO 数据增强与输入尺度对齐策略如随机缩放、平移、翻转与批内拼接增强等以提升对眩光、拖影及弱纹理背景的鲁棒性增强后的批次效果可在训练批次可视化中直观看到。模型预测可视化结果表明在低照度背景下仍能对多个行人目标给出稳定框选与置信度输出为后续系统端的告警与统计功能提供了可靠输入。 数据集规格说明 (Dataset Specification)维度参数项详细数据基础信息标注软件LabelImg标注格式YOLO TXT (Normalized)数量统计训练集 (Train)4,032 张 (70.4%)验证集 (Val)1,104 张 (19.3%)测试集 (Test)589 张 (10.3%)总计 (Total)5,725 张类别清单Class ID: 0person行人图像规格输入尺寸640 * 640数据来源夜视/低照度监控实拍数据手动清洗与筛选3. 模型设计与实现夜视行人检测的核心矛盾在于“弱纹理与强噪声并存”的成像条件会显著削弱卷积特征对边缘与局部纹理的依赖而远距离行人又呈现典型的小尺度、细长外观使得检测器既要具备足够大的有效感受野去建模全局结构又要保持多尺度表征对小目标的敏感性。基于这一任务特性本文在基线模型选择上优先采用Ultralytics YOLO12n作为默认主干YOLO12在保持实时推理范式的同时显式引入以注意力为中心的结构设计通过区域化注意力Area Attention与更高效的特征聚合模块R-ELAN提升全局建模能力并配合 FlashAttention 等实现降低注意力带来的显存与访存开销。(Ultralytics Docs) 这一选择的工程含义很直接夜视场景下“背景低对比度 行人弱边缘”的困难样本比例高注意力模块更容易在特征层面形成对目标区域的选择性增强从而缓解纯CNN在极端光照退化时的表征瓶颈。从网络结构上看本文系统沿用YOLO系检测器的经典三段式流水线即“Backbone—Neck—Head”的特征抽取、融合与预测框架但在模块实现上对夜视任务做了针对性解释与落地。Backbone阶段以 YOLO12 的注意力中心设计为主Area Attention 将特征图划分为若干等大小区域并在区域内部执行更高效的自注意力计算以近似保留全局依赖建模能力同时控制复杂度为了弥补注意力模块缺少显式位置编码可能造成的位置信息弱化YOLO12在注意力分支中引入了7 × 7 7\times77×7的可分离卷积文档中称为“position perceiver”以隐式注入空间位置信号。(Ultralytics Docs) 对夜视行人而言这一设计能够更稳健地刻画“行人沿道路方向排列、目标高度远大于宽度”的几何先验从而在拥挤与遮挡场景中保持较好的区分性。Neck阶段仍采用多尺度特征融合思想通过自顶向下与自底向上的路径聚合将不同分辨率的语义与细节信息对齐这一步对远距离小行人的召回尤为关键Head阶段输出各尺度上的类别置信度与边界框参数并在后处理中以NMS等策略实现重叠框抑制最终得到稳定的行人检测结果。作为直观说明YOLO系模型结构的“骨干—颈部—检测头”拓扑可参考YOLOv5结构示意图其虽然不是YOLO12的逐层等价图但足以帮助读者把握本系统的整体数据流。任务建模与损失函数方面本文采用YOLO系列在Ultralytics框架中较为统一的检测损失设计将训练目标拆分为分类与定位两条主线。分类分支以二元交叉熵BCE为基础并可叠加焦点损失思想以应对正负样本不均衡定位分支通常同时优化“框重叠质量”和“边界回归分布”其中分布式回归常用 Distribution Focal LossDFL将边界偏移离散为概率分布并用期望形式回归连续坐标从而在小目标上获得更细粒度的定位梯度。Ultralytics对 Focal Loss 与 DFL 的实现与接口在其文档中有明确给出这也是本文实现时直接复用的依据。(Ultralytics Docs) 若用较常见的C I o U CIoUCIoU形式刻画框回归误差其可写为L C I o U 1 − I o U ρ 2 ( b , b g t ) c 2 α v , \mathcal{L}_{CIoU}1-IoU\frac{\rho^2(\mathbf{b},\mathbf{b}^{gt})}{c^2}\alpha v,LCIoU​1−IoUc2ρ2(b,bgt)​αv,其中ρ ( ⋅ ) \rho(\cdot)ρ(⋅)表示预测框与真实框中心点距离c cc为最小外接框对角线长度v vv刻画宽高比一致性α \alphaα为权重系数该项与 DFL 共同作用使得远距离行人这种“高宽比敏感、像素级抖动影响显著”的目标更易获得稳定收敛。实践中单类别person任务还要避免分类分支被大量背景样本主导因此本文在训练阶段倾向于通过样本分配与阈值设置控制正负比而非单纯提升分类损失权重以减少夜视噪声背景导致的误检扩散。在正则化与超参数实现上本文以“可部署性优先”的工程策略组织实现网络中默认采用 Batch Normalization 稳定特征分布推理阶段融合BN以减少额外开销学习率采用带 warmup 的衰减策略降低前期梯度震荡风险避免注意力模块在小数据或强增强下出现不稳定数据增强围绕夜视退化特点进行选择重点保留对曝光与对比度扰动更敏感的增强项同时谨慎使用可能制造非自然亮斑的强颜色增强以减少增强伪影在训练中被模型“学成可用特征”的风险。上述实现最终落到系统代码层面时Detector模块只需完成权重加载、输入预处理如640 × 640 640\times640640×640letterbox与后处理输出统一封装即可与PySide6界面的信号槽机制自然对接满足“模型可切换、推理可实时、结果可导出”的系统目标。4. 训练策略与模型优化夜视行人检测的训练流程需要同时兼顾两类约束其一是夜间成像退化导致的样本“有效信息密度”降低模型更容易在早期被噪声纹理与背景亮斑牵引其二是系统部署通常具有实时性要求训练阶段必须为后续端侧推理留下结构与算力余量。基于此老思在实现上采用 Ultralytics YOLO 的标准训练管线作为骨架并围绕夜视数据分布对增强强度、学习率预热与后期收敛策略做了稳健化配置。具体而言训练输入统一进行 letterbox 以适配640 × 640 640\times640640×640的方形输入既保证小目标尺度不会因粗暴裁剪而丢失也避免不同宽高比直接拉伸带来的几何畸变随后在批内执行随机缩放、平移与翻转等几何增强以提升对监控视角变化的适应能力。对夜间任务更关键的是“光照相关增强”的控制适度的随机曝光与对比度扰动能够模拟不同相机增益与环境照度但若使用过强的色彩抖动或过度锐化往往会制造非自然高亮伪影反而诱导检测器学习错误的背景线索因此本文更倾向于保持增强的物理合理性让模型把注意力集中在行人的形状与运动一致性上。在优化器与学习率策略方面本文遵循“先稳后快”的原则训练初期采用 warmup 逐步抬升学习率降低注意力模块与多尺度融合结构在随机初始化阶段的梯度震荡风险进入稳定收敛区间后使用余弦退火或等价的平滑衰减策略使网络在不牺牲召回率的前提下逐步压缩误检。对于单类别行人检测分类分支的学习往往更快饱和而定位分支对小目标与遮挡目标的收敛更慢因此在后期训练中更需要维持足够的定位梯度信号。工程上这可以通过适当延长训练轮数、保持较小的最终学习率下界以及在验证集上启用早停机制来实现一旦验证指标在若干轮内无提升即终止训练从而避免模型在夜视背景噪声上继续过拟合。本文默认以 RTX 4090 作为训练硬件结合 mixed precisionAMP与合理的 batch size 在保证吞吐的同时控制显存占用使训练过程具备较好的可复现性与扩展性。模型优化环节主要围绕“夜视鲁棒性”和“部署效率”两条线展开。夜视鲁棒性方面本文优先通过数据与损失的层面减小域偏移一方面对低置信度候选保持更谨慎的阈值设置避免背景噪声造成误检扩散另一方面在难例较多的场景中启用更强的难例挖掘效应例如通过 focal-like 的权重机制或样本分配策略间接实现让模型把学习资源投入到远距离小行人与遮挡行人上。部署效率方面训练完成后优先采用图优化与推理加速链路而非改变网络结构本身导出 ONNX 后可进一步使用 TensorRT 编译以获得更低时延同时在推理端将 BN 融合、开启 FP16/INT8若具备校准集等手段通常能在保持精度基本不变的情况下显著提升帧率。需要强调的是夜视行人检测的误检成本在安防告警中往往高于漏检成本的某些场景因此本文在部署参数上提供可调的 Conf/IoU 阈值使系统能够根据业务侧对“宁可多报还是宁可少报”的偏好进行快速切换而无需重新训练模型。若读者未额外提供训练细节本文默认采用如下配置作为可复现实验基线可直接写入博客或作为系统默认参数其中 epochs 与 patience 体现“充分训练但避免过拟合”的策略imgsz 统一输入尺度保证部署一致性close_mosaic 用于后期关闭强拼接增强以改善定位稳定性较适合夜间小目标边界精细化收敛。名称作用简述数值epochs最多训练轮数120patience早停耐心验证无提升则停止50batch每次迭代的总批大小16imgsz网络输入分辨率方形640pretrained是否加载预训练权重trueoptimizer优化器类型auto 由框架选择autolr0初始学习率0.01lrf最终学习率占比衰减底值0.01momentum动量/一阶动量系数0.937weight_decay权重衰减L2 正则0.0005warmup_epochs学习率预热轮数3.0mosaicMosaic 数据增强强度/概率1.0close_mosaic训练后期关闭 Mosaic 的轮数10最后从系统实现角度看上述训练策略与优化配置并非只服务于离线指标而是为“可解释、可调参、可部署”的完整链路服务训练阶段通过稳健增强与学习率调度获得对夜间退化的泛化能力导出阶段通过标准化模型格式ONNX/TensorRT降低部署门槛推理阶段通过阈值与后处理策略的可配置化使夜视行人检测在不同场景道路、园区、走廊、停车场下能够以较低成本完成策略迁移。这种“训练可复现、推理可落地、策略可调整”的设计构成了本文夜视行人检测系统能够长期稳定运行的关键支撑。5. 实验与结果分析本节围绕夜视单类别行人检测任务对 YOLO 系列在相同数据集与统一训练配置下的表现进行对比评测。实验的目标并不止于“指标最高”更关注在夜间弱纹理、远距离小目标与背景噪声并存的条件下不同模型在精度、召回与端侧时延之间的折中关系因此除m A P mAPmAP外本文同步报告 Precision、Recall、F1 以及推理链路的预处理、推理与后处理耗时以支撑后续系统部署时的参数选择与阈值设定。5.1 实验设置与对比基线对比模型覆盖两组常用规模轻量组n/tiny/t包含 YOLOv5nu、YOLOv6n、YOLOv7-tiny、YOLOv8n、YOLOv9t、YOLOv10n、YOLOv11n、YOLOv12n中等组s包含 YOLOv5su、YOLOv6s、YOLOv7、YOLOv8s、YOLOv9s、YOLOv10s、YOLOv11s、YOLOv12s。所有模型均在同一夜视行人数据集上训练与评估并以m A P 0.5 mAP0.5mAP0.5与m A P 0.5 : 0.95 mAP0.5:0.95mAP0.5:0.95作为核心检测精度指标推理时延统计分为 PreTime、InfTime、PostTime 三段便于定位实际系统瓶颈。图像端的典型效果可参考前述预测可视化图val_batch0_pred.jpg其显示夜视画面中多目标密集且尺度跨度大是导致夜间漏检与误检的主要来源之一。5.2 度量指标与曲线解读从单模型评估曲线看PR 曲线整体贴近左上角说明在较宽阈值范围内模型能够维持较高精确率并逐步拉升召回其中m A P 0.5 0.911 mAP0.50.911mAP0.50.911的结果直接反映了该模型在 IoU0.5 条件下对行人目标的总体检出质量PR_curve.png。与此同时F1–Confidence 曲线呈现“先升后降”的典型形态峰值约为F 1 0.87 F10.87F10.87且对应置信度阈值约为0.322 0.3220.322F1_curve.png。这一点对系统落地尤为关键夜视场景下背景噪声与弱纹理会造成大量低置信候选框如果阈值设置过低误检会显著增多阈值设置过高又会牺牲远距离行人的召回。老思建议将系统默认阈值初始化在0.30 ∼ 0.35 0.30\sim0.350.30∼0.35区间并在 UI 中保留可调入口用于适配不同监控点位的噪声水平与告警策略。训练过程的收敛性可由 results.png 反映训练阶段 box/cls/dfl loss 持续下降precision 与 recall 在前 20 个 epoch 内快速抬升之后进入平缓增长区间验证阶段的 mAP50 与 mAP50-95 在中后期趋于平台且 val/dfl loss 存在一定幅度回升提示模型在后期对边界分布的拟合出现轻微过拟合倾向。对应地工程上更合适的做法是配合早停patience或在后期关闭强增强如 close_mosaic来换取更稳的定位质量而不是盲目拉长训练轮数。混淆矩阵confusion_matrix_normalized.png进一步表明当前阈值设定下“行人被判为背景”的比例仍占一定权重可视为漏检主导误差这与夜视条件下远距离小目标、遮挡与低对比度区域的检出困难相一致因此后续优化更应优先提升召回相关能力例如加强小目标尺度覆盖与难例挖掘而非单纯追求更高的 precision。5.3 定量对比结果与分析在中等规模s模型组中YOLOv12s在综合精度上取得最优的m A P 0.5 : 0.95 0.5403 mAP0.5:0.950.5403mAP0.5:0.950.5403同时m A P 0.5 0.9108 mAP0.50.9108mAP0.50.9108与YOLOv9s的0.9108 0.91080.9108基本持平F1 亦达到0.8713表格数据与 “NightVision - s_type: F1 mAP50 Comparison” 一致。这一现象说明在夜视行人这种“框定位细节决定上限”的任务中v12s 相对更强的多尺度表征与全局建模能力更容易体现在m A P 0.5 : 0.95 mAP0.5:0.95mAP0.5:0.95更严格 IoU 区间的增益上而不仅仅是m A P 0.5 mAP0.5mAP0.5的提升。值得注意的是YOLOv8s 的推理时间最短InfTime≈7.66ms且 precision 很高0.9117但 recall 相对偏低0.8180这与其更倾向于保守输出、减少误检的决策特性一致若业务场景强调“少报优先”YOLOv8s 往往更容易通过阈值微调达到稳定告警。相对地YOLOv7InfTime≈23.62ms在该硬件上时延显著偏高且m A P 0.5 : 0.95 mAP0.5:0.95mAP0.5:0.95明显落后0.4605说明其在当前实现与平台上不占优势更适合作为历史基线参考。在轻量n/tiny/t模型组中整体精度差距更敏感地受到结构与训练适配的影响。结果显示YOLOv9t在m A P 0.5 : 0.95 mAP0.5:0.95mAP0.5:0.95上达到组内最高0.5349同时保持较高 precision0.9050YOLOv5nu 则在推理效率上更占优势InfTime≈7.73ms且m A P 0.5 mAP0.5mAP0.5仍能达到 0.8958体现出较强的“轻量可部署性”。相比之下YOLOv12n 的m A P 0.5 mAP0.5mAP0.5与m A P 0.5 : 0.95 mAP0.5:0.95mAP0.5:0.95分别为 0.8272 与 0.4844明显低于同组其他模型并伴随 recall 下滑0.7738。这类差异通常意味着其一极小模型在夜视小目标密集场景下更容易出现表征容量不足其二注意力相关结构在“n”级别模型中若未与数据增强与正样本分配形成更好的协同可能会将学习能力消耗在背景噪声与局部伪纹理上从而导致有效召回下降。换言之v12 的优势更可能在 “s/m” 等具备更充分通道数与特征容量的规模上体现而在极限轻量化版本上需要更审慎的训练策略与阈值配置。从系统落地角度老思更建议将模型选择建立在“精度目标 时延预算”这两个约束之上而不是只看单一指标。若以综合精度为第一优先YOLOv12s 与 YOLOv9s 是更稳妥的选择其中 v12s 在严格 IoU 区间更占优势若以实时性为第一优先并兼顾较高m A P 0.5 mAP0.5mAP0.5YOLOv8s 与 YOLOv5nu 更容易在笔记本级 GPU 上跑出更高吞吐。结合 F1–Confidence 曲线给出的阈值区间约 0.322在 UI 中提供 Conf/IoU 的可调入口能够显著降低“换场景就要重训”的成本使同一套权重在不同夜视点位间获得可控的误报/漏报平衡。与之相对应n_type 与 s_type 的平均 PR 曲线与 mAP50 收敛曲线NightVision_n_type_pr_curve.png、NightVision_s_type_pr_curve.png、NightVision_n_type_metrics_mAP50(B).png、NightVision_s_type_metrics_mAP50(B).png从侧面验证了上述结论s 组模型的曲线更稳定且尾部衰减更缓说明在高召回区间仍能维持较好的 precision而这恰恰对应夜视监控中“远距行人不能漏”的业务诉求。6.系统设计与实现6.1 系统设计思路夜视行人检测系统在工程实现上通常面临两个同时存在的约束一是推理链路必须稳定且可控避免在弱光噪声、运动拖影与目标密集时出现界面卡顿或误报“抖动”二是交互侧需要把“输入源切换、参数调节、结果保存与追溯”做成可解释的闭环。基于此老思在系统结构上采用经典的分层思想将 UI 展示、控制调度与推理处理解耦界面层负责可视化与交互承载控制层负责状态机与信号槽调度处理层负责模型加载、推理与后处理从而使得算法迭代切换 YOLO 族权重不会破坏 UI 与业务流程。具体实现上主窗口 MainWindow 作为控制中枢统一管理输入源状态图片/视频/摄像头、推理开关开始/暂停/停止、参数状态Conf/IoU、imgsz、设备选择与结果流转叠加显示、表格刷新、导出与入库。Ui_MainWindow 仅负责控件布局与信号发射避免把业务逻辑写进界面文件Detector 则封装“加载权重—预处理—推理—NMS—统计”的一条龙流程并通过信号将每帧的检测结果框坐标、类别、置信度、计数信息回传给 MainWindow。跨层通信完全依赖 Qt 的信号-槽机制保证推理线程与 UI 线程之间不会因直接共享对象而引发竞态问题同时系统将结果存储统一落到 SQLite使得不同用户的历史记录、导出文件与个性化配置能够持久化形成可重复利用的工作空间。围绕真实使用场景系统把“检测闭环”设计为可观察、可回退的流程用户选择输入后系统进行预处理并进入 YOLO 推理随后执行后处理与统计最后更新界面并等待用户交互阈值调节、暂停、导出、写库。当用户继续播放或切换输入源时该流程重新进入循环。该设计一方面保证实时性需求下的稳定刷新另一方面也让调参、对比不同模型与追溯历史结果成为系统级能力而不是训练脚本的附属品。图 系统流程图图注系统从初始化到多源输入完成预处理、推理与界面联动并通过交互形成闭环。6.2 登录与账户管理 — 流程图登录与账户管理在该系统中并非“附加功能”而是将夜视检测从一次性演示转化为可持续使用工具的关键环节系统启动即进入登录界面用户可直接登录或注册新账号注册信息写入 SQLite 后登录阶段通过查询校验完成身份认证并在进入主界面前加载用户的个性化配置与历史结果例如主题、Conf/IoU 阈值、最近一次使用的模型与导出路径从而实现“换人不串数据、重启不丢设置”。当用户在主界面进行资料修改头像、密码、偏好时配置会即时落库并在后续会话中保持一致注销与切换账号则回到登录界面并重新绑定独立空间使推理结果、导出文件与数据库记录在多用户场景下保持清晰的隔离与可追溯性同时与主检测流程天然衔接避免出现“检测进行中用户状态不一致”的工程风险。7.参考文献1 Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2005.2 Dollár P, Appel R, Belongie S, et al. Fast Feature Pyramids for Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014.3 Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]//Advances in Neural Information Processing Systems (NeurIPS). 2015. (NeurIPS Proceedings)4 Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2017.5 Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[EB/OL]. arXiv:2004.10934, 2020. (arXiv)6 Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2023. (CVF Open Access)7 Hwang S, Park J, Kim N, et al. Multispectral Pedestrian Detection: Benchmark Dataset and Baseline[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2015. (CVF Open Access)8 Jia X, Zhu C, Li M, et al. LLVIP: A Visible-Infrared Paired Dataset for Low-Light Vision[C]//ICCV Workshops. 2021. (CVF Open Access)9 Neumann L, Karg M, Zhang S. NightOwls: A Pedestrians at Night Dataset[C]//European Conference on Computer Vision Workshops. Springer, 2018. (Springer)10 Loh Y P, Chan C S. Getting to Know Low-Light Images with the Exclusively Dark Dataset[J]. Computer Vision and Image Understanding, 2019. (ScienceDirect)11 Wei C, Wang W, Yang W, et al. Deep Retinex Decomposition for Low-Light Enhancement[C]//British Machine Vision Conference (BMVC). 2018. (arXiv)12 Guo C, Li C, Guo J, et al. Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. (CVF Open Access)13 Li C, Song D, Tong R, et al. Multispectral Pedestrian Detection via Simultaneous Detection and Segmentation[C]//British Machine Vision Conference (BMVC). 2018. (bmvc2018.org)[14] 何自芬, 陈光晨, 陈俊松, 等. 多尺度特征融合轻量化夜间红外行人实时检测[J]. 中国激光, 2022, 49(17): 1709002. (Researching)[15] Pedestrian detection in low-light conditions: A comprehensive survey[J]. Image and Vision Computing, 2024. (ScienceDirect)下载链接若您想获得博文中涉及的实现完整全部资源文件包括测试图片、视频py, UI文件训练数据集、训练代码、界面代码等这里见可参考博客与视频已将所有涉及的文件同时打包到里面点击即可运行完整文件截图如下完整资源中包含数据集及训练代码环境配置与界面中文字、图片、logo等的修改方法请见视频项目完整文件请见项目介绍及功能演示视频处给出➷➷➷功能效果展示视频夜视行人检测系统YOLOv12-v11至v5八个模型含示例论文合集完整Python项目演示UI界面含论文等环境配置博客教程1Pycharm软件安装教程2Anaconda软件安装教程3Python环境配置教程或者环境配置视频教程1Pycharm软件安装教程2Anaconda软件安装教程3Python环境依赖配置教程数据集标注教程如需自行标注数据数据标注合集