一、研究背景与问题定义1. 自动驾驶3D感知的核心需求功能需求需要同时支持3D目标检测、跟踪、BEV分割、高精地图生成、轨迹预测等多下游任务鸟瞰视角BEV特征是统一支撑多任务的高效表示形式。落地痛点激光雷达LiDAR成本高、维护复杂难以大规模落地纯相机方案对光照/天气敏感缺乏深度信息3D定位误差大长距离检测性能差毫米波雷达radar成本低、抗恶劣天气、测距准、能测速、感知距离可达200m但点云极度稀疏比LiDAR少180倍、噪声大、无高程信息单独使用语义感知能力差。2. 现有融合方案的缺陷晚期融合检测结果层面融合无法充分利用两类传感器的互补信息性能上限低现有BEV层面融合方案未针对性解决两类传感器的特性缺陷相机BEV变换的空间误差、雷达的稀疏性与噪声、多模态特征的空间不对齐问题。二、CRN核心设计思想CRN是两阶段BEV编码融合框架目标是生成语义丰富相机优势 空间精确雷达优势的统一BEV特征核心设计遵循三个原则相机特征到BEV的变换需保证空间位置准确性融合过程需要能处理多模态特征的空间不对齐问题变换与融合过程需要自适应适配雷达的噪声与歧义性。图1 在nuScenes数据集上FPS与精度的对比。我们证明融合雷达信息可显著提升仅使用摄像头的方法性能且计算开销仅为微小。CRN在速度上优于所有方法且运行速度大幅提升。三、关键技术模块1. 雷达辅助视角变换RVT, Radar-assisted View Transformation解决纯相机深度估计不准导致的BEV变换空间误差问题流程如下相机侧编码多视角图像经过骨干网络提取透视视图PV特征同时预测每个像素的深度分布和纯相机BEV方案一致。雷达侧编码雷达点云投影到对应相机视图体素化为截锥体视图frustum view特征同时预测雷达的深度 occupancy表示该深度位置是否存在物体。融合截锥体变换将相机透视特征分别与深度分布、雷达occupancy做外积拼接后得到融合的截锥体特征再通过Voxel Pooling转换为统一的相机BEV特征。优势同时利用了稠密但不准的相机深度分布和稀疏但精确的雷达测距信息相比纯相机深度变换NDS提升8.2%、mAP提升11.6%。图2 所提出的相机雷达网络的整体架构。基于多视角图像和雷达点模态特定的骨干网络在每个视角中提取特征。首先借助雷达辅助视角变换RVT技术将透视视角下的图像上下文特征通过雷达测量转化为鸟瞰图视角。随后多模态特征聚合MFA自适应地融合图像与雷达特征图生成语义丰富且空间准确的鸟瞰图表示。2. 多模态特征聚合MFA, Multi-modal Feature Aggregation解决多模态BEV特征空间不对齐、融合不自适应的问题核心组件多模态可变形交叉注意力MDCA针对普通交叉注意力计算复杂度随BEV尺寸呈平方增长、无法适配长距离感知的问题基于可变形注意力改进为每个模态单独设置采样偏移和注意力权重自适应调整对相机/雷达特征的依赖程度复杂度从O(N²)降低到线性O(N)N为BEV网格数量支持长距离感知场景。稀疏聚合优化根据深度分布和雷达occupancy的置信度仅选择Top-K个高置信度BEV网格参与注意力计算进一步降低计算量长距离场景下推理速度提升21.7%仅损失少量性能。图4 在检测任务上训练的特征图可视化结果。图像中车辆因严重遮挡白色或远距离下几乎不可见蓝色而未被检测到。雷达中来自墙壁的杂波黑色或具有行向雷达截面红色的行人导致检测失败。我们的多模态融合方法通过融合生成了更可靠的BEV特征图。请注意BEV特征图已裁剪以增强可视化效果。四、多任务适配生成的统一BEV特征可直接适配不同下游任务仅需更换任务头3D检测与跟踪采用CenterPoint的无锚框检测头基于速度匹配实现跟踪无需修改框架主体。BEV分割采用卷积解码头输出车辆、可行驶区域的语义占据栅格用Focal Loss训练。五、实验结果与核心结论所有实验在nuScenes数据集上完成核心结论如下1. 精度达到激光雷达级水平3D检测nuScenes测试集NDS 62.4%、mAP 57.5%位列所有相机/相机-雷达方法第一超过激光雷达基线CenterPoint-PNDS 59.8%在100m长距离场景下性能优于激光雷达方法尤其30m以上远距优势显著。3D跟踪AMOTA 56.9%超过所有公开纯相机跟踪方案同时降低跟踪定位误差和ID切换次数。BEV分割车辆分割IoU 58.8%、可行驶区域IoU 82.1%超过现有纯相机/融合方案同时保持24.8FPS的实时速度。表1 nuScenes验证集上3D目标检测对比2. 效率优势显著小配置版本256×704输入、ResNet18骨干可达27.9FPS性能超过大配置纯相机方案如900×1600输入的BEVFormer速度快15倍以上雷达模块带来的额外计算成本可忽略仅增加14.9ms延迟即可带来12.4的NDS提升。3. 鲁棒性极强传感器故障容错单模态完全失效时性能仍优于对应单模态基线雷达完全不可用时性能仅下降5.6%远低于传统融合方案的15%下降幅度。恶劣环境适配雨天、夜间场景下相比纯相机方案mAP提升13.6~18%接近激光雷达的鲁棒性。六、消融研究验证的关键结论RVT模块单独使用雷达做视角变换性能会下降雷达太稀疏单独用估计深度误差大两者融合后才能实现最优性能该方法对LiDAR输入也有稳定性能提升具有通用性。MFA模块相比简单的卷积拼接融合可变形注意力能更好处理空间不对齐问题提升融合性能和RVT结合实现最优效果。时序信息多帧BEV特征累加可以显著提升检测、跟踪性能且不会增加推理延迟历史帧BEV特征可缓存复用。表6 特征聚合方法的消融。请注意MFA与RVT是我们完整的模型。七、研究价值与行业影响提供了低成本自动驾驶感知的可行路径用相机毫米波雷达的低成本组合实现了接近激光雷达的感知性能可大幅降低自动驾驶方案的落地成本。解决了相机-雷达融合的核心痛点针对性适配两类传感器的特性缺陷为后续多模态融合研究提供了通用的框架参考。支持长距离实时感知对高速自动驾驶等需要远距感知的场景具有很高的落地价值。