一、从一次深夜调试说起上周三凌晨两点,屏幕上的损失曲线还在剧烈震荡。我们团队把RT-DETR直接套到RSOD数据集上,mAP只有可怜的42.3%,比论文里报告的COCO结果掉了将近三十个点。问题出在哪里?不是模型不行,而是我们忽略了遥感图像和目标检测之间的本质差异。遥感图像里的车辆小得像芝麻,机场跑道长得横跨整张图,传统的目标检测框架在这里水土不服。更麻烦的是,RT-DETR的全局注意力机制在应对这些极端尺度和长宽比时,出现了明显的注意力分散问题。那天晚上我盯着热力图看了半小时,终于意识到:直接套用通用目标检测框架处理遥感图像,就像用菜刀做外科手术——工具不对路。二、遥感目标的三大“怪脾气”尺度极端化RSOD里的目标尺度分布跨度极大。同一个画面里,油罐可能占据几百像素,而停车场里的轿车只有十几像素。RT-DETR的FPN设计在COCO上表现不错,但面对这种极端情况,浅层特征丢失小目标,深层特征又模糊了大目标的细节。# 原来的FPN连接方式(问题所在)classNaiveFPN(