文献Huang T., Prabhakara A., Chen C., et al. Towards Foundational Models for Single-Chip Radar.ICCV, 2025.项目主页https://wiselabcmu.github.io/grt/一、论文全景架构从问题到答案的完整地图我们先不急着钻细节。如果这篇论文是一座建筑它的承重结构是什么作者到底在回答哪几个问题单芯片雷达角分辨率极差~15° vs 摄像头/LiDAR现有数据集太小最大公开集仅3.6hCFAR/AoA 是有损压缩弱反射体被丢弃缺乏标准化基础模型每个任务从零训练这座建筑的底层逻辑很清晰单芯片雷达硬件便宜、鲁棒但软件层数据表示学习范式拖了后腿。作者不是在改进雷达硬件而是在问如果我们像对待图像像素一样对待原始雷达频谱把 Transformer 的暴力美学和海量数据结合起来会发生什么答案是会发生和计算机视觉领域 ViT 时刻类似的质变。二、知识图谱概念之间的隐秘血缘你有没有觉得雷达领域的术语像一盘散落的拼图CFAR、AoA、4D FFT、Doppler、Range-Doppler 图……它们到底是什么关系GRT 这篇论文重新梳理了这些概念的血缘。I/Q 时域流慢时间×TX×RX×快时间4D FFT信号处理核心4D Radar Cube256R×64D×8Az×2El振幅相位CFAR 阈值检测局部噪声估计→二值化AoA 到达角估计8Az bin→1个角度Radar Point Cloud稀疏·嘈杂·低角分辨率Patch Embedding4×2×8×2 → 2048Tokens正弦位置编码Range-Doppler 坐标Transformer Encoder多头自注意力Perceiver Decoder交叉注意力输出Query下游任务家族Doppler 维度速度→几何补偿多径/镜面反射雷达特有噪声模式这张图揭示了一个残酷的真相传统雷达处理流程右边粉色区域在把 4D 立方体变成点云的过程中至少损失了 28% 的有效信息AoA到31.5%CFAR。而 GRT 选择了一条绕路——不压缩直接让神经网络在频谱域里学习。这就像是以前我们教 AI 识别物体用的是素描点云现在直接把油画原作4D Cube摆在了它面前。三、思维导图论文的骨骼与肌肉如果我们要给这篇论文拍一张 X 光片它的骨骼结构长什么样四、数据流水线从电磁波到 Token 的奇幻漂流好我们来解决一个具体的认知疑点那一坨原始电信号到底是怎么一步一步变成 Transformer 能理解的数字的想象雷达芯片是一个吹笛子的人它吹出的声波调频连续波 FMCW碰到物体反弹回来。我们收到的不是图像而是混叠在一起的正弦波。Mermaid全屏下载复制代码预览关键洞察在这里传统方法在 4D FFT 之后立刻做 CFAR 或 AoA把高维信息压成低维。而 GRT 的叛逆之处在于它在 4D FFT 之后停住了——不再做任何手工设计的压缩直接把 2048 个 Patch 塞进神经网络。你可以把每个 Patch 想象成一张微缩地图的便利贴上面写着在距离 bin 第 100-103、速度 bin 第 20-21、所有 8 个方位角和 2 个俯仰角上雷达看到了什么。 2048 张便利贴拼在一起就是雷达在 1/20 秒内看到的整个世界。五、GRT 模型解剖变形金刚的内部齿轮现在我们来打开 GRT 的引擎盖。论文用的是标准 Transformer但有一个关键创新输入和输出生活在不同的坐标系里。在视觉 TransformerViT里输入是图像 Patch输出可能是分类标签或分割 mask——空间维度是对齐的。但雷达不一样输入是 Range-Doppler-Az-El输出可能是 Range-Az-El3D 占用或纯 Az-El语义分割。坐标系变了怎么办MermaidPerceiver IO 的妙处在这里它不像传统 Encoder-Decoder 那样要求输入输出长度相同。Decoder 的 Query 是可学习的、带位置编码的、形状可变的。想要 3D 占用Query 就铺成 64×128×64 的网格。想要语义分割Query 就铺成 640×640。每个 Query 向量通过交叉注意力去问 Encoder我在输出空间的这个位置对应输入空间的哪些 Patch对于 Ego-Motion 这种标量输出只需要一个速度向量论文干脆把 Decoder 扔掉换成一个三层 MLP直接从全局表征向量回归。这就像给变形金刚配了一个小计算器做简单算术。六、消融实验一场残酷的谁才是叛徒审判论文的消融实验设计得非常漂亮。它不是在调超参数而是在回答一个根本问题雷达信号处理流程里哪些步骤是忠臣哪些是叛徒测试损失 基准仅振幅去掉相位AoA估计8Az→1角度CFAR阈值p0.05去掉Doppler FFT当3D帧序列慢时间打乱彻底无Doppler错误Patch轴Range-Az-El无数据增强审判结果触目惊心AoA 和 CFAR 是最大叛徒。它们造成的性能损失相当于把你的数据集直接砍掉 90% 以上。这验证了一个反直觉的结论雷达信号处理领域用了几十年的标准做法对深度学习来说是灾难性的信息破坏。Doppler 是隐形功臣。去掉 Doppler损失涨 22.5%。慢时间打乱后只涨了 0.6%说明 Transformer 并不能自己学会 FFT 的物理意义——它只是在利用 Doppler 维度里已经编码好的速度-几何关系。相位是可有可无的装饰品。仅振幅只涨了 0.04%说明 4D FFT 之后剩下的相位携带的信息极少。这和雷达信号处理理论一致多普勒 FFT 后相位基本被解调了。七、Scaling Law雷达 Transformer 的胃口曲线这是整篇论文最硬核的部分。作者不是随口说数据越多越好而是训练了 20 个模型在 5 种规模 × 5 种数据比例上做了系统测量。测试集上训练近似下界线性外推对数曲线与下界相交点≈100×当前数据100M样本~3000小时验证曲线趋势~10 epoch饱和参考ViT Scaling10²-10⁴M样本一致指向需100×-1000×数据观察到的规律模型规模效应弱Large vs Small 差距小数据不足大模型吃不饱数据规模效应强对数线性缩放每10×数据损失↓~20%无饱和迹象即使149M参数100%数据现有数据集远未触及天花板实验设计5种模型规模Pico 3.9MTiny 12.7MSmall 28.9MMedium 69.4MLarge 149M5种数据比例10% ~ 3h20% ~ 6h50% ~ 15h100% ~ 29h如果把这个规律画成一条线它长这样这意味着什么现有的 I/Q-1M100 万帧对于基础模型来说就像是给一头大象喂了一片生菜叶。作者估算需要1 亿帧约 3000 小时才能让模型真正吃饱。这和视觉 Transformer 的 scaling 规律遥相呼应——小数据时代养不出大模型。八、微调魔法预训练模型的超能力转移最后一个关键问题我花了这么大代价预训练 GRT它到底能不能泛化到新场景论文做了两个层面的验证性能被超越从头训练对比RadarHDU-Net架构Diffusion ModelSOTA on ColoradarGRT from Scratch相同数据量微调阶段下游任务同域微调I/Q-1M子任务Semantic Seg10%数据 ≈ 从头50%BEV Occupancy数据效率↑5×Ego-Motion小数据优势显著跨域微调Coloradar数据集完全不同雷达配置128R×128D30分钟微调单卡RTX 4090Chamfer Distance超越专用SOTA模型预训练阶段I/Q-1M 数据集GRT-small28.9M参数3D Occupancy 预训练自监督友好任务跨域微调的细节尤其动人Coloradar 用的是完全不同的雷达调制参数128×128 而不是 256×64但 GRT 不需要改任何架构——不像 CNN 那样需要调整上采样层数。因为 Transformer 的输入是 Token 序列输出是 Query 驱动的分辨率变化只是 Token 数量和 Query 形状的变化模型本身完全无感。这就像一个人学会了阅读之后无论是读报纸还是读广告牌他不需要重新学习怎么识字只需要调整看东西的视角。九、闭环这篇论文在雷达领域的坐标系好我们来收束所有的线索。如果用一个坐标系来定位这篇论文它在哪里X轴表示方法Y轴数据规模Scaling方向小数据集~10k帧中等数据集~100k帧大数据集~1M帧I/Q-1M基础级数据集~100M帧目标点云/CFAR有损压缩AoA估计角度压缩2D Radar Map部分原始4D Raw Cube无损完整GRT选择★ GRT 位置(1M, 4D Cube)目标区域(100M, 4D Cube)这篇论文的真正价值不在于提出了一个 SOTA 模型而在于它证明了雷达基础模型这个象限是存在的。它用实验数据告诉我们表示层4D 原始立方体是正确选择CFAR/AoA 是历史包袱。架构层标准 Transformer Perceiver Decoder 足以处理雷达的输入输出坐标系不匹配问题。数据层现有数据集差 1-2 个数量级社区需要集体建设。范式层预训练 微调在雷达领域可行且效率惊人。对从业者的实际建议如果你在做雷达感知优先采集原始 I/Q 或 4D Cube 数据哪怕存储成本高 10 倍。如果你在设计数据集目标至少 1000 小时级别否则 Transformer 的潜力只是冰山一角。如果你在选模型架构忘掉雷达专用 CNN的执念标准 ViT 风格架构已经够用。延伸阅读国外核心文献Perceiver IOJaegle et al., 2021, DeepMind任意输入到任意输出的通用架构。An Image is Worth 16×16 WordsDosovitskiy et al., ICLR 2021ViTPatch 化范式的奠基。Scaling Vision TransformersZhai et al., CVPR 2022数据与模型规模的系统研究。Revisiting Unreasonable Effectiveness of DataSun et al., ICCV 2017对数缩放律的早期视觉证据。Scaling Data-Constrained Language ModelsMuennighoff et al., NeurIPS 2023数据受限时模型行为的参考。Attention Is All You NeedVaswani et al., NeurIPS 2017Transformer 原典。最后的话毫米波雷达领域长期被困在信号处理 → 点云 → 手工特征的舒适区里。GRT 这篇论文像一把凿子敲开了原始频谱 → 神经网络 → 通用表征的新冰层。它提醒我们有时候最大的性能提升不是来自更聪明的算法而是来自更勇敢的表示选择——敢于把最原始、最笨重的数据直接交给最强大的模型。