097、视觉大模型推理延迟太高?知识蒸馏、量化与级联小模型兜底方案一、从一次线上事故说起凌晨两点,告警电话响了。监控显示,某安防场景的视觉大模型推理服务,P99延迟从120ms飙到了2.3秒。值班同事反馈:模型没变,流量没涨,GPU利用率却卡在98%不动了。我登录上去一看,NVIDIA-SMI显示显存占用爆了,但实际推理batch size只有1。问题出在哪?——模型太大,推理引擎在显存和计算单元之间来回搬运权重,成了瓶颈。这不是个例。很多团队把ResNet换成ViT、把YOLO换成DETR,精度上去了,但部署时发现:边缘设备跑不动,云端成本扛不住。视觉大模型的推理延迟,本质是“计算量”和“访存量”的双重暴击。今天这篇笔记,不讲虚的,直接给三个经过实战检验的兜底方案:知识蒸馏、量化、级联小模型。每个方案我都会贴出踩过的坑和代码级别的注意事项。二、知识蒸馏:别只盯着软标签知识蒸馏(Knowledge Distillation)是降低延迟最优雅的方式——训练一个小模型(Student)去模仿大模型(Teacher)的行为。但很多人做蒸馏时,只把Teacher的softmax输出当软标签,结果Student精度死活上不去。踩坑记录:我早期做目标检测蒸馏,只蒸馏分类头的logits,结果Student的定位精度掉了5个点。后来发现,视觉大模型的中间特征图(Feature Map)里藏着大量空间信息,尤其是FPN(特征金字塔)各层的输出,必须一起蒸馏。