CVPR‘26开源 | SwiftVGGT:大规模3D场景重建的可扩展VGGT,4分钟跑完4542张图像!
点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入论文信息标题SwiftVGGT: A Scalable Visual Geometry Grounded Transformer for Large-Scale Scenes作者Jungho Lee, Minhyeok Lee, Sunghun Yang, Minseok Kang, Sangyoun Lee机构Yonsei University原文链接https://arxiv.org/abs/2511.18290代码链接https://jho-yonsei.github.io/SwiftVGGT/导读大规模场景的3D重建是3D感知领域的一项基础任务但精度与计算效率之间的固有矛盾始终是一大挑战。现有方法要么注重速度而产生低质量结果要么以较慢的推理时间为代价实现高质量重建。在本文中我们提出了SwiftVGGT这一无需训练的方法它在保持高质量密集3D重建的同时显著降低了推理时间。为确保大规模场景的全局一致性SwiftVGGT通过循环闭合算法进行重建无需依赖外部视觉位置识别模型从而避免了冗余计算使得千米级环境的重建成为可能。此外我们还提出了一种简单有效的点采样方法通过单次基于Sim(3)的奇异值分解步骤即可对相邻数据块进行对齐。这种方法省去了传统方法中常用的迭代加权最小二乘优化过程大幅提升了计算速度。我们在多个数据集上对SwiftVGGT进行了测试结果表明其在保持领先重建质量的同时其推理时间仅为现有基于VGGT的大规模重建方法的33%。效果展示我们提出 SwiftVGGT方法该方法既能实现高重建质量又能实现快速的运行速度。图中展示的场景为KITTI数据集序列00包含4,542张图像。与先前方法相比SwiftVGGT显著加快了处理速度同时提高了相机追踪准确性和密集3D重建质量引言尽管三维计算机视觉近期取得了进展但从千米级尺度如自动驾驶场景拍摄的视频中预测三维几何结构仍然极具挑战性。现代大规模同步定位与地图构建系统通常采用基于特征点的稀疏地图表示以确保实时性能和计算效率。然而稠密三维重建对于在真实世界的自主运行中更深入理解场景几何、实现可靠避障和安全运动规划至关重要。虽然近期有几项工作试图解决大规模稠密重建问题但许多方法仍面临实际应用限制。它们通常需要精确的相机内参依赖复杂的多阶段流程或因计算瓶颈最终只能生成半稠密或稀疏的三维地图。这些限制凸显了对一种能够高效重建大规模稠密三维几何、且不依赖繁重辅助模块或牺牲推理速度的方法的需求。面向完全自主驾驶环境的大规模稠密三维重建需要一种能够同时处理长距离相机轨迹、累积漂移、内存效率和快速推理速度的表示方法。近期的方法尝试利用三维视觉基础模型来减轻这一负担但它们通常只满足部分要求未能覆盖所有方面。例如基于Transformer的三维基础模型DUSt3R构建的CUT3R和Fast3R在处理大规模场景时仍存在内存容量限制。MASt3R-SLAM通过引入MASt3R作为几何先验提高了重建质量但随着场景扩大常出现跟踪失败导致轨迹估计退化。更近期的方法开始采用VGGT这是一个在稠密三维感知任务中表现出色的基础模型。然而VGGT受其固有内存占用的限制限制了可同时处理的输入图像数量。FastVGGT试图缓解此问题但在应用于千米级自动驾驶场景时仍遇到内存可扩展性问题。特别地VGGT-Long通过采用基于分块的Sim(3)对齐策略解决了内存效率和漂移缓解问题并利用视觉位置识别模型处理大规模环境中的闭环。然而该方法仍无法达到实时性能我们将此限制归因于两个主要因素。首先分块间对齐依赖于基于迭代重加权最小二乘法的Sim(3)优化。由于每个分块包含大量三维点如表1所示这种重复的优化步骤计算开销巨大。其次VGGT-Long通过运行一个独立的、基于DINO的VPR编码器来检测闭环该编码器与VGGT内部的DINO编码器分离引入了额外的计算负担。这些瓶颈最终阻碍了VGGT-Long在对速度和可扩展性都至关重要的实时自动驾驶场景中的应用。本文中我们提出了SwiftVGGT一种无需训练的方法能够在不增加额外内存成本的情况下显著加速大规模稠密重建的推理同时保持甚至提高重建质量。我们的方法包含两个关键组成部分。首先我们将基于迭代IRLS的Sim(3)对齐替换为基于单步Sim(3)的奇异值分解流程。为此我们首先将VGGT预测的深度图对齐到参考内参尺度然后根据对齐后的深度差异从相邻分块的重叠区域采样可靠点从而实现稳健的Sim(3)估计。这种采样策略确保了稳定的对齐同时消除了重复优化迭代的需要。其次我们通过直接使用VGGT的DINO块标记执行闭环检测消除了外部VPR模型引入的冗余计算。然而这些特征本身并不适合位置识别直接使用无法产生可靠的闭环对应关系。为了解决这个问题我们引入了一种特征变换策略使这些标记能够有效地替代专用的VPR编码器。这些组件共同使SwiftVGGT能够实现最先进的稠密重建和相机跟踪性能同时相比现有方法推理速度至少提升3倍。主要贡献为了证明我们模型的有效性我们在KITTI数据集、Waymo Open数据集和Virtual KITTI数据集上进行了实验。我们的贡献可总结如下我们引入了一种可靠性引导的点采样策略实现了非迭代的Sim(3)对齐取代了IRLS显著降低了对齐成本。我们提出了一种无需训练的闭环机制利用VGGT编码器特征消除了外部VPR模块和冗余计算。我们证明SwiftVGGT实现了最先进的大规模稠密重建和相机跟踪性能同时在不增加额外内存开销的情况下推理速度提升超过3倍。方法SwiftVGGT通过VGGT将数千张输入图像分割成滑动窗口块进行处理。为缩短推理时间我们采用基于可靠性的点采样方法替代了IRLS优化步骤。此外我们还直接利用VGGT的DINO变换器生成的补丁令牌进行循环检测从而进一步降低了整体推理成本。实验结果在定量评估中我们在KITTI场景00–10上比较了绝对轨迹误差RMSE米。如表2所示现有的基于三维视觉基础模型的方法如MASt3R-SLAM、CUT3R、Fast3R和FastVGGT由于内存使用过多通常无法处理长序列导致跟踪丢失或内存不足错误。DPV-SLAM采用基于DBoW2的ORB特征进行闭环检测但在包含闭环的序列上表现较差如表2所示。虽然DPV-SLAM运行相对较快但其相机跟踪精度有限且只能产生稀疏的三维重建。DROID-SLAM比传统的基于特征的SLAM系统实现了更稠密的重建但性能仍不及近期基于三维视觉基础模型的方法且重建密度较低。相比之下我们的SwiftVGGT在所有KITTI场景中均取得了一致的强性能提供稠密三维重建的同时运行速度比VGGT-Long快约三倍。总结 未来工作我们提出了SwiftVGGT一个快速且无需训练的大规模三维重建框架它在保持高质量相机跟踪和稠密几何精度的同时显著加速了前馈式重建流程。我们的方法提供了两个关键贡献(1) 一种可靠性引导的点采样策略以及 (2) 一种高效的闭环检测机制。大量实验表明SwiftVGGT实现了强大的相机跟踪性能、准确的大规模三维几何结构以及稳健的闭环恢复同时运行速度比现有基于VGGT的方法快3倍。定性和定量结果证实SwiftVGGT在速度和精度之间提供了优越的平衡使其对于大规模三维感知极具实用性。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。