点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达本文经作者授权发布 | 来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入太长不看版本文提出了一种全新的组合式场景重建框架名为SimRecon它采用了一套“感知-生成-模拟”流程并配备了专门的衔接模块以确保在视觉表现力和物理合理性方面达到高水平。论文信息标题SimRecon: SimReady Compositional Scene Reconstruction from Real Videos作者Chong Xia, Kai Zhu, Zizhuo Wang, Fangfu Liu, Zhizheng Zhang, Yueqi Duan机构Tsinghua University、Galbot原文链接https://arxiv.org/abs/2603.02133代码链接https://xiac20.github.io/SimRecon/导读基于组合式的场景重建方法旨在从真实世界视频中提取以物体为中心的信息而非完整的场景图像。这种方法非常适合用于模拟和交互应用。传统的重建方法主要关注视觉效果但在处理真实世界场景时其泛化能力有限。在本文中我们提出了SimRecon框架该框架实现了“感知-生成-模拟”这一流程首先从视频中提取场景级的语义信息然后生成单个物体图像最后将这些元素整合到模拟器中。不过如果直接将这三个步骤串联起来会导致生成出的图像在视觉上不真实且整个场景在物理上也不符合逻辑尤其是在处理复杂场景时这个问题更为突出。因此我们设计了两个过渡模块来解决这些问题。具体来说在“感知”到“生成”的转换过程中为确保视觉效果的真实性我们采用了“主动视角优化”技术该技术能在三维空间中寻找最佳的投影图像作为生成单个物体的依据。而在“生成”到“模拟”的转换过程中为了保证场景的物理合理性我们设计了“场景图合成器”该工具能够引导模拟器按照真实的构建方式来生成场景。通过在ScanNet数据集上的大量实验我们证明了该方法比现有的最先进技术更具优越性。效果展示构成式3D重建的定性比较。我们展示了最终重建场景的定性可视化效果。对于单视角设置我们以目标视点处的3D表现图为输入用于这些方法的渲染。引言从多视角图像进行三维场景重建是计算机视觉领域的一项长期挑战。神经表示方面的最新进展使得三维几何重建和新视角渲染取得了显著进步。然而这些方法是对场景进行整体表示尽管它们实现了令人印象深刻的视觉保真度但由于缺乏完整的物体几何结构和明确的物体边界它们从根本上不适合用于模拟和交互。与此同时当代研究通过以下方式创建三维室内模拟器在模拟环境中手动放置资产在扫描过程中使用专门的捕捉硬件并进行大量手动标注或通过基于规则的方法或学习的布局生成模型采用程序化生成。这些数据集极大地推进了具身智能研究特别是在具身推理、导航和操作方面。尽管如此这些场景创建方法仍然依赖于重建良好的扫描数据和大量的人工参与并且存在与真实世界相悖的人工布局问题。一个新的研究分支开始探索仅从野外多视角图像进行组合式三维重建但这些方法存在几个关键限制阻碍了这一目标的实现。首先这些方法通常依赖从输入图像或用于单物体生成的三维表示中进行启发式视角选择这难以针对小型、大型或被遮挡物体生成完整且合理的几何结构。其次它们的最终结果仍然是一种视觉表示而非可用于模拟的场景导致了表现为物理不合理的真实到模拟的鸿沟。第三它们通常依赖专门为语义重建和物体生成设计的方法这些方法与它们自身的流程紧密耦合无法轻松利用这些领域的先进方法。主要贡献在本文中我们提出了SimRecon一个通过统一以物体为中心的空间表示来实现感知-生成-模拟流程的框架旨在将杂乱的视频输入转换为可用于模拟的组合式三维场景。我们的框架首先从视频输入进行语义重建以恢复三维场景并区分单个物体然后进行单物体生成以补全每个实例最后将这些资产组合在物理模拟器中。主要的挑战在于生成资产的视觉保真度低和最终构建场景的物理不合理性这些源于三个阶段之间的衔接部分。基于这一观察我们主要专注于设计桥接模块来解决这些瓶颈问题实现单个物体的完整几何结构和外观并确保它们在物理上合理的放置。这种桥接模块的设计范式也赋予了我们的框架固有的可扩展性。具体来说为了弥合从感知到生成的鸿沟这需要将非结构化和杂乱的三维几何表示转换为生成模型的有效图像条件我们引入了主动视点优化它在三维场景中智能搜索具有最大信息增益的最优视角作为最佳视点条件。这种方法超越了启发式视角选择后者在复杂场景中常常产生被遮挡的视角导致生成资产变形。此外为了确保在模拟器中构建合理的场景我们引入了场景图合成器它从多个不完整的观测中逐步提取全局场景图。该场景图主要对物体之间的支撑和附着关系进行建模作为后续分层物理组装的天然构建指导以确保物理合理性。在ScanNet数据集上的大量实验证明了我们的方法在复杂场景重建保真度和模拟器中的物理合理性方面优于现有最先进的方法。方法我们的方法SimRecon的整体框架。我们提出了一套“感知-生成-模拟”流程辅以以对象为中心的场景表示方法旨在从杂乱的视频输入中实现构成式3D场景重建。在此图中我们以背包为例通过直观的视觉化展示来介绍我们的两个核心模块:主动视点优化(AVO)和场景图合成器(SGS)。图中我们展示了语义层面的图形以增强清晰度而我们的框架则在实例层面运行。实验结果表1展示了组合式三维重建任务的定量和定性结果。我们观察到像Gen3DSR和SceneGen这样的单视图方法难以重建具有准确空间位置的忠实物体几何结构显示出对真实图像泛化能力的局限性。DPRecon采用每个物体的有符号距离场作为强大的三维生成条件因此遭受源于严重不完整三维结构的变形伪影问题并且还需要显著的推理时间。InstaScene利用启发式视图采样策略将语义三维高斯作为条件常常产生严重遮挡的投影图像因此无法生成准确的几何结构和外观。相比之下我们的方法采用主动视点优化通过最大化三维信息增益来智能搜索最优投影从而促进生成具有高几何和视觉保真度的资产。此外我们的框架利用合成的场景图来指导基于物理的资产组装确保最终配置的物理合理性不会出现悬浮或穿透的情况。总结 未来工作在本文中我们提出了SimRecon一个感知-生成-模拟流程旨在从杂乱的现实世界视频中创建以物体为中心、可用于模拟的场景。我们的框架解决了在简单流程组合中导致视觉保真度低和物理不合理的关键阶段转换障碍。我们引入了两个关键的桥接模块主动视点优化它主动搜索最优投影以确保高保真度的生成条件以及场景图合成器它指导符合真实构建原理的构建性组装从而从一开始就确保物理合理性。在ScanNet数据集上的实验验证了我们的方法在重建质量和物理合理性方面均实现了优越的性能。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。