EndoVGGT:用于手术3D重建的GNN增强深度估计
大家读完觉得有帮助记得关注和点赞摘要可变形软组织的精确3D重建对于手术机器人感知至关重要。然而低纹理表面、镜面高光和器械遮挡常常会破坏几何连续性这对现有的固定拓扑方法构成了挑战。为了解决这个问题我们提出了EndoVGGT一个以几何为中心的框架配备了变形感知图注意力模块。DeGAT不是使用静态的空间邻域而是动态构建特征空间语义图以捕获连贯组织区域之间的长程相关性。这使得结构线索能够跨遮挡进行稳健传播强制执行全局一致性并改善非刚性变形恢复。在SCARED上的大量实验表明我们的方法显著提高了保真度PSNR比先前最先进技术提高了24.6%SSIM提高了9.1%。至关重要的是EndoVGGT对未见过的SCARED和EndoNeRF领域表现出强大的零样本跨数据集泛化能力证实了DeGAT学习到了领域无关的几何先验。这些结果突显了动态特征空间建模对于一致的手术3D重建的有效性。图1DeGAT邻域聚合的可视化。(a–b) 提出的DeGAT模块中邻域构建和特征响应的可视化。★ 表示中心点∘ 表示其邻居。高亮的 ★ 即使跨越器械边界也能聚合信息上下文从而实现稳健的特征精炼。(c–d) 有和没有DeGAT的深度估计比较。如红框所示加入DeGAT可产生更锐利的边界并改善器械和器官的结构连续性。内窥镜手术场景的三维重建是现代外科实践的基本组成部分包括机器人辅助手术和计算机辅助手术培训。通过提供精确的深度信息这些系统增强了导航和腹腔镜培训从而提高了下游手术任务的感知精度。大型重建模型是基于Transformer的前馈网络在多样化的多场景数据集上训练以学习场景无关的几何先验VGGT是几何基础模型的一个代表性例子。尽管在自然场景中取得了成功但LRMs扩展到手术环境根本上受到领域偏移的限制。现有的LRMs主要是在假设静态几何和稳定照明的刚性、以物体为中心的数据集上训练的。相比之下手术场景具有内在的非刚性、软组织变形和动态器械遮挡。因此直接部署通用领域模型会产生伪影包括组织拓扑中断和深度误差。与此同时最近基于NeRF或高斯泼溅的手术方法依赖于逐场景优化需要为每个新案例重复拟合限制了它们在不同程序中的大规模泛化。为了解决这些限制我们提出了内窥镜VGGT一个为内窥镜场景量身定制的可泛化重建框架该框架消除了逐场景优化并通过动态图构建实现了强大的零样本跨数据集泛化。EndoVGGT框架有效地弥合了由器械遮挡引起的几何不连续性促进了跨空间碎片化组织的相干深度聚合同时在未见的手术场景中保持鲁棒性。我们的贡献是我们提出了一个变形感知图注意力模块该模块构建特征空间邻域以在可变形边界上保持尖锐的深度不连续性将LPIPS降低了15.8%。为了缓解手术场景中严重的领域偏移我们在领域内手术数据上训练EndoVGGT并在SCARED上将PSNR从14.061提高到34.348。我们展示了EndoVGGT的零样本泛化能力。如表2所示虽然基线在未见数据上崩溃但我们的方法在极端变形下保持了稳健的保真度将SSIM提高了24.8%达到0.915。2 相关工作三维重建和密集深度估计对于手术导航、机器人辅助和技能评估至关重要。虽然早期的几何和深度学习流程奠定了基础但最近的范式已转向隐式神经表示如NeRF和显式3D高斯泼溅。在手术场景中NeRF和3DGS的改编实现了高保真几何但根本上受到密集视图要求和计算昂贵的逐场景优化的瓶颈限制严重限制了它们的实时临床可行性。为了解决这些效率瓶颈LRM提供了一种场景无关的、前馈的替代方案。在基于Transformer的稳健深度估计的支持下LRM直接从稀疏输入推断3D结构无需测试时优化。然而将通用领域LRM适应手术任务仍然具有挑战性原因是持续的软组织变形和动态器械遮挡。即使是最近的手术LRM改编如EndoLRMGS仍然严重依赖逐场景优化来对齐几何细节。相比之下我们的方法建立在VGGT架构之上以在动态手术环境中实现卓越的泛化和推理效率消除了对场景特定训练的需求。3 方法在以下部分中我们将在第3.1节详细阐述DeGAT模块在第3.2节详细阐述训练协议和全面的目标函数。图2EndoVGGT框架概览。提出的DeGAT模块增强了从DINOv2提取的特征相机令牌通过全局和帧内注意力机制进行交互。深度图使用DPT头预测相机姿态由MLP预测以重建输入场景并由第3.2节中引入的复合损失约束。问题设置和几何公式。给定一系列内窥镜图像 ℐ {I₁, …, I_N}我们的目标是通过以端到端的方式预测深度图 ̂ {D̂_t}{t1}^N 和相机参数 ̂ {̂_t, ̂_t, f̂_t}{t1}^N 来重建3D场景几何无需测试时优化。我们学习一个由 θ 参数化的映射函数 ℱ_θ: ℐ → × 。密集深度通过几何反投影作为3D表面恢复的直接代理。对于像素 (u, v)⊤其齐次坐标 ̃ (u, v, 1)⊤预测的深度 D̂_t() 在相机坐标系中诱导出一个3D点随后使用预测的相机姿态将其转换到世界参考系̂_t() D̂_t() (f̂_t)^{-1} ̃,̂_w() ̂_t ̂_t() ̂_t, (1)其中 (f̂_t) 表示由焦距 f̂_t 形成的内参矩阵。因此集合 {̂_w()} 形成了一个密集点云构成了重建的几何结构。3.1 变形图注意力模块为了促进局部几何一致性我们提出了DeGAT。与假设局部稳定结构的固定空间邻域不同DeGAT构建适应非刚性、可变形手术输入的动态邻居。动态图构建。对于每一帧 t我们将块令牌特征表示为 _t [_{t,1}, …, _{t,L}]⊤ ∈ ℝ^{L×C}其中 L H_P W_P 是令牌数量每个令牌 i 与一个归一化空间坐标 _{t,i} ∈ ℝ² 相关联。我们通过计算语义余弦相似度 s_{ij} (_{t,i}^⊤ _{t,j}) / (‖_{t,i}‖₂ ‖_{t,j}‖₂) 来构建动态图以确定 K-最近邻集合 (i) TopK_{j≠i}(s_{ij})其中经验性地取 K9。这种动态邻域确保了模型即使在组织因变形或器械遮挡而在空间上碎片化时也能连接相同的组织表面如图1所示。基于注意力的聚合。遵循GAT框架DeGAT通过注意力机制从 (i) 聚合信息。具体来说注意力对数似然为ℓ_{ij} ^⊤ LeakyReLU(_proj [_{t,i} ∥ _{t,j}]), (2)注意力系数 α_{ij} 和聚合的令牌特征 _{t,i}^{out} 为α_{ij} exp(ℓ_{ij}) / ∑{m∈(i)} exp(ℓ{im}),_{t,i}^{out} _{t,i} σ( ∑{j∈(i)} α{ij} _val _{t,j} ). (3)通过将 ̃ ∈ ℝ^{L×L} 定义为一个稀疏矩阵其中对于 j∈(i)̃_{ij} α_{ij}否则为0DeGAT可以简洁地表述为_t^{out} _t σ( ̃ _t _val^⊤ ), (4)其中 σ 表示ELU激活函数以改善学习动态。以下命题成立证明见匿名附录。命题1稳定性。对于每个令牌 iDeGAT残差更新满足 ‖_{t,i}^{out}‖₂ ≤ ‖_{t,i}‖₂ max_{j∈(i)} ‖_val _{t,j}‖₂确保训练稳定性。命题2置换等变性。DeGAT是置换等变的对于任何置换矩阵 DeGAT(, ) DeGAT(, )。我们将DeGAT在三个层级上集成到VGGT中。在令牌层面我们将DeGAT精炼的块特征池化为一个全局几何先验 _i (1/||) ∑_{j∈(i)} _j。这个先验通过可学习的偏置、FiLM或交叉注意力注入到相机令牌 中。在注意力层面我们重用DeGAT亲和力来构建一个可学习的偏置矩阵 修改自注意力为 Attn(,,) softmax(^⊤/√d ) 。最后在特征层面DeGAT作为一个残差算子来精炼令牌表示增强复杂变形下的几何感知建模。详细信息见附录。3.2 训练目标基础刚性监督。我们采用VGGT的监督范式作为我们的目标 ℒ_base它优化相机参数并强制几何保真度。令 ̂, ̂, f̂ 表示预测的平移、旋转和焦距, , f 为其真实值。相机损失计算为 ℒ_cam ‖̂ - ‖₁ ‖̂ - ‖₁ |f̂ - f|。对于深度监督遵循VGGT我们预测一个辅助的逐像素置信度图 Ĉ ∈ ℝ_{0}^{H×W}它是深度头的一个额外输出通道并通过训练目标隐式学习它。完整的深度损失集成了标准回归、置信度加权不确定性和空间梯度一致性ℒ_depth ‖D̂ - D‖₂² ( γ ‖D̂ - D‖₂² ⊙ Ĉ - α log(Ĉ) ) ∑_{k∈{x,y}} ‖∇_k D̂ - ∇_k D‖₁, (5)其中 ⊙ 表示逐元素乘法α, γ 是加权超参数∇_k 表示 x 和 y 方向的空间梯度。因此基础目标定义为 ℒ_base ℒ_cam ℒ_depth。命题3最优置信度。不确定性目标 ℒ_unc 在 (0,∞) 上是凸的在 Ĉ α / (γ ‖D̂() - D()‖₂²) 处达到其唯一最小值从而能够实现无需标签的隐式置信度学习。证明在附录中。4 实验在本节中我们展示了EndoVGGT的实验结果。第4.1节描述了数据集和指标。第4.2节评估了DeGAT模块的有效性和零样本泛化能力突出了其对非刚性场景的处理。第4.3节将我们的方法与先前的方法进行了比较。4.1 数据集、基线和评估指标数据集。我们在三个开放基准上评估我们的方法EndoSLAM提供离体和合成序列具有精确的6自由度姿态。SCARED提供来自达芬奇Xi系统的真实手术数据。我们还使用EndoNeRF的“切割”和“拉伸”子集来评估在拓扑变化和组织变形下的重建鲁棒性。指标。对于定量评估我们采用光度测量指标以比较渲染的新视角图像与真实图像之间的方法性能。基线。我们将EndoVGGT与通用领域VGGT、基于NeRF的EndoSurf以及基于LRM和GS的EndoLRMGS进行了比较。4.2 DeGAT机制的有效性和可视化表1在SCARED数据集上不同层级DeGAT策略的实验结果。“EndoVGGT-base”指没有DeGAT的EndoVGGT模型。方法PSNR ↑SSIM ↑LPIPS ↓(A) 基线EndoSurf24.3950.7690.319EndoLRMGS27.5610.8610.323EndoVGGT-base32.9270.9180.285(B) EndoVGGT 令牌级 DeGATcls token learnable bias34.0190.9360.246cls token FiLM module31.9410.8690.258cls token cross attention32.0160.8710.257(C) EndoVGGT 注意力级 DeGATLearnable Bias Table32.5060.9210.280Continuous MLP Bias32.8940.9230.247(D) EndoVGGT 特征级 DeGATPost-Transformer DeGAT31.7380.9250.240Pre-Transformer DeGAT34.3480.9390.240为了研究整合几何信息的有效性我们在SCARED数据集上进行了广泛的研究。如表1所示在Transformer块之前应用的特征级DeGAT在所有评估指标上始终产生最佳的重建性能。与基线相比这种配置使LPIPS显著降低了15.8%PSNR提高了4.3%SSIM提高了2.3%。令牌级和注意力级变体仅产生边际增益甚至性能下降表明在全局注意力之前聚合特征空间邻域有助于在组织变形和器械-组织不连续性下建立稳定的局部几何。相比之下后期图聚合会干扰更高层次的语义。在EndoNeRF上的类似趋势见附录。图4中的定性结果反映了这些发现。虽然令牌级增强锐化了器官边界但器械边缘碎片化。注意力级变体捕捉到更多的工具边界但缺乏表面保真度。相比之下图4(d)中的特征级DeGAT实现了卓越的结构连续性产生了比图4(b)和(c)更连贯的器械区域和更锐利的轮廓。这证实了在全局注意力之前进行特征空间聚合有效地保留了手术变形下的复杂拓扑结构。图1(a–b)进一步说明了对动态结构变化的鲁棒性绿色查询跨过手术器械桥接以检索相关邻居表明DeGAT利用学习到的上下文而不是欧几里得邻近性来处理工具引起的拓扑断裂。如图1(c–d)所示我们的方法在高亮区域产生了更平滑的非刚性表面和更锐利的边界而移除DeGAT则导致细节模糊和伪影。图3在EndoNeRF和SCARED数据集上的实验结果。“平均”表示在所有评估子集上的平均性能。图4不同层级DeGAT的可视化。红框突出显示了复杂的器械-组织边界。特征级DeGAT保留了更锐利的连续性。4.3 EndoVGGT的定量比较与零样本VGGT基线相比在手术数据上进行微调在图4中的所有指标上均带来了实质性的改进。此外条形图显示集成DeGAT始终优于没有它的变体。具体来说在SCARED数据集上EndoVGGT将PSNR提高了144%达到34.348SSIM提高了3.7倍达到0.939。在EndoNeRF上LPIPS在“切割”子集上下降了75%。这表明虽然在刚性物体上训练的通用领域模型在复杂的手术环境中表现不佳但EndoVGGT在可变形场景中有效地恢复了高保真几何和光度细节。表2跨数据集评估。模型在未见过的SCARED和EndoNeRF数据集上进行零样本评估。最佳结果以粗体突出显示。数据集EndoSurfEndoVGGT (Ours)PSNR ↑SSIM ↑LPIPS ↓PSNR ↑SSIM ↑LPIPS ↓SCARED-d1k110.6720.6310.42527.9450.8280.396SCARED-d2k110.8460.7250.32231.7410.8760.229SCARED-d3k110.3070.5350.49820.8990.8540.345EndoNeRF-pulling16.0350.7700.34622.0130.9070.154EndoNeRF-cutting15.5130.7330.38723.5840.9150.2424.4 EndoVGGT的零样本跨数据集泛化能力与依赖逐场景优化的传统NeRF和高斯泼溅方法不同EndoVGGT展示了卓越的零样本泛化能力。我们在EndoSLAM数据集上训练模型并在未见过的SCARED和EndoNeRF数据集上进行评估无需测试时微调。如表2所示我们的方法优于EndoSurf基线在SCARED子集上实现了接近30的PSNR。值得注意的是即使在EndoNeRF拉伸和切割场景中的极端软组织变形下EndoVGGT也实现了0.907和0.915的高SSIM。这些结果表明我们的DeGAT模块捕捉到了内在的、领域无关的几何先验而不是过度拟合到特定场景的纹理。5 结论我们提出了EndoVGGT一个用于微创手术中3D重建的可泛化框架该框架模拟了组织变形和动态遮挡。我们通过LRM弥合了刚性场景假设与非刚性手术环境之间的差距。我们的关键模块DeGAT在特征空间中动态构建语义图以恢复由器械引起的拓扑断裂并强制执行深度一致性。在SCARED上的实验证明了其鲁棒性未来的扩展方向包括时间一致性和机器人导航。6 附录7 DeGAT的理论性质本附录形式化了DeGAT的几个性质这些性质支持其作为变形和遮挡下几何一致性特征精炼算子的使用。7.1 行随机聚合和凸性引理1 (DeGAT注意力的行随机性)对于每个节点 i在公式(3)中定义的注意力系数 {α_{ij}}{j∈(i)} 满足(i) 对所有 j∈(i)α{ij} ≥ 0(ii) ∑{j∈(i)} α{ij} 1。等价地公式(4)中诱导的稀疏矩阵 ̃ 在邻居支持上是行随机的。推论1 (聚合消息的凸包性质)令 _j _val _{t,j} 并定义激活前消息 _i ∑{j∈(i)} α{ij} _j。则 _i 位于 {_j}_{j∈(i)} 的凸包内。推论2 (坐标范围的min–max性质)对于任何坐标索引 c消息的第 c 个分量满足 min_{j∈(i)} (_j)_c ≤ (_i)c ≤ max{j∈(i)} (_j)_c。7.2 稳定性界限命题1 (一跳DeGAT聚合的范数界限)令 _{t,i}^{agg} ELU(_i) 为公式(3)中使用的激活后聚合消息。则对于每个节点 i‖_{t,i}^{agg}‖₂ ≤ ‖_i‖₂ ≤ max_{j∈(i)} ‖_val _{t,j}‖₂。 (6)因此残差更新满足 ‖_{t,i}^{out}‖₂ ≤ ‖_{t,i}‖₂ max_{j∈(i)} ‖_val _{t,j}‖₂。 (7)7.3 置换等变性命题2 (一跳DeGAT的置换等变性)设 π 是令牌索引的置换 是对应的置换矩阵。如果令牌特征和坐标被一致地置换 且 _{π(i)} _i则DeGAT输出以相同方式置换DeGAT(, ) DeGAT(, )假设Top-K操作符中采用确定性平局解决。8 DeGAT的实现细节对于每一帧 tDeGAT通过计算跨令牌特征的归一化点积余弦相似度来构建一个有向K-NN图应用TopK操作同时排除自匹配。为了保持线性消息传递复杂度注意力系数 α_{ij} 仅对 j∈(i) 进行计算并概念性地存储为稀疏矩阵 ̃。在注意力级变体中我们在应用对数变换之前将 α_{ij} 钳位到一个最小正值。操作上一个单跳DeGAT层执行以下序列(1) 令牌特征归一化(2) 余弦相似度计算和Top-K邻居检索(3) 计算注意力对数似然 ℓ_{ij} 和权重 α_{ij}(4) 跨动态邻域进行特征聚合(5) 残差相加以产生更新的特征 _t^{out}。9 DeGAT集成变体本节阐述了第3.1节中介绍的三个DeGAT集成层级。对于令牌级条件化我们将DeGAT精炼的特征总结为一个池化的几何先验 _t (1/L) ∑{i1}^L {t,i}^{out}然后通过一个轻量级、固定架构的MLP进行映射以加性方式调制相机令牌。对于注意力级偏置注入我们从DeGAT亲和力构建一个稀疏偏置矩阵 其中 B_{ij} MLP(α_{ij})对于 j∈(i)否则为0。该矩阵直接被添加到Transformer注意力对数似然中并在所有注意力头上广播确保无参数集成。最后对于特征级精炼DeGAT在Transformer块之前立即作为块令牌上的残差图算子运行从而在用全局多视图推理之前用几何感知上下文丰富表示。10 不确定性加权回归的推导本附录为公式(5)中的置信度项 ℒ_unc 提供了一个自包含的证明。特别地置信度图 Ĉ 是隐式学习的不需要真实值监督。命题3 (固定残差下闭式最优置信度)对于单个像素设 r² ‖D̂() - D()‖₂² 为平方深度残差并假设 r² 0。考虑置信度目标 (Ĉ) γ r² Ĉ - α log(Ĉ)其中 Ĉ 0。则 在 Ĉ 上是严格凸的并在 Ĉ* α/(γ r²) 处达到其唯一最小值。推论3 (消去置信度后的等效边际惩罚)对于 r² 0将 Ĉ* α/(γ r²) 代入 得到 min_{Ĉ0} (Ĉ) α - α log(α/(γ r²)) α log(γ r²) const其中“const”独立于模型输出。11 实验细节11.1 特征级DeGAT实现细节输入来自VGGT聚合器的特征张量 ∈ ℝ^{B×N×C}邻居数量 K例如K10可训练参数投影矩阵 _proj ∈ ℝ^{2C×C}注意力向量 ∈ ℝ^{C}值变换矩阵 _val ∈ ℝ^{C×C}。输出精炼后的特征张量 _out ∈ ℝ^{B×N×C}。过程对于每个批次索引 b精炼过程定义如下。可训练参数集为 Θ {_proj, , _val}。初始化_out ← 。图构建计算成对欧几里得距离矩阵 _{ij}^{(b)} ‖_i - _j‖₂^{(b)} ∈ ℝ^{N×N}。为每个块确定K个最近邻(i) topK(-_{i,:}^{(b)})。图拓扑在每次前向传播中保持固定但随着特征表示的变化在训练迭代中动态演变。基于注意力的特征聚合对于每个块 i ∈ {1,…,N}(a)特征混合对于每个邻居 j∈(i)连接中心和邻居特征_{ij} [_i ∥ _j] ∈ ℝ^{2C}。(b)注意力计算_{ij} LeakyReLU(_proj _{ij})s_{ij} ^⊤ _{ij}α_{ij} exp(s_{ij}) / ∑{m∈(i)} exp(s{im})。(c)加权聚合_j _val _j_{agg,i} ELU(∑{j∈(i)} α{ij} _j)。残差更新_out[b, i] [b, i] _{agg,i}。反向传播给定来自任务损失 ℒ 的梯度 ∇{{agg,i}} ∂ℒ/∂_{agg,i}通过链式法则计算可学习参数的梯度。11.2 注意力级DeGAT实现细节MLP偏置参考Raffel等人“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”。输入语义特征 ∈ ℝ^{B×N×C}注意力组件查询 和键 ∈ ℝ^{B×H×N×d_head}超参数量化桶数 K8可训练参数偏置嵌入表 ∈ ℝ^{K×H}。输出空间调制的注意力对数似然。过程对于每个批次索引 b语义注意力偏置计算如下。可学习参数集是嵌入表 ∈ ℝ^{K×H}。语义距离计算构建一个全连接语义图其中每个节点对应一个块令牌边权重表示语义不相似性。计算成对欧几里得距离矩阵 ∈ ℝ^{B×N×N}d_{i,j} ‖_i - _j‖₂。对数变换应用对数变换以减少异常值的影响同时增加对高度相似块的敏感性d̃_{i,j} log(d_{i,j} 1)。线性映射和量化相对于当前视图内的最大语义距离对变换后的距离进行归一化以确保尺度不变性ratio_{i,j} d̃_{i,j} / (max(d̃) ϵ)。然后将归一化距离离散化为K个整数桶Idx_{i,j} Clamp(⌊ratio_{i,j}·K⌋, 0, K-1)得到 Idx ∈ {0,…,K-1}^{B×N×N}。偏置查找对于每个注意力头 h从嵌入表中检索一个可学习的标量偏置b_{i,j}^{(h)} [Idx_{i,j}]_h。注入注意力机制将语义偏置直接添加到VGGT帧注意力块的注意力对数似然中Attention_{i,j}^{(h)} Softmax( (_i·_j^⊤)/√d_head b_{i,j}^{(h)} )。反向传播令 δ_{i,j}^{(h)} ∂ℒ/∂b_{i,j}^{(h)}。通过聚合同一桶内所有块对的梯度来更新可学习的嵌入表 。11.3 注意力级DeGAT实现细节偏置表参考Liu等人“Swin Transformer V2: Scaling Up Capacity and Resolution”改编自语义特征空间。输入特征图 ∈ ℝ^{B×N×C}注意力组件查询 和键 ∈ ℝ^{B×H×N×d_head}超参数最大距离先验 τMLP隐藏维度 M512可训练参数偏置MLP Ψ: ℝ → ℝ^H实现为两层网络。输出内容自适应的注意力偏置矩阵。过程对于每个批次索引 b连续语义偏置计算如下。语义欧几里得距离计算所有块令牌之间的成对欧几里得距离矩阵 ∈ ℝ^{B×N×N}d_{i,j} ‖_i - _j‖₂。对数空间归一化首先应用对数变换d̂_{i,j} log(d_{i,j} 1)。然后使用当前视图内的最大距离进行归一化Δ_{i,j} d̂_{i,j} / log(d_max 1)。最后将归一化值缩放并平移到 [-1, 1] 范围内x_{i,j} 2·Clamp(Δ_{i,j}, 0, 1) - 1。这产生归一化张量 ∈ [-1,1]^{B×N×N×1}。连续偏置生成使用轻量级MLP Ψ 将连续距离坐标映射到特定头的注意力偏置_{i,j} Ψ(x_{i,j}) ₂(ReLU(₁ x_{i,j} ₁)) ₂。MLP能够逼近任意的连续函数从而允许基于语义不相似性的非线性惩罚或奖励。注入注意力机制将生成的连续偏置直接添加到自注意力操作的注意力对数似然中Attention_{i,j}^{(h)} Softmax( (_i·_j^⊤)/√d_head _{i,j}^{(h)} )。反向传播令 δ_{i,j}^{(h)} ∂ℒ/∂_{i,j}^{(h)}。通过标准反向传播更新MLP参数。11.4 加性图像条件相机令牌初始化我们评估了一种更简单的图像条件相机令牌初始化策略我们在实验中将其作为一个变体使用。这种设计通过从全局图像特征预测的加性偏置来条件化相机令牌。全局图像特征提取。给定从每个输入帧提取的块令牌我们通过对所有块令牌进行均值池化来计算一个全局图像表示。该池化特征捕捉帧级语义信息并作为条件化信号。通过MLP进行加性条件化。全局图像特征通过一个由两个线性层组成的轻量级多层感知机并使用GELU激活。MLP输出一个与相机令牌维度相同的特征向量表示一个图像条件的偏移量Δ f_MLP(_global)。然后将该偏移量添加到基础相机令牌上_cam _base Δ。这种加性公式根据图像内容在嵌入空间中移动相机令牌而不引入特征级缩放。11.5 基于FiLM的相机令牌调制实现细节我们采用特征线性调制机制根据图像内容条件化相机令牌。这种设计允许相机令牌动态适应输入帧同时保持训练稳定性。全局条件化信号。通过均值池化计算全局图像表示作为FiLM调制的条件输入。FiLM参数预测。全局图像特征通过一个调制网络输出两倍于嵌入维度的向量拆分为特征级缩放参数 γ 和移位参数 β。相机令牌调制。将FiLM调制应用于相机令牌_cam _base ⊙ (1 γ) β。这种公式允许根据输入帧进行幅度缩放和特征移位。初始化与训练稳定性。为了确保稳定的优化调制网络的最后一层线性层初始化为零权重和偏置。因此FiLM参数初始为 γ 和 β使得调制后的相机令牌在训练开始时与基础令牌相同。这种初始化保留了原始的令牌分布防止了训练早期的不稳定性。11.6 基于交叉注意力的相机令牌条件化在这种设计中相机令牌被视为一个可学习的查询它关注从输入图像中提取的所有块令牌。全局图像上下文通过Transformer风格的交叉注意力机制被整合。查询、键和值的构建。对于每个输入帧一个可学习的基础相机令牌被展开以匹配批次和时间维度并用作查询。对应于同一帧的所有块令牌被用作键和值。交叉注意力更新。应用一个标准的多头交叉注意力层随后进行残差连接_cam _cam Attn(, , )。该操作允许相机令牌选择性地从空间和语义相关的块中聚合信息。前馈精炼。注意力更新后的相机令牌进一步通过一个带有残差连接的前馈网络处理_cam^{out} _cam FFN(_cam)。初始化与稳定性。为确保稳定训练交叉注意力层的输出投影和FFN的最后一层线性层被初始化为零。因此交叉注意力模块在训练开始时表现为恒等映射保留原始相机令牌并允许模型逐渐学习基于注意力的条件化。11.7 实验数据集我们在三个公开可用的内窥镜重建数据集上评估我们的方法。EndoSLAM提供离体和合成内窥镜序列具有精确的6自由度相机姿态和猪胃肠道器官的密集真实点云地图。SCARED是一个使用达芬奇Xi手术系统捕获的立体内窥镜数据集提供真实深度能够在真实手术环境中严格评估深度估计。EndoNeRF通过基于物理的模拟引入了逼真的合成内窥镜视频。我们使用两个子集“切割”描述了具有拓扑变化的组织切除“拉伸”捕捉了由牵引器械引起的弹性变形。该数据集提供了完美对齐的深度、姿态和分割标签作为在受控解剖条件下重建的有价值基准。11.8 PSNR、SSIM 和 LPIPS 的公式为了定量评估重建质量我们采用了三个标准指标峰值信噪比、结构相似性指数和学习的感知图像块相似度。本小节提供了评估指标的定义熟悉的读者可以跳过。11.8.1 PSNRPSNR测量真实图像 I 和重建图像 Î 之间的像素级保真度。它基于均方误差定义。PSNR值越高表示信号保真度方面的重建质量越好。11.8.2 SSIM与PSNR不同SSIM通过考虑结构信息、亮度和对比度的变化来评估感知质量。对于两个图像块 x 和 ySSIM定义为SSIM(x,y) ( (2μ_x μ_y C₁)(2σ_{xy} C₂) ) / ( (μ_x² μ_y² C₁)(σ_x² σ_y² C₂) )。最终的SSIM分数通常计算为图像上所有滑动窗口的平均SSIM。11.8.3 LPIPSLPIPS使用从预训练网络中提取的深度特征来测量两个图像之间的感知距离。LPIPS分数越低表示与真实值的感知相似度越好。12 附加实验表3在EndoNeRF和SCARED数据集上使用PSNR、SSIM和LPIPS指标进行的实验结果。对于PSNR和SSIM越高越好。对于LPIPS越低越好。最佳结果以绿色突出显示次佳结果以下划线标出。数据集方法PSNR ↑SSIM ↑LPIPS ↓EndoNeRF-pullingVGGT23.3490.6590.396EndoSurf34.0930.9380.163EndoVGGT w/o DeGAT34.5160.9180.108EndoVGGT w/ DeGAT34.6420.9180.100EndoNeRF-cuttingVGGT21.5400.8720.291EndoSurf30.6060.9090.168EndoVGGT w/o DeGAT31.8590.8700.159EndoVGGT w/ DeGAT32.2270.8880.156SCARED-d1k1VGGT14.0610.2510.379EndoSurf23.4010.6690.505EndoVGGT w/o DeGAT33.3090.9290.249EndoVGGT w/ DeGAT34.3480.9390.240SCARED-d2k1VGGT19.3860.2830.366EndoSurf24.8940.8560.254EndoVGGT w/o DeGAT36.4110.8560.247EndoVGGT w/ DeGAT36.6340.8710.221SCARED-d3k1VGGT14.4310.2950.388EndoSurf21.3570.6410.470EndoVGGT w/o DeGAT25.3000.9300.190EndoVGGT w/ DeGAT26.9060.9300.167平均VGGT18.5530.4720.364EndoSurf26.8700.8030.312EndoVGGT w/o DeGAT32.2790.9010.190EndoVGGT w/ DeGAT32.9510.9090.17712.1 邻居数量 K 的消融研究图5在SCARED数据集上对邻居数量K的消融研究。为了研究图连接密度对特征聚合的影响我们在SCARED数据集上进行了一项消融研究将邻居数量K从2变化到18。如图5所示模型性能呈现出清晰的凸趋势在 K9 处达到峰值。具体来说K9 的设置在所有指标上取得了最佳结果PSNR为34.35SSIM为0.939LPIPS为0.240。我们观察到当K较小时稀疏的连接限制了感受野阻碍了形成有效桥接表征所需的稳健局部循环的形成。相反将K增加到9以上会导致明显的性能下降在K18时PSNR降至33.38。这表明过多的连接引入了不相关的长程噪声并导致特征过平滑。因此我们采用 K9 作为动态图注意力的最优超参数。表4在EndoNeRF-cutting数据集上的消融研究。我们报告了不同变形建模策略和GAT增强变体的PSNR、SSIM和LPIPS。方法PSNR ↑SSIM ↑LPIPS ↓(A) 基线EndoVGGT(Ours)31.85940.87000.1588(B) EndoVGGT 令牌级 cls 增强cls token bias31.96410.87480.1570cls token FiLM modulation31.94050.86930.1576cls token cross attention32.01570.87110.1565(C) EndoVGGT 注意力级 DeGATLearnable Bias Table31.95920.87210.1571Continuous MLP Bias31.97000.87420.1574(D) EndoVGGT 特征级 DeGATPost-Transformer GAT31.57100.86860.1689Pre-Transformer GAT32.22690.86930.1558