1. 项目概述PhysChoreo是一个基于物理可控的视频生成框架旨在解决当前视频生成技术在物理真实性和可控性方面的关键挑战。该框架通过创新的两阶段流程实现了从单张图像生成具有高度物理真实性和丰富动态行为的视频内容。1.1 核心问题与挑战当前主流视频生成模型存在三个主要局限物理合理性不足现有模型主要依赖大规模数据学习来捕捉物理现象而非理解控制物体对力和材料约束响应的基本原理。这导致生成的视频在复杂或反事实场景中经常无法准确呈现真实世界行为。可控性有限传统方法依赖手动初始化物理参数只能生成初始条件下的动态效果缺乏对后续过程的控制能力导致生成内容持续时间短且多样性受限。建模粒度粗糙现有物理优化方法通常对单个物体施加粗略预测无法满足真实世界模拟的建模要求同时使用的模拟器在控制灵活性上不如视频模型导致模拟模式受限。1.2 技术突破与创新PhysChoreo通过以下创新解决了上述问题部分感知的物理属性重建将文本语义与详细的3D部件结构对齐为对象每个部件估计材料模型和校准的连续物理量。物理可编辑控制将基于物理的模拟与直接注入生成过程的物理可编辑控制相结合允许模型随时间调节外力和材料属性使物体在整个序列中以物理合理的方式响应。层次化跨注意力机制通过软分配和层次化跨注意力实现部分感知的物理预测支持点流与多级文本流的交互。2. 技术实现细节2.1 整体架构设计PhysChoreo框架包含三个核心组件部分感知物理重建模块从输入图像重建场景并分配合理的物理属性物理可编辑模拟器基于预测的物理场驱动可控模拟视频生成模型将模拟轨迹作为条件生成最终视频整个流程如图2所示首先从输入图像和文本提示重建初始材料场然后基于物理可编辑模拟器生成场景轨迹视频最后用轨迹视频作为条件控制引导生成模型的视频生成。2.2 部分感知物理重建给定输入图像I系统执行以下步骤实例分割与重建使用Grounded-SAM分割图像中的实例并用InstantMesh为每个实例生成密集三角网格点云采样通过均匀采样获得每个网格的表面点云表示Pi∈R^(N×3)物理属性预测提取全局点特征FP和部分级语义特征FS通过软分配将部分级语义注入点特征使用层次化跨注意力组合多粒度文本嵌入与点特征通过Transformer编码器获得点嵌入Z∈R^(N×dz)解码得到每点的材料模型类别概率ˆY和连续材料参数ˆM关键公式包括软分配A softmax_row((HΦ)(TΨ)^⊤) ∈ R^(N×K)层次化跨注意力Hg MHA(ˆH,T0) ˆH材料场表示M_pred(xi) (arg max_c ˆYi,c, ˆMi,:)2.3 物理可编辑视频生成场景初始化使用Dust3r估计场景中所有对象的位置和尺度通过表面到内部传播算法生成填充物体内部的粒子通过k近邻搜索将表面粒子属性继承给内部粒子物理可编辑动态模拟维护场景中每个对象的物理属性支持单独控制本构参数(如杨氏模量、密度)、外力场(如重力、风力)和对象动量(如速度)对非稳态下的转换应用连续性约束并限制极端值视频生成将点云运动轨迹输入预训练的视频模型[41]生成具有物理真实性的最终视频3. 关键技术突破3.1 部分感知物理监督系统采用四种监督策略确保学习到的材料场任务监督(L_task)锚定语义身份并校准每点的物理量级波连续性(L_smooth)确保从材料参数导出的纵波和横波速度场的空间平滑性对比正则化(L_con)保持部件界面附近的可分离性提示-部件分配(L_assign)将语言接口与几何耦合关键公式波速度计算 cp(x) √[Ex(1-νx)/ρx(1νx)(1-2νx)] cs(x) √[Ex/2ρx(1νx)]对比损失 L_con max(0, ∥ei-ep∥² - ∥ei-en∥² m)3.2 层次化特征交互软分配在共享潜在空间中对齐点和提示使用所得权重通过残差更新将提示值混合回点流层次化跨注意力第一阶段使用单个全局令牌对所有点施加场景级一致性第二阶段关注部分令牌在不覆盖粗略全局指导的情况下锐化局部性和解开部分特定效果这种设计减少了令牌间的竞争经验上提高了收敛性和可编辑性。3.3 物理可编辑控制与传统方法相比PhysChoreo的物理可编辑控制实现了三大创新时间连续性支持在整个模拟过程中动态调整物理参数而非仅初始设置多参数协同可同时控制材料属性、外力场和对象动量物理合理性保障通过连续性约束和极值限制确保编辑后的模拟仍保持物理合理性典型应用场景包括通过消除内部粒子密度实现空心或放气效果通过控制不同对象上的力场实现反直觉运动或子弹时间通过改变材料模型实现形态转换4. 实验验证4.1 数据集构建团队构建了包含9,580个样本的文本-部件-物理数据集特点包括覆盖24个语义类别来自PartNet的 segmentation信息每个样本包含整体描述每部分的真实材料、杨氏模量、密度和泊松比映射的模拟器材料标签专门包含5%的反事实标签(如果冻状刀片、金属花)以增强模型学习文本与物理关联的能力4.2 物理属性预测评估在100个测试样本上比较了PhysChoreo与三种基线方法方法材料准确率↑logE误差↓ν误差↓logρ误差↓NeRF2Physics0.6282.0330.0640.521PUGS0.2832.7780.0760.627Pixie0.3494.1290.1030.848Ours0.7890.6610.0610.249PhysChoreo在所有指标上均表现最佳特别是能够通过文本控制特定部件的物理属性(如图4所示)。4.3 视频生成质量评估使用三种指标评估生成的10个视频物理常识(PC)物体运动是否遵循物理合理的变形和动力学语义对齐(SA)视频内容与文本内容匹配程度视觉质量(VQ)视频的细节视觉质量与四种基线方法对比结果方法SA(↑)PC(↑)VQ(↑)平均(↑)PhysGen3D2.302.103.502.63Wan2.2-5B1.751.704.202.55CogVideoX-32.402.554.153.04Veo 3.14.104.204.904.40Ours4.704.554.754.67用户研究结果(642个有效选择)方法选择比例(%)PhysGen3D10.42Wan2.2-5B5.21CogVideoX-37.14Veo 3.118.75Ours58.48PhysChoreo在物理常识和语义对齐上显著领先虽然视觉质量略低于Veo 3.1但综合表现最佳。5. 应用前景与局限5.1 应用场景影视特效快速生成具有物理真实性的特效镜头游戏开发自动创建符合物理规律的游戏动画机器人仿真为机器人训练提供逼真的物理环境产品设计可视化产品在不同物理条件下的行为教育培训创建物理教学演示内容5.2 当前局限场景规模目前专注于独立对象对大场景支持不足内部状态预测尽管采用点采样方法内部物理状态仍无法精确预测计算成本物理重建和姿态估计阶段约需120秒模拟需约30秒5.3 未来方向扩展至大规模场景支持改进内部物理状态预测精度优化计算效率实现实时或近实时生成探索更多物理现象的统一建模与仿真