一、AI视频生成的“全能选手”来了在众多视频生成模型中大多数方法只能处理单一或有限的控制条件——要么只能“看图说话”要么只能“对嘴型”要么只能“照着姿势摆”。当我们真正想要同时控制人物的外貌、声音、动作和场景描述时现有方法往往显得力不从心。这个痛点在人机交互视频生成Human-Object Interaction Video Generation简称HOIVG领域尤为突出。想象一下你是一位电商卖家希望生成一段主播手持产品的展示视频——你需要指定主播的长相参考图像、说话的内容音频、手部的动作姿态序列以及场景描述文本。在过去这意味着你可能需要分别训练多个模型再手动拼接结果效果往往差强人意。而现在字节跳动联合香港中文大学、莫纳什大学和香港大学提出的OmniShow正是为解决这一问题而生。作为第一个集文本、参考图像、音频和姿态条件于一体的HOIVG模型OmniShow以其12.3B参数量的规模和卓越的多模态控制能力被ICML 2026接收标志着这一领域迎来了重要的技术突破。核心亮点OmniShow是首个“全能型”HOIVG模型单一框架内支持R2V、RA2V、RP2V和RAP2V四种任务实现了文本参考图像、文本参考图像音频、文本参考图像姿态、以及文本参考图像音频姿态的全谱生成能力。二、什么是HOIVG为什么它如此重要HOIVGHuman-Object Interaction Video Generation即人机交互视频生成是一个旨在根据多种模态条件生成高质量人物与物体交互视频的任务。与普通的人物动画生成不同HOIVG的核心难点在于“交互”二字——不仅要生成自然的人物动作还要确保人物与物体之间的交互行为合理、自然、物理可信。例如一个主播手持口红的视频不仅需要主播的脸部表情与音频同步还需要手指精确地握住口红而不是“穿模”而过。HOIVG任务涉及四种核心模态条件文本Text描述场景和动作语义参考图像Reference Image提供人物外貌和物体外观音频Audio驱动语音同步和嘴型动画姿态序列Pose Sequence控制身体和手部动作。这四种条件的组合产生了四种不同的任务设置R2V参考图像文本生成视频、RA2V参考图像音频文本生成视频、RP2V参考图像姿态文本生成视频以及RAP2V参考图像音频姿态文本生成视频。其中RAP2V是最具挑战性的全条件任务也是实际应用中最有价值的场景。这一任务的实用价值不言而喻。在电商领域它可以自动生成产品展示视频大幅降低内容创作成本在短视频制作中它能快速生成各类互动场景在互动娱乐和虚拟人物领域它可以实现音频驱动的虚拟形象、物体替换和视频混音等创新应用。可以说HOIVG是连接AI视频生成与实际产业应用的关键桥梁。三、现有方法的困境各自为战难以统一在OmniShow之前HOIVG领域的研究呈现出明显的“各自为战”局面。以HunyuanCustom、HuMo、VACE、Phantom和AnchorCrafter为代表的现有方法各自只能支持有限的模态条件组合。例如HunyuanCustom和Phantom主要聚焦于R2V任务即只能根据参考图像和文本生成视频无法处理音频和姿态条件AnchorCrafter虽然支持姿态控制但在视频质量和参考一致性上表现较差HuMo在RA2V任务上有所尝试但缺乏姿态控制能力。没有任何一个现有方法能够同时支持四种模态条件的全部组合。这种局限性的根源在于三个核心矛盾。首先是可控性与质量的权衡问题多模态条件的注入往往会干扰基底视频生成模型的分布导致生成质量下降。其次是音视频同步的精确性问题现有方法通常使用全局注意力注入音频特征这会导致音频与视频帧之间的时间对齐不够精确出现“嘴型不匹配”的问题。最后是数据稀缺问题同时包含四种模态条件的高质量训练数据极为稀缺这使得端到端训练一个统一模型变得非常困难。换句话说现有方法面临的是一个“三难”困境如何在不牺牲视频质量的前提下注入多模态条件如何实现精确的音视频同步如何在异构数据集上有效训练统一模型OmniShow的出现正是为了精准地解决这三个问题。四、OmniShow三大核心创新OmniShow的技术突破并非简单的“拼接”而是通过三个精心设计的核心模块从本质上解决了多模态条件融合的核心挑战。这三大创新分别是统一通道条件化Unified Channel-wise Conditioning、门控局部上下文注意力Gated Local-Context Attention和先解耦后联合训练Decoupled-Then-Joint Training。① 统一通道条件化让图像和姿态“无缝融入”生成过程在视频生成中如何有效地将参考图像和姿态信息注入模型是一个关键问题。传统方法通常使用交叉注意力来融合这些条件但这种方式容易导致语义细节的丢失尤其是在多模态条件同时存在时不同条件之间的干扰会显著降低生成质量。OmniShow提出的统一通道条件化Unified Channel-wise Conditioning采用了一种更为精妙的策略。其核心思想是将参考图像和姿态线索通过通道拼接Channel-wise Concatenation的方式直接注入到视频潜空间中。具体来说它利用伪帧Pseudo Frame来增强噪声视频标记并通过参考重建损失Reference Reconstruction Loss进行监督。这意味着模型不仅要学会根据条件生成视频还要能够从生成的视频中重建出参考图像和姿态信息这种“双向约束”有效地保留了语义细节。与交叉注意力相比通道拼接的方式更加紧凑且高效不会引入额外的注意力计算开销同时避免了不同条件之间的相互干扰。从实验结果来看这种设计在参考一致性上带来了显著提升。在R2V任务中OmniShow的人脸相似度FaceSim达到0.874与Phantom-14B的0.876基本持平而NexusScore则以0.389显著领先于所有对手。这表明统一通道条件化不仅保留了人物的外貌特征还更好地维持了人物与物体之间的交互关系。② 门控局部上下文注意力精准实现音视频同步音视频同步是HOIVG中最具挑战性的技术难题之一。在视频中每一帧都必须与对应的音频片段精确对齐——嘴型必须与发音同步表情必须与语调匹配。传统方法通常使用全局注意力注入音频特征但这种方式存在一个致命缺陷全局注意力会让每一帧都“看到”整段音频而不是只关注与当前帧对应的音频片段这就导致了“嘴型漂移”的问题。OmniShow提出的门控局部上下文注意力Gated Local-Context Attention从两个层面解决了这个问题。首先它将音频特征与足够的上下文信息相结合然后通过掩码注意力Masked Attention的方式注入这些特征确保每个视频帧只与其对应的音频片段进行交互而不会被其他时间步的音频信息干扰。这种“局部”的设计思想是关键的——就像人在说话时嘴型只与当前发出的音素相关而不会受到上一句或下一句的影响。其次为了稳定早期训练过程OmniShow引入了自适应门控机制Adaptive Gating。在训练初期音频条件的注入可能会扰乱视频生成的稳定性门控机制通过动态调整音频条件的注入强度在训练初期降低其影响随着训练的推进逐渐增强。这种“渐进式”的策略有效地避免了早期训练中的不稳定性问题。实验结果也验证了这一点在RA2V任务中OmniShow的音视频同步度Sync-C达到8.612同步距离Sync-D降至7.608均显著优于HuMo-17B的8.013和8.316。③ 先解耦后联合训练巧妙利用异构数据集数据稀缺是制约HOIVG发展的重要因素。同时包含文本、参考图像、音频和姿态的高质量视频数据极为稀缺但单独包含部分条件的数据却相对充足。例如参考图像文本的视频数据和参考图像音频的视频数据分别存在但同时包含所有四种条件的数据却很少。如何充分利用这些异构数据集是OmniShow需要解决的第三个核心问题。OmniShow提出的“先解耦后联合”Decoupled-Then-Joint训练策略巧妙地解决了这个问题。整个训练过程分为三个阶段第一阶段在独立的子任务数据集上分别训练专门的R2V模型和A2V模型让每个子模型在各自的领域内达到最优性能第二阶段通过权重插值Weight Interpolation将这两个子模型融合为一个统一的初始化模型第三阶段在多模态数据上进行联合微调使模型学会同时处理多种条件的能力。这种策略的妙处在于它避免了从零开始直接训练统一模型时常见的条件冲突问题。通过先让模型在各个子任务上充分学习再通过权重插值进行“软融合”最后通过联合微调实现“硬对齐”这种渐进式的训练策略极大地提高了数据利用效率和模型性能。实验表明这种训练策略使得OmniShow在所有任务设置上都能保持较高的性能水平而不会因为多任务融合而显著下降。五、HOIVG-Bench首个专用评测基准一个模型的价值不仅在于它能做什么还在于如何被客观地评价。然而在OmniShow之前HOIVG领域缺乏一个专门且全面的评测基准。现有的视频生成评测主要关注文本到视频的生成质量而对参考一致性、音视频同步和姿态准确性等多模态特定指标缺乏系统性的评估。这使得不同方法之间的公平比较变得困难。为了填补这一空白OmniShow团队提出了HOIVG-Bench——一个专门为HOIVG任务设计的全面评测基准。HOIVG-Bench包含135个精心构建的样本覆盖了R2V、RA2V、RP2V和RAP2V四种任务设置。它从五个维度全面评估模型性能文本对齐性Text Alignment、参考一致性Reference Consistency包括人脸相似度FaceSim和NexusScore、音视频同步性Audio-Visual Sync包括Sync-C和Sync-D、姿态准确性Pose Accuracy包括AKD和PCK以及视频质量Video Quality包括AES、IQA、VQ和MQ。值得一提的是HOIVG-Bench的设计充分考虑了公平性和可比性。所有定量指标和定性分析都基于5秒、720p分辨率的竖版视频片段进行标准化确保与基线方法的公平比较。这一基准的提出为整个HOIVG领域的研究提供了统一的评价标准有望推动该领域的快速发展。六、实验结果全面领先的性能表现OmniShow在HOIVG-Bench上的实验结果令人印象深刻。与包括HunyuanCustom13B、HuMo17B/1.7B、VACE14B、Phantom14B/1.3B和AnchorCrafter1.5B在内的多个当前最先进方法相比OmniShow在多个维度上展现出了卓越的性能。R2V任务关键指标对比在R2V任务中OmniShow的NexusScore达到0.389显著领先于所有对手表明其在人物与物体交互关系的维护上表现最优。同时其人脸相似度FaceSim为0.874与Phantom-14B的0.876基本持平而视频质量指标AES和MQ均为最优。在RA2V任务中OmniShow更是展现出了压倒性优势音视频同步度Sync-C达到8.612同步距离Sync-D降至7.608均显著优于HuMo-17B。在RP2V任务中OmniShow的姿态准确性指标AKD降至0.087PCK达到0.329远超AnchorCrafter和VACE。特别值得注意的是OmniShow是唯一能够支持RAP2V全条件任务的模型。在这个最具挑战性的设置下OmniShow仍然能够同时保持较高的参考一致性、音视频同步性和姿态准确性这充分证明了其多模态融合架构的有效性。此外人类评估结果也显示OmniShow在多个维度上获得了更高的主观偏好度进一步验证了其实际应用价值。七、更广阔的应用前景OmniShow的多模态统一能力为其带来了远超学术评测的应用潜力。论文中展示了三个具有代表性的应用场景充分体现了这种多功能性。音频驱动虚拟形象在这个场景中用户可以提供一张人物参考图像和一段音频OmniShow就能生成一个嘴型与声音完美同步的虚拟人物视频。这对于虚拟主播、数字人、游戏角色等领域都有巨大的应用价值。与现有的专用虚拟人物模型相比OmniShow的优势在于它同时支持姿态控制可以精确地控制虚拟人物的动作和手部行为。物体替换在电商场景中同一个主播可能需要展示不同的产品。OmniShow支持在保持人物外貌和动作不变的前提下替换视频中的物体。这意味着商家只需要录制一次主播的视频就可以通过替换参考图像中的物体来生成多个产品的展示视频大幅降低了内容创作的成本和时间。视频混音这是一个更具创意的应用场景。OmniShow可以将一个视频中的人物外貌、另一个视频中的音频内容、以及第三个视频中的动作姿态进行混合生成一个全新的视频。这种“拆解重组”的能力为内容创作提供了无限可能例如将一个主播的外貌与另一个人的说话内容和动作结合创造出全新的视频内容。OmniShow的出现标志着人机交互视频生成领域迎来了一个重要的里程碑。通过统一通道条件化、门控局部上下文注意力和先解耦后联合训练三大核心创新它成功地在单一框架内统一了文本、参考图像、音频和姿态四种模态条件实现了从R2V到RAP2V的全谱任务覆盖。同时HOIVG-Bench的提出为该领域提供了统一的评价标准有望推动后续研究的规范化发展。更多transformerVITswin tranformer 参考头条号人工智能研究所 v号人工智能研究Suo, 启示AI科技动画详解transformer 在线视频教程