大家每天滑手机和看网页常会看到流畅的动画其中很多是矢量动画。现在输入几句大白话或一张图机器就能直接生成这种轻巧的动画。复旦大学阶跃星辰香港大学多模态实验室与昆士兰大学的联合团队推出了OmniLottie框架。OmniLottie利用创新的分词技术把视频、图文指令直接变成了高质量的矢量动画。团队设计了专门的代码压缩方法整理了200万规模的数据集让系统能听懂文字看懂图像、视频频直接生成各种设备都能用的动画文件。传统痛点做数字内容时动画主要分两种。常见的是位图视频。它文件大放大后会模糊有锯齿。另一种是矢量动画利用数学公式记录图形位置和运动轨迹。不管在多大屏幕上看画面都很清晰文件也很小。在众多标准里Lottie格式通用性好很受设计师和开发者欢迎。传统的SVG主要堆叠基本图形靠CSS代码驱动动画。Lottie采用图层叠加的方法把形状特效和运动参数全打包在一个JSON文件里。近年来AI在文字生成视频上进步很快。主流大模型处理静态图还行碰到要同时控制时间和运动的Lottie动画就经常搞不定。核心障碍是数据格式太啰嗦。原生文件里有很多为了维持结构的元数据和格式标签像排版的空格和缩进一样不包含真正的画面或运动信息。让模型直接写出这种复杂的代码效率很低。算力全浪费在怎么闭合括号和对齐代码上没法专注处理视觉元素和动态规律。很多知名商业工具生成的作品不好编辑达不到专业设计的要求。破局方法为了扫除啰嗦代码的障碍团队重构了底层数据表达方式开发了专门针对Lottie格式的分词器。它像个翻译官把复杂的原始文件变成紧凑的指令。分词器会剥离不需要变化的结构元数据只提取和动画紧密的属性。Lottie架构里的图层属性分三大类。基础属性包括图层标识层级和三维空间标记。视觉属性控制几何变换蒙版混合模式和特效。特定属性根据图层类型决定。动画包含五种基础图层。分词器对预合成纯色空对象形状和文本这五类执行专门的处理办法。遇到连续变化的数字参数系统用一套数字转换方案把它变成离散符号。处理后复杂的文本变成了一组包含命令和参数的线性代码保留了生成动画的灵活性又大幅缩短了代码长度。在模型架构上团队用预训练的多模态大模型Qwen2.5-VL作为核心。他们给模型加入了一套专属的词汇表。模型收到文字图片或视频后按顺序逐个预测生成精简版的符号。分词器再把符号还原组装成能直接播放的标准矢量动画文件。数据集构建模型的能力很看重训练数据的质量和数量。目前开源社区缺少量大且标注好的矢量动画资源。团队花时间打造了多模态矢量动画数据集MMLottie-2M。收集基础素材很费时。团队从几个主流平台抓取了大量初始文件。网上的资源经常夹杂和动画无关的东西比如图片音频或者需要特定软件才能算的表达式代码。研发人员写了程序把没法标准化的层级全去掉确保留下的数据干净。但优质原生动画还是不够用。团队设计了运动轨迹复用的流水线调用了包含大量静态图的OmniSVG库。系统分析了100万个真实文件提取出关键帧里的旋转缩放位置和不透明度变化轨迹。把相似的轨迹归类后团队总结出很多标准动作模板比如带着向上移和缩小的淡入效果。把这些动作模板套在静态图上就生成了大量画面和动作对齐的合成动画。所有的文件都做了时间和尺寸的统一标准处理。空间上画面统一调整为512乘512大小非正方形的就保持长宽比居中。时间轴上所有的动作都在0到16的时间戳里。为了让大模型听懂指令团队给动画配了精确的描述。受限于单帧画面的信息他们用由粗到细的策略。先把动画变视频让视觉模型写一段包含主体色彩和风格的整体概述再根据时间提示词记录每一帧的动作细节。强调形状和运动的词会被高亮这让模型能更准地听懂指令。为了客观衡量模型水平团队建了名为MMLottie-Bench的测试基准。他们避开训练数据从专业设计师那里收了450个高质量的真实动画当测试集。为了防止以后的AI在相似数据上跑偏团队用GPT-4oGemini3.1-Pro图片版和Seedance1.0视频工具合成了大量的指令数据进行补充。实验与结果测试环节很全面。OmniLottie和DeepSeekV3Qwen2.5-VLGPT-5RecraftAniClipartLivesketch等模型与工具同台比拼。团队引入FVD和CLIP相似度评测画面质量。他们用Claude-3.5-Sonnet当裁判按物体匹配度和动作匹配度两个维度打分范围0到10失败或输出空白记为零。测试的详细量化表现记录在下方表格中。根据表格数据OmniLottie在三个核心任务里优势明显。在真实数据测试中根据文字生成动画时DeepSeekV3成功率只有9.3%GPT-5是12.7%。开源模型普遍吃力输出质量低报错多。OmniLottie以88.3%的成功率排第一画面分数表现很好。商业工具Recraft虽然物体匹配得还行但生成的元素常机械重复动作死板。在看图配字生成动画时差距更大了。传统模型AniClipart和Livesketch暴露出缺陷必须费劲把位图转成矢量图计算耗时长达几十分钟还没法直接输出原生文件导致画面效果打折。GPT-5经常失败输出的东西不符合指令。OmniLottie保持了93.3%的高成功率动作顺滑保留了原图的美感。在视频转动画的挑战里系统要精准提取视频动作并重建画面结构。Gemini和Qwen系列在这里败下阵来生成的代码都没法用。GPT-5勉强产出一点低质量结果成功率只有7.4%。OmniLottie像个老画师完整重建了原视频画面生成的动画在各项指标上表现都很好。团队接着做了一组数据对比测试详细结果汇总在下列表格中。测试证实只用单一素材不够。混入30%由静态图转换的增强数据时表现最好。这些数据给模型补充了丰富的形状帮系统理解物体结构。混合比例过高时生成的动作会变成简单的平移缩放动作匹配度下降。适度混合做到了画面丰富和动作流畅的平衡。最后一组测试验证了核心分词工具的实际效果相关对比列在下方表格中。表里Q代表原生大模型J代表输入原生代码微调T代表用专属分词器。只用原生模型成功率是零。输入原生代码硬学根据文字生成动画成功率只到13.4%。加上分词器后问题迎刃而解成功率升到97.3%。计算变快了画面质量也大幅提升。目前按顺序解码的方式偶尔还会生成无效片段。碰到包含几十个图层的长动画系统受限于代码长度还是会吃力。研究人员计划以后引入打分奖励机制探索和各大专业软件打通让这项技术在工作里真正好用。OmniLottie像剃刀去掉了复杂代码里的累赘让大模型读懂了点和线的动态美。参考资料https://openvglab.github.io/OmniLottie/https://arxiv.org/pdf/2603.02138https://huggingface.co/OmniLottiehttps://github.com/OpenVGLab/OmniLottie