在矢量动画生成领域,如何让机器直接从文字、图片或视频「创作」出可编辑的矢量动画,是一个长期悬而未决的难题。过去的方法要么依赖预设动作库套用在静态图形上,要么借助视频扩散模型生成栅格化视频,本质原因是动画的外观与运动被割裂处理,且输出格式天然缺乏可编辑性。
本文的核心洞见是:把冗长的 Lottie JSON 原始格式重新看作一种低效的中间语言,将其压缩为命令-参数序列的紧凑词表。由此,Lottie 分词器这一关键操作将原始 JSON 序列长度压缩 81%,使预训练视觉语言模型得以将注意力集中在形状、运动等真正有意义的生成内容上,而非浪费在格式符号的复现。
这项工作真正留下的遗产是:首次证明端到端自回归模型可以直接从多模态指令生成原生矢量动画,成功率远超 GPT-5、Gemini 等通用模型,并以三十秒级延迟完成 AniClipart 需要二十分钟才能完成的任务。它为后来者打开的新门是统一框架下多模态矢量内容生成的可能性;但尚未跨过的门槛是复杂动画中自回归解码仍会产生无效序列,且上下文长度限制使模型在处理多层嵌套的精细动画时力不从心。
arxiv.org/abs/2603.02138