新华网北京2月26日电(记者张漫子)阿里云旗下视觉生成基座模型万相2.1(Wan)25日正式开源。14B、1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频、图生视频任务。
万相视频生成模型尤其擅长表现复杂运动与符合物理规律的细节,能够稳定展现多种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等,并且能够精准还原碰撞、反弹、切割等复杂真实物理场景。
记者输入“体育摄影风格,骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服,头戴安全帽,表情专注而坚定,双手紧握缰绳,双腿夹紧马腹,与马匹完美配合。马匹腾空跃起,动作连贯且准确,四蹄有力地踏过每一个障碍物,保持速度和平衡。背景是自然的草地和蓝天,画面充满动感和紧张感。4K, 高清画质,动作完整”之后,即得到了一支长为5秒、丝滑流畅的“生成视频”。
这样丝滑的视频如何生成?技术人员介绍,算法设计上,万相基于主流DiT架构和线性噪声轨迹范式,研发了高效的因果3D VAE、可扩展的预训练策略等。以3D VAE为例,为了高效支持任意长度视频的编码和解码,万相在3D VAE的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程,实现了无限长1080P视频的高效编解码。此外,通过将空间降采样压缩提前,模型能够在不损失性能的情况下进一步减少29%的内存占用(推理时)。
记者了解到,1.3B版本的视频生成模型能够在消费级显卡运行。仅需8.2GB显存即可生成高质量视频,适用于二次模型开发和学术研究。这也是万相视频生成模型的一大亮点。
【纠错】 【责任编辑:陶欢】