“消费级显卡也能跑起来”的阿里万相视频生成模型开源-新华网

新华网北京2月26日电（记者张漫子）阿里云旗下视觉生成基座模型万相2.1（Wan）25日正式开源。14B、1.3B两个参数规格的全部推理代码和权重全部开源，同时支持文生视频、图生视频任务。

万相视频生成模型尤其擅长表现复杂运动与符合物理规律的细节，能够稳定展现多种复杂的人物肢体运动，如旋转、跳跃、转身、翻滚等，并且能够精准还原碰撞、反弹、切割等复杂真实物理场景。

记者输入“体育摄影风格，骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服，头戴安全帽，表情专注而坚定，双手紧握缰绳，双腿夹紧马腹，与马匹完美配合。马匹腾空跃起，动作连贯且准确，四蹄有力地踏过每一个障碍物，保持速度和平衡。背景是自然的草地和蓝天，画面充满动感和紧张感。4K, 高清画质，动作完整”之后，即得到了一支长为5秒、丝滑流畅的“生成视频”。

这样丝滑的视频如何生成？技术人员介绍，算法设计上，万相基于主流DiT架构和线性噪声轨迹范式，研发了高效的因果3D VAE、可扩展的预训练策略等。以3D VAE为例，为了高效支持任意长度视频的编码和解码，万相在3D VAE的因果卷积模块中实现了特征缓存机制，从而代替直接对长视频端到端的编解码过程，实现了无限长1080P视频的高效编解码。此外，通过将空间降采样压缩提前，模型能够在不损失性能的情况下进一步减少29%的内存占用（推理时）。

记者了解到，1.3B版本的视频生成模型能够在消费级显卡运行。仅需8.2GB显存即可生成高质量视频，适用于二次模型开发和学术研究。这也是万相视频生成模型的一大亮点。

【纠错】【责任编辑:陶欢】