智源研究院发布原生多模态世界模型Emu3-新华网

新华网北京10月22日电（记者张漫子）北京智源人工智能研究院21日发布原生多模态世界模型Emu3。该模型能够实现视频、图像、文本三种模态的统一理解与生成，验证了基于下一个词元（token）预测的多模态技术范式，展现了其在大规模训练与推理方面的潜力。

　　图为原生多模态世界模型Emu3文生视频过程帧画面展示（采访对象供图）

当前，行业现有的多模态大模型多为对于不同任务而训练的专用模型，如Stable Diffusion之于文生图，Sora之于文生视频，GPT-4V之于图生文。现有模型的能力多为单一分散的能力组合，而不是原生的统一能力，比如目前Sora还做不到图像和视频的理解。

多模态大模型亟需将理解、生成等统一在一个模型里。此次发布的多模态世界模型Emu3仅基于下一个词元（token）预测，无需扩散模型或组合式方法，把图像、文本和视频编码为一个离散空间，并通过自回归的方式进行统一训练。这相当于为文字、图像、视频发明了一种统一“新语言”，可在同一空间中进行表达。

“这一简单的架构设计能为大规模的多模态训练和推理提供基础，有利于产业化。同时，该训练技术能够更大程度复用现有的训练资源，降低了对新基础设施的需求，从而加速多模态大模型的迭代和落地。未来，多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。”北京智源人工智能研究院院长王仲远说。

【纠错】【责任编辑:毕尚宏】