我国科学家开发的多模态大模型成果登上《自然》-新华网
2026 02/01 09:01:56
来源:新华网

我国科学家开发的多模态大模型成果登上《自然》

字体:

  新华网北京1月31日电(记者魏梦佳)北京智源人工智能研究院主导研发的多模态大模型最新成果近日在国际学术期刊《自然》上在线发表。专家表示,这一名为Emu3的多模态大模型采用“自回归”技术路线,实现了大规模文本、图像和视频的统一学习。

  “词元”是对自然语言进行信息处理的基本单元,包括词汇、标点符号或为了处理而人为设计的标记。北京智源研究院理事长、北京大学多媒体信息处理全国重点实验室主任黄铁军教授介绍,自然语言处理的自回归路线,典型做法是“预测下一个词元”,即用前序词元预测下一个词元。当今流行的人工智能语言大模型,就是采用这种方式用海量语料训练神经网络,“强迫”神经网络掌握词元之间的关系,从而能够“出口成章”。

  2018年美国OpenAI采用自回归路线训练出GPT(生成式预训练)模型,实现了语言大模型重大突破,开启了生成式人工智能浪潮。这一路线是否是适合图像、视频等多模态的统一路线?该问题此前一直悬而未决。2019年以来全球范围内出现了的多模态模型,大都采用专用技术,例如Stable Diffusion、Sora等采用扩散模型,虽然图像生成质量高,但不能同时支持理解、生成、检索等通用任务,因此不属于通用大模型。

  北京智源人工智能研究院坚持自回归路线,从2022年开始设计训练多模态大模型Emu,将图像、文本和视频统一离散化到同一表示空间中,在多模态序列混合数据上联合训练一个单一的多模态学习模型架构。研究证明,仅凭“预测下一个词元”,就能同时支持高水平的生成能力与理解能力,且在同一个统一架构下可自然地扩展到机器人操作以及多模态交错等生成任务。

  据悉,Emu3在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美,并具备视频生成能力,在多种多模态任务中展现了强劲性能。

  “这项研究表明,自回归可作为大模型的通用技术路线,对于确立自回归成为生成式人工智能统一路线意义重大。”黄铁军表示,通过简化模型设计、聚焦统一词元,该方法在训练与推理阶段均展现出显著的可扩展性,为统一多模态学习奠定了坚实基础,并且可以把为语言大模型建设的智算基础设施,平滑高效扩展到支持多模态数据,从而推动通用人工智能更快更好发展。

  《自然》审稿编辑认为,Emu3 仅基于“预测下一个词元”就实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

  北京智源研究院自 2020年启动“悟道”大模型研究以来,持续聚焦大模型的原始创新与长期技术路径探索。2025年6月,智源发布新一代大模型系列“悟界”,旨在构建人工智能从数字世界迈向物理世界的关键能力,及物理世界的人工智能基座模型,其中包括多模态世界模型、跨本体具身大脑、数字孪生心脏、脑科学多模态基础模型等,构建起覆盖宏观具身智能、介观生命系统到微观构象动力学的多层次技术基座。

【纠错】 【责任编辑:毕尚宏】