多模态大模型关键技术及应用_188体育app官网

编者寄语

多模态大模型通过图像、文本、音视频等多种模态数据的集成整合和学习，能够实现复杂的跨模态理解、生成与推理。在多媒体内容检索、推荐、问答、生成和人机交互等任务中，显示出巨大的潜力，并在教育、创作、医疗、娱乐等众多领域展现出广阔的应用前景。

多模态大模型面临的挑战是：跨模态一致性和连贯性、高效的模型架构和训练方法、统一的模型评估标准等。

本期围绕多模态大模型的预训练、跨模态对齐等关键技术，跨模态检索、具身智能等领域的应用，将CCF188体育投注相关报告视频和期刊文章资源进行聚合，方便会员集中观看学习，也为读者探索多模态大模型关键技术及应用抛砖引玉。

编委主任：苏金树 CCF会士军事科学院研究员

本期主编：闵巍庆 CCF多媒体技术专委秘书长中国科学院计算技术研究所副研究员

本期编委：王茜中国科学院微电子研究所副研究员

本文提出了一个基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型，该模型能够简单有效地适用于多种人工标注语言或机器翻译语言所构建的不同场景的多语言环境，并通过对比学习机制提升模型鲁棒性和特征表示能力。

格式：

文章

多模态预训练模型综述

王惠茹李秀红李哲马春明任泽裕杨丹,

本文综述了多模态预训练模型（PTM）的研究现状，包括图像-文本PTM和视频-文本PTM，以及单流模型和双流模型两类数据融合方式，并介绍了M6、CPT、VideoBERT和AliceMind等模型在下游任务中的应用场景，并总结了多模态PTM面临的挑战和未来研究方向。

格式：

文章

从ChatGPT到国产多模态基础大模型

纪荣嵘,

主要讲述了思源AI大模型，一个高效、多模态的基础模型，通过减少参数调整、动态适配和量化等技术，实现了低成本部署和跨模态交互，并展示了其在文本生成、图像识别、内容创作等任务上的应用潜力。

格式：

视频

迈向具身智能以及对文本大模型、多模态大模型具身智能、AGI的一些思考

张正友,

主要讲述了迈向具身智能，包括基于人脑启发的机器人智能控制框架、分层架构的机器人控制系统以及多模态大模型在具身智能和AGI发展中的角色和挑战。

格式：

视频

多模态通用智能体-交互、推理与学习-AI Agent学习与进化

李庆,

视频介绍了如何构建能接受多模态数据（文字，图像，视频，三维等）输入，通过与用户，环境等进行交互，不断学习提升自身推理，指令跟随等能力的多模态智能体。重点关注1）多模态智能体的基本认知架构，如记忆，知识表示等，以及与当下语言模型，多模态模型等的关系；2）以多模态推理（图像，视频）和开放世界具身交互为例，详细讲解如何构建多模态智能体，初步展示如何进一步通向通用的智能体。

格式：

视频