主要讲述了从语言大模型到多模态大模型的发展,重点介绍了复旦大学邱锡鹏教授团队,通过将所有连续信号离散化,将语音、图像、音乐等模态转化为类似语言的处理方式,实现了多模态大模型的跨模态理解和生成能力。
本文提出了一个基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型,该模型能够简单有效地适用于多种人工标注语言或机器翻译语言所构建的不同场景的多语言环境,并通过对比学习机制提升模型鲁棒性和特征表示能力。
本文综述了多模态预训练模型(PTM)的研究现状,包括图像-文本PTM和视频-文本PTM,以及单流模型和双流模型两类数据融合方式,并介绍了M6、CPT、VideoBERT和AliceMind等模型在下游任务中的应用场景,并总结了多模态PTM面临的挑战和未来研究方向。
主要讲述了思源AI大模型,一个高效、多模态的基础模型,通过减少参数调整、动态适配和量化等技术,实现了低成本部署和跨模态交互,并展示了其在文本生成、图像识别、内容创作等任务上的应用潜力。
主要讲述了迈向具身智能,包括基于人脑启发的机器人智能控制框架、分层架构的机器人控制系统以及多模态大模型在具身智能和AGI发展中的角色和挑战。
视频介绍了如何构建能接受多模态数据(文字,图像,视频,三维等)输入,通过与用户,环境等进行交互,不断学习提升自身推理,指令跟随等能力的多模态智能体。重点关注1)多模态智能体的基本认知架构,如记忆,知识表示等,以及与当下语言模型,多模态模型等的关系;2)以多模态推理(图像,视频)和开放世界具身交互为例,详细讲解如何构建多模态智能体,初步展示如何进一步通向通用的智能体。