188体育app官网_188体育投注

返回首页

多模态大模型技术进展及应用 | TF116 回顾

阅读量:0 2023-08-18 收藏本文


8月10日,CCF TF第116期“多模态大模型技术进展及应用”邀请了来自中国科学院自动化研究所、字节跳动、百度的专家,深入探讨了多模态大模型的技术进展及产业应用。


图片


CCF TF活动相关专家报告均收录在CCF188体育投注【TF专辑】,欢迎长按识别,回看精彩分享。本期活动报告也将于近期收录,欢迎持续关注!


图片


CCF TF第116期“多模态大模型技术进展及应用”由CCF TF算法与AI SIG策划呈现,邀请到中科院自动化所副研究员郭龙腾、字节跳动AI-LAB算法工程师曾妍、百度杰出架构师肖欣延三位资深专家,回顾多模态大模型的历史,介绍其发展现状和丰富的产业应用,探讨所面临的挑战并展望未来发展前景。 


本次活动由CCF TF算法与AI SIG主席何中军主持。


《多模态预训模型的技术回顾与展望》


图片


郭龙腾的报告分析了多模态预训练模型的研究背景与必要性,回顾当前多模态预训练模型的研究进展,并介绍多模态大模型的架构设计、学习优化、下游应用,以及最新前沿研究方向如多模态大语言模型、多模态具身智能等。此外,他还介绍了自动化所研发的全模态的认知大模型“紫东太初”,融合了音视频、图片、文本,实现多种模态的融合理解和生成,最后分析多模态预训练模型所面临的在数据、模型、训练等方面的技术挑战。


《多模态技术与应用》


图片


曾妍详细介绍了多模态预训练技术(涵盖图像/视频和文本)方面的近期工作,包括多粒度视觉语言预训练方法X-VLM、多语言多模态预训练CCLM,以及其在字节跳动产品上的应用,如图片描述、视频审核、电商客服等。最后,她介绍了最新研发的多模态大语言模型Lynx,通过多阶段训练使用不同的训练数据来提升模型的综合能力。


《多模态内容生成技术与应用》