188体育app官网_188体育投注

返回首页
您的位置:首页 > 新闻 > CCF新闻 > ADL

ADL155《可视媒体生成基础与前沿》开启报名

阅读量:947 2024-11-13 收藏本文


CCF学科前沿讲习班

The CCF Advanced Disciplines Lectures

CCF ADL第155

主题 可视媒体生成基础与前沿

2024年12月20日-22日 北京


CCF学科前沿讲习班ADL155《可视媒体生成基础与前沿》,将系统地讨论可视媒体生成的基本原理和实现方法、图像生成、视频生成和三维模型与场景的生成。学员经过本次讲习班的学习,能够系统地了解可视媒体生成的前沿技术,感受生成式人工智能的飞速发展,同时开阔科研视野,增强思考与实践能力。


讲习班邀请了6位来自国内著名高校活跃在前沿领域的专家学者做主题报告。第一天,清华大学穆太江助理研究员介绍深度学习基础与计图编程相关内容,南开大学程明明教授介绍高效能个性化图像生成内容。第二天,中国科学院自动化研究所刘静研究员就多模态大模型研究与实践展开深入探讨,北京大学袁粒助理教授将介绍从视频生成到理解与生成统一架构。第三天,重庆大学秦红星教授将介绍从抛雪球到高斯泼溅及其原理解析,清华大学徐枫副教授将介绍基于便捷设备的数字人构建相关内容。通过三天教学,旨在带领学员实现对可视媒体从基本原理,到图像生成、视频生成和三维模型与数字人生成的全面认识与深刻理解。



学术主任:周 昆 教授 浙江大学/高 林 研究员 中国科学院计算技术研究所

主办单位:中国计算机学会


本期ADL主题《可视媒体生成基础与前沿》,由浙江大学周昆教授和中国科学院计算技术研究所高林研究员担任学术主任,邀请到穆太江(助理研究员,清华大学)、程明明(教授, 南开大学)、刘静(研究员,中国科学院自动化研究所)、袁粒(助理教授,北京大学)、徐枫(副教授,清华大学)和秦红星(教授,重庆大学)6位专家做专题讲座。




活动日程:


2024年12月20日(周五)

9:00-9:10

开班仪式

9:10-9:20

全体合影

9:20-12:00

专题讲座1:深度学习基础与计图编程

穆太江,助理研究员,清华大学

12:00-14:00

午餐

14:00-17:00

专题讲座2:高效能个性化图像生成

程明明,教授,南开大学

2024年12月21日(周六)

9:00-12:00

专题讲座3:多模态大模型研究与实践

刘静,研究员,中国科学院自动化研究所

12:00-14:00

午餐

14:00-17:000

专题讲座4:生成未必理解:从视频生成到理解与生成统一架构

袁粒,助理教授,北京大学

2024年12月22日(周日)

9:00-12:00

专题讲座5:从抛雪球到高斯泼溅及其原理解析

秦红星,教授,重庆大学

12:00-14:00

午餐

14:00-17:000

专题讲座6:基于便捷设备的数字人构建

徐枫,长聘副教授,清华大学




特邀讲者


穆太江

助理研究员,清华大学


讲者简介:穆太江,清华大学计算机系助理研究员,主要研究方向为计算图形学和计算机视觉等,主持了自然科学基金委青年科学基金项目和北京市科技计划项目任务,作为骨干参与了多项国家重大项目;在重要国际会议和期刊发表论文40余篇,其中3篇论文入选ESI热点论文;获首届“祖冲之”奖和Computational Visual Media最佳期刊论文奖等奖励;现担The Visual Computer编委,VCIBA期刊青年编委等。

报告题目: 深度学习基础与计图编程


报告摘要:以深度学习为代表的新一代人工智能技术已经成为科学研究和工程应用的新范式,已广泛渗透到各行各业。而深度学习框架作为人工智能的核心技术,负责深度学习模型的训练和推理,管理着人工智能应用所需要的大规模数据和模型,为上层算法和应用提供编程软件平台,同时统一调度和管理底层的计算资源,充分发挥计算潜力。本报告将介绍深度学习基础(包括深度神经网络的概念、训练方法),基于国产深度学习框架计图(Jittor)的深度学习编程以及计图对内容生的支持,为面向可视媒体内容生成的研究和应用提供基础编程框架。


程明明

教授,南开大学


讲者简介:程明明,南开大学杰出教授,新一代人工智能发展战略研究院副院长。主持承担了国家杰出青年科学基金、优秀青年科学基金项目、科技部重大项目课题等。他的主要研究方向是人工智能、计算机视觉和计算机图形学,在SCI一区/CCF A类刊物上发表学术论文100余篇(含IEEE TPAMI论文38篇),h-index为93,论文谷歌引用5.4万余次,单篇最高引用5千余次,多次入选全球高被引科学家和中国高被引学者。技术成果被应用于华为、国家减灾中心等多个单位的旗舰产品。获得教育部自然科学一等奖2项、其他省部级科技奖2项。培养的3名博士生获得省部级优秀博士论文奖。现担任中国图象图形学学会副秘书长、天津市人工智能学会副理事长和顶级期刊IEEE TPAMI, IEEE TIP和《中国科学:信息科学》编委。

报告题目: 高效能个性化图像生成


报告摘要:以大模型为代表的多模态图像生成技术可以有效地根据文本信息生成高质量的图像。然而,现有多模态生成技术在模型训练和个性化生成方面表现出较低的效率。例如,作为最近AI顶流的Sora模型虽然可以生成数十秒的流畅视频,但其训练代价相当高。Sora核心组件Difussion Transformer (DiT) 经常需要数十万次地迭代训练才能生成高质量的图像。此外,在图像生成中引入个性化的信息虽然富有吸引力,但是经典通过模型微调的形式经常耗费数十分钟才能得到高质量的结果。这些问题给生成式模型的大规模推广造成了障碍。本报告将介绍如何通过引入结构信息建模能力和个性化信息编码能力,有效地避免上述问题,并将该领域主流方法的性能提升2个数量级以上。


刘静

研究员,中国科学院自动化研究所


讲者简介:刘静,中国科学院自动化研究所研究员,国科大岗位教授,国家优青。研究方向多媒体分析与理解,带领团队研发了国际首个图文音三模态大模型“紫东太初”。相关成果曾获中国电子学会自然科学一等奖,北京市自然科学二等奖,中国图象图形学学会科学技术二等奖,世界人工智能大会卓越人工智能引领者奖等。已发表高水平学术论文近200篇,谷歌学术引用15000+次,SCI他引6000+次。荣获国际学术竞赛冠军十余项。

报告题目: 多模态大模型研究与实践


报告摘要:多模态大模型是针对图文音视等各种弱关联模态信息,利用自监督学习与模型微调等手段,建立多模态融合表征、关联协同与相互转化等,已被认为是实现类人感认知能力的重要途径,现已得到无论在学术界还是企业界的广泛关注。本报告主要包含以下内容:介绍多模态大模型的研究背景,回顾当前多模态预训练模型的关键技术与最新进展,以及对该领域未来发展趋势的展望与思考。


袁粒

助理教授,北京大学


讲者简介:袁粒,北京大学信息工程学院助理教授、博士生导师、国家高层次青年人才,入选2022年国家优秀留学生奖(归国类)、2023年福布斯亚洲30U30等,主持国家科技创新2030重大项目课题和国自然基金等。研究方向为多模态深度学习,代表性学术工作包括VOLO, T2T-ViT等深度神经网络框架,在国际期刊和顶会上发表论文50余篇,包括Nature Communications、IEEE TPAMI/CVPR等,代表性一作论文单篇被引两千余次,代表性应用工作包括ChatExcel、Open-Sora Plan视频生成开源计划。

报告题目: 生成未必理解:从视频生成到理解与生成统一架构


报告摘要:近几年以视觉-语言双模态为主的视频理解和生成领域蓬勃发展。当前主流视频多模态理解模型主要是借助大语言模型作为理解和逻辑推理的“中枢”,以自回归式Transformer为主干模型,而视频多模态生成仍然以扩散式Transformer (Diffusion Transformer)或者Diffusion ConvNets作为主要模型。所以视频多模态理解和生成在两条不同的技术路径上发展,当前已有的视频理解和生成一体架构大部分是依靠不同架构“搭积木”方式实现,而没有原生的统一架构。要实现视频生成和理解统一的多模态架构,需要探索视频生成的自回归式路径而非当前主流的扩散式生成,本次报告将首先介绍视频生成的基本原理,以及团队的视频生成开源模型Open-Sora Plan,然后探索视频生成的自回归式路线,将视频生成往多模态理解路线上统一,然后探讨未来生成理解可能的统一架构。


秦红星

教授,重庆大学


讲者简介:秦红星,男,博士,教授,博士生导师。2008年获上海交通大学博士学位,2008年至2009年于美国罗格斯新泽西州立大学从事博士后研究工作。主要研究方向为计算机图形学、三维视觉、可视化与可视分析。在ACM TOG,IEEE TVCG、CGF等国际著名期刊发表30余篇;取得授权专利15项;作为负责人先后主持国家自然科学基金项目3项,国家重点研发子课题1项目,重庆市基金2项,横向项目5项;作为骨干成员参与国家自然科学基金重点项目、重庆市重点项目等多项;指导学生参加科技竞赛多次获得一等奖。

报告题目: 从抛雪球到高斯泼溅及其原理解析


报告摘要:神经辐射场表达为场景重建与渲染建立了新的管线,为计算机图形学的发展提供了新的范式。本课程将从体数据可视化出发,从光线传输与几何表达两方面探究Nerf和Gaussian Splatting的技术原理,解析Nerf与Gaussian Splatting技术发展的关键点,展望Nerf和Gaussian Splatting发展的方向。