ADL159《具身智能》开启报名
CCF学科前沿讲习班 CCF Advanced Disciplines Lectures CCFADL第159期 主题 具身智能 2025年6月27日-29日 济南 以具身智能为核心的技术范式正在重塑智能体的学习、感知与交互方式,为人工智能技术走向物理世界提供了更大的可能性和扩展空间。本期ADL将聚焦具身智能的理论基础、关键算法、系统实现与前沿应用,围绕形态与行为协同、世界模型、大模型与强化学习结合、感知革命、灵巧操作等方向,邀请多位来自学界与产业界的顶尖专家,全面讲解具身智能的最新研究进展与技术落地路径,助力构建融合感知、决策与控制能力的下一代智能系统。 本期ADL讲习班邀请到了本领域9位来自于著名高校与企业科研机构的重量级专家学者做主题报告。他们将对具身智能的基础理论、关键技术和系统实现等方面的最新进展进行深入浅出的讲解,为听众展示具身智能研发实践案例, 并介绍解决具身智能所面临的技术挑战和实践落地的宝贵经验。 学术主任:蒋树强 中国科学院大学/张伟 山东大学 主办单位:中国计算机学会 活动日程: 2025年6月27日(周五) 9:00-9:10 开班仪式 9:10-9:20 全体合影 9:20-10:40 专题讲座1:形态与行为协同增效的具身智能 刘华平,教授,清华大学 10:40-12:00 专题讲座2:世界模型驱动的具身智能 徐凯,教授,国防科技大学 12:00-14:00 午餐 14:00-15:00 专题讲座3:大模型时代下的强化学习 郝建业,教授,天津大学 15:00-16:00 专题讲座4:VLAs on the Horizon for Scalable Robotic Manipulation 李弘扬,助理教授,香港大学 16:00-17:00 专题讲座5:开放世界具身智能多模态大模型 仉尚航,助理教授,北京大学 17:00-20:00 晚餐 2025年6月28日(周六) 9:00-12:00 专题讲座6:构建AI和物理世界桥梁,引领具身智能感知革命 许晋诚,CEO,帕西尼感知科技 12:00-14:00 午餐 14:00-17:00 专题讲座7:合成大数据赋能的具身端到端VLA大模型 王鹤,助理教授,北京大学 17:30-20:00 晚餐 2025年6月29日(周日) 9:00-12:00 专题讲座8:兼顾高精度和高泛化性的灵巧手和灵巧操作 李翔,副教授,清华大学 12:00-14:00 午餐 14:00-16:00 专题讲座9:从类人视觉感知到机器人学习的探索与进展 宋然,教授,山东大学 16:00-16:30 圆桌论坛及颁奖仪式 学术主任 蒋树强 中国科学院大学 简介:蒋树强,中国科学院大学特聘教授,博士生导师,先后担任期刊《IEEE TMM》、《ACM ToMM》、《IEEE Multimedia》、《计算机研究与发展》、《JCST》、《CAD学报》编委,中国人工智能学会具身智能专委会主任,中国计算机学会监事、多媒体专委会副主任,中国自动化学会网络计算专委会副主任。主要研究方向是多媒体内容分析、多模态具身智能技术和食品计算。主持承担科技创新2030-“新一代人工智能”重大项目、国家自然科学基金青年基金A类(杰青)、B类(优青)、重点等项目20余项,发表论文200余篇,获授权专利20余项,多项技术应用到实际系统中,先后获省部级或学会奖励5项。 张伟 山东大学 简介:张伟,山东大学教授、博士生导师,主要从事机器人学习研究。入选国家级领军人才计划,近年来承担国家自然基金重大/重点项目、国家重点研发计划、山东省重大专项等。代表论文以第一/通讯作者发表在TPAMI、TRO、IJCV、TIP、NeurIPS、CVPR、ICCV、IJCAI、AAAI、CoRL、ICRA等人工智能与机器人领域权威期刊和会议,获中国、美国、日本等发明专利授权50余项,获省部及国际学术奖励10余项。 特邀讲者 刘华平 清华大学 标题:形态与行为协同增效的具身智能 简介:刘华平,清华大学计算机科学与技术系教授,研究方向为机器人感知与学习,获国家杰出青年科学基金资助。担任机器人领域顶级期刊International Journal of Robotics Research的高级编委、中国自动化学会智能自动化专业委员会主任委员,入选爱思唯尔中国高被引学者。曾获日内瓦发明展金奖、IEEE仪器与测量学会 Andy Chi最佳论文奖、IROS最佳认知机器人论文奖。 摘要:具身智能广泛存在于生物体中,强调智能由脑、身体与环境协同影响,而实际行为是由主体与环境通过信息感知和物理操作过程连续、动态地相互作用而产生的。它与强调逻辑、推理与问题求解的离身智能可以协同发展,相互补充,并为智能的突破提供途径。 本报告从形态与行为协同增效的角度,对具身智能的内涵与外延做简要剖析,梳理具身智能的体系,介绍了具身智能的关键技术做介绍,并针对协同交互感知、具身大模型等前沿课题,以及一些典型应用做具体介绍。 徐凯 国防科技大学 标题:世界模型驱动的具身智能 简介:徐凯,国防科技大学教授。普林斯顿大学访问学者。研究方向为计算机图形学、三维视觉、具身智能、数字孪生等。在国际上较早开展了数据驱动三维感知、建模与交互工作,提出面向复杂三维数据的结构化感知、建模与交互理论方法系统,并规模化落地应用于智能制造等领域。主持国家自然科学基金青年科学基金A类(原杰青)、B类(原优青)、重点项目等。发表TOG/TPAMI/TVCG/TIP等A类论文100余篇。入选全球前2%顶尖科学家榜单。担任图形领域顶级国际期刊ACM Transactions on Graphics、IEEE Transactions on Visualization and Computer Graphics的编委,Computational Visual Media的领域执行编委。多次担任领域内重要会议的大会主席和程序主席。担任中国图象图形学会智能图形专委会副主任、中国工业与应用数学学会几何设计与计算专委会副主任。曾获湖南省自然科学一等奖2项(排名1和3)、中国计算机学会自然科学一等奖2项(排名1和3)、军队科技进步二等奖、军队教学成果二等奖、中国电子学会青年科学家奖。 摘要:在真实世界中学习具身操作技能代价昂贵,目前广泛采用的做法是基于仿真环境的学习和由虚到实迁移。但构建一个通用且高保真的仿真环境仍然非常困难,即便为某个单项任务构建相应的仿真环境也很难。同时,为使仿真训练的智能体能够由虚到实迁移,常需要在包括几何、结构、材质、动力学等的高维空间中进行采样,维数灾难问题突显。如能对目标环境快速构建一个机理化的专用世界模型,则只需在机理引导下对该模型进行小范围域随机化,即可支持鲁棒可泛化的策略学习。本报告探讨两种世界模型驱动的具身智能范式:1)直接在目标环境中采集“任务无关”的操作轨迹数据,学习符合物理规律的专用世界模型,用于多种下游任务的学习,其核心问题是如何基于稀疏轨迹数据学习符合物理规律的精准世界模型;2)首先基于大规模仿真预训练通用世界基础模型,再针对目标环境进行快速适配得到专用世界模型,用于目标环境多种下游任务的学习,其核心问题是如何实现通用世界模型的精准高效适配。本次报告将分析和综述两类范式在驱动导航、抓取等具身任务中的应用,并结合视觉-语言-动作(VLA)架构最新进展,探讨和展望数据和物理联合驱动、仿真与现实数据协同、世界模型轻量化等未来方向。 郝建业 华为诺亚决策推理实验室、天津大学 标题:具身智能体 简介:郝建业博士,华为诺亚决策推理实验室主任,天津大学智算学部教授。主要研究方向为强化学习、具身智能。发表人工智能领域CCF-A类国际会议和期刊论文100余篇,专著2部。 获得国家自然科学基金委优青、国家科技部2030人工智能重大课题、基金委人工智能重大培育等项目资助10余项,研究成果荣获国际会议最佳论文奖3次,NeurIPS 20-22大会竞赛冠军4次。相关成果在国产工业基础软件智能化、自动驾驶、游戏AI、广告及推荐、5G优化、物流调度等领域落地应用。 摘要:本报告首先会介绍语言和多模态大模型的背景和基础,然后介绍具身智能大模型所面临的挑战和学习范式,以及大模型技术推动具身智能发展的最新进展和未来挑战。 李弘扬 香港大学 标题:VLAs on the Horizon for Scalable Robotic Manipulation 简介:李弘扬,香港大学数据科学研究院助理教授,OpenDriveLab团队(opendrivelab.com)联合创始人。研究方向为端到端智能系统在机器人、自动驾驶的应用。他主导的端到端自动驾驶方案UniAD于2022年提出,获IEEE CVPR 2023最佳论文奖。UniAD等系列工作产生了明显的社会经济效益,包括特斯拉于2023年推出的端到端FSD。他构造的超大规模具身智能训练场Agibot World, 是业界首个百万真机、千万仿真数据集,系统研究具身Scaling Law方法论。他提出的俯视图感知方法BEVFormer,获2022年百强影响力人工智能论文榜单,成为业界广泛使用的纯视觉检测基准。他多次担任CVPR、NeurIPS、ICLR、ICCV、ICML、RSS等国际会议领域主席(AC),其中获得NeurIPS 2023 Notable AC。他是《自然·通讯》的审稿人、期刊《Automotive Innovations》客座编委。IEEE、CCF、CSIG高级会员、IEEE汽车委员会自动驾驶国际标准工作组组长。荣获2024年中国吴文俊人工智能青年科技奖、2023年上海市东方英才计划领军项目。 摘要:A generalist robot should perform effectively across various environments. However, most existing approaches heavily rely on scaling action-annotated data to enhance their capabilities. Consequently, they are often limited to single physical specification and struggle to learn transferable knowledge across different embodiments and environments. To confront these limitations, we propose UniVLA, a new framework for learning cross-embodiment vision-language-action (VLA) policies. Our key innovation is to derive task-centric action representations from videos with a latent action model. This enables us to exploit extensive data across a wide spectrum of embodiments and perspectives. To mitigate the effect of task-irrelevant dynamics, we incorporate language instructions and establish a latent action model within the DINO feature space. Learned from internet-scale videos, the generalist policy can be deployed to various robots through efficient latent action decoding. We obtain state-of-the-art results across multiple manipulation and navigation benchmarks, as well as real-robot deployments. UniVLA achieves superior performance over OpenVLA with less than 1/20 of pretraining compute and 1/10 of downstream data. Continuous performance improvements are observed as heterogeneous data, even including human videos, are incorporated into the training pipeline. The results underscore UniVLA's potential to facilitate scalable and efficient robot policy learning. 仉尚航 北京大学 标题:开放世界具身智能多模态大模型 简介:仉尚航,北京大学计算机学院研究员、助理教授、博士生导师、国家海外高层次青年人才。致力于具身智能多模态大模型方向的研究,在人工智能顶级期刊和会议上发表论文120余篇,Google Scholar引用数1.5万余次,荣获世界人工智能顶级会议AAAI最佳论文奖 。由Springer Nature出版《Deep Reinforcement Learning》 , 至今电子版全球下载量近三十万次,入选中国作者年度高影响力研究精选。入选美国“EECS Rising Star” 、 “全球 AI 华人女性青年学者榜” 、 “中国科协青年百人会” 、 “AI100 青年先锋” (麻省理工科技评论) 。 曾获多项国际竞赛前三名, 中关村仿生机器人大赛优胜奖, 入选2024具身智能科技前沿热点工作。 曾多次在国际顶级会议 NeurIPS、 ICML 上组织Workshop, 担任AAAI 2022&2023&2024高级程序委员。 博士毕业于美国卡内基梅隆大学, 并于加州大学伯克利分校从事博士后研究。 摘要:近年来,大模型和具身智能的研究取得一系列进展,而现实世界中的具身智能体往往面对开放环境中跨本体、跨场景、跨任务等泛化性挑战。本次报告将介绍一系列188体育投注:具身多模态基础模型的研究工作,并重点介绍具身智能大脑大模型、端到端大模型等基础模型的相关研究,最后介绍具身智能大规模数据集的构建。 许晋诚 帕西尼感知科技 标题:构建AI和物理世界桥梁,引领具身智能感知革命 简介:许晋诚,帕西尼感知科技创始人及CEO,日本早稻田大学工学博士,师从人形机器人业界权威——菅野重树教授,曾担任日本国家级项目核心成员;多年从事高精度触觉传感器、机器人灵巧手研发及拥有相关产业化经验,在触觉传感器及机器人研究领域,发表多篇国际学术论文,获得相关中外专利70余项。带领团队,以多维触觉技术为核心,基于前沿的人工智能和视触觉多模态感知技术,实现人形机器人触觉模组软硬件核心关键技术零部件的全线自研和生产,其出货量及市占率稳居行业之首。 摘要:人工智能正从虚拟算法迈向实体交互的新纪元。通过构建AI与物理世界的桥梁,VTLA具身智能模型得以突破传统限制,实现多模态感知与自主决策。借助先进的传感器、机器人技术和边缘计算,AI不仅能“理解”环境,更能“体验”并适应真实场景。这一革命性突破将重塑智能制造等领域,推动人机协作迈向更高维度。未来,VTLA具身智能将深度融合认知与行动,成为连接数字与物理世界的核心纽带,开启智能时代的新范式。 王鹤 北京大学 标题:合成大数据赋能的具身端到端VLA大模型 简介:王鹤博士是北京大学计算机学院前沿计算研究中心的助理教授和博士生导师。他同时是北京银河通用机器人公司的创始人和CTO,智源学者。他的研究目标是通过研究具身多模态大模型和人形机器人技能学习来推进通用机器人的发展。他获得蚂蚁InTech科技奖,麻省理工科技评论科技创新35 under 35(中国区),2024年北京大学-中国光谷科技成果转化奖,英特尔中国学术英才计划荣誉学者等称号。他的论文获得ICCV2023最佳论文候选,ICRA2023最佳操纵论文候选,2022年世界人工智能大会青年优秀论文(WAICYOP)奖,Eurographics 2019最佳论文提名奖。他担任CVPR和ICCV的领域主席。在加入北京大学之前,他于2021年从斯坦福大学获得博士学位,师从美国三院院士Leonidas. J Guibas教授,于2014年从清华大学获得学士学位。 摘要:具身数据的昂贵和不足目前是具身智能的重要瓶颈,而高质量的合成大数据为具身端到端大模型的泛化提供了一个低成本方案。本报告以端到端操作模型GraspVLA 和 端到端导航Uni-NaVid 等系列工作为例,探讨视觉-语言-动作(VLA)大模型系统的技术突破及其泛化能力的实现。 李翔 清华大学 标题:兼顾高精度和高泛化性的灵巧手和灵巧操作 简介:李翔,清华大学自动化系副教授、博士生导师,入选国家海外高层次人才计划青年项目,长期从事机器人灵巧操作和人机交互方向的研究。他近年来主持香港创新科技署项目、香港研究资助局项目、深圳科创委基础研究重点项目、国家自然科学基金项目(面上、国际合作、联合重点)、科技创新2030 -“脑科学与类脑研究”重大项目课题。他出版了一本由Springer发行的专著,共发表机器人领域高水平期刊与会议论文100余篇。他获得了机器人学旗舰会议2017 IROS最佳应用论文入围奖、2024 ICRA最佳医疗机器人论文入围奖、2025 IEEE RAL杰出编委奖。他带领团队获得了机器人学旗舰会议2024 ICRA机器人抓取操作挑战赛-手内操作赛道的冠军以及全部赛道唯一“最优雅解决方案”、2025 ICRA机器人抓取操作挑战赛-杂乱抓取赛道的冠军。他同时担任了机器人学两大旗舰期刊The International Journal of Robotics Research(IJRR)和IEEE Transactions on Robotics(TRO)的编委。 摘要:机器人灵巧操作通过多指手动态建立与脱离接触来实现对于被抓取物体的精细操作。相较于基于学习的灵巧操作方法,基于模型的方法无需针对每项任务进行大量数据收集,提供了一种高效高精度的解决方案。然而,由于物理接触的复杂性,现有基于模型的方法在高效在线规划和处理建模误差方面面临挑战,限制了其实际应用。为解决现有方法的不足,本报告提出一种新型的层次化灵巧操作框架,通过运动-接触联合建模实现了动作与接触的协同优化。大量实验表明,所提出的方法能够兼顾灵巧操作的高精度和高泛化性。 宋然 山东大学 标题:从类人视觉感知到机器人学习的探索与进展 简介:宋然,山东大学控制科学与工程学院教授、博士生导师,国家万人计划青年拔尖人才,IEEE高级会员,英国高等教育学会会士,曾获英制高级讲师终身教职。近年来主持国家自然科学基金联合基金重点项目、面上项目、GF重点项目等。主要研究方向为三维视觉感知、机器人视觉、机器人学习等,在IEEE TPAMI、TRO、IJCV、CVPR、RSS等人工智能、机器人领域的国际顶级期刊和会议上发表论文100余篇,获山东省技术发明二等奖、中国自动化学学会科技进步二等奖、山东省人工智能优秀论文奖以及4次最佳论文等国际会议学术奖励。 摘要:一方面,人类获取的80%的信息来自于视觉系统,模仿人类视觉感知一直是人工智能领域的核心问题之一。另一方面,感知是行为的前提,基于人工智能的机器感知与人类视觉系统对同一物体或场景的主观感知高度一致,是机器人的行为方式与人类相似的重要前提。本报告将汇报课题组在类人视觉感知和机器人学习方面的研究进展,介绍基于视觉显著性、人类演示、大模型等类人视觉感知机制的机器人学习方法,展示这些方法在不同机器人平台上的应用,最后分析该领域所面临的挑战并展望相关研究方向的未来发展。 时间:2025年6月27日-29日 地址:济南?山东大学千佛山校区创新大厦一期3楼报告厅 报名须知: 1、报名费:CCF会员2800元,非会员3600元。食宿交通(费用)自理。根据交费先后顺序,会员优先的原则录取,额满为止。本期ADL为线下活动,请到济南现场参会。(如果确有特殊情况,不能到现场参会,可以线上参会,请会前发邮件到adl@ccf.org.cn邮箱说明情况。线上线下报名注册费用相同。线上会议室号将在会前1天通过邮件发送。) 2、报名截止日期:2025年6月25日。报名请预留不会拦截外部邮件的邮箱。会前1天将通过邮件发送会议注意事项和微信群二维码。如果届时未收到邮件,请务必咨询邮箱adl@ccf.org.cn。 3、咨询邮箱 : adl@ccf.org.cn 缴费方式: 在报名系统中在线缴费或者通过银行转账: 银行转账(支持网银、支付宝): 开户行:招商银行股份有限公司北京海淀科技金融支行 户名:中国计算机学会 账号:110943026510701 报名缴费后,报名系统中显示缴费完成,即为报名成功,不再另行通知。 报名方式: 请选择以下两种方式之一报名: 1、扫描(识别)以下二维码报名: 2、点击报名链接报名: https://conf.ccf.org.cn/ADL159