超大规模模型训练超算化的趋势及应用 | CNCC2021

阅读量:2986 2021-09-23 收藏本文

CNCC2021将汇聚国内外顶级专业力量、专家资源，为逾万名参会者呈上一场精彩宏大的专业盛宴。别缺席，等你来，欢迎参会报名！

【超大规模模型训练超算化的趋势及应用】技术论坛

【论坛背景介绍】

目前如AlphaFold、GPT-3等超大规模模型规模迅速增长，对算力的需求也急剧增加。10月28日下午4点，NVIDIA携手百度、阿里云和京东的专家在CC203会议室举办《超大规模模型训练超算化的趋势及应用》技术论坛，将为您带来超大规模分布式模型训练的实践，以及深入分析GPT-3训练过程中的存储、计算及通信开销及相应优化策略等精彩演讲。对GPU加速计算、超大规模语言模型训练、分布式训练框架和E级高性能AI计算集群的硬件架构感兴趣的您不容错过。

论坛主席

侯宇涛

英伟达GPU应用市场总监

简介：2005年加入英伟达，在游戏、计算机视觉、HPC和人工智能计算领域任职销售十年，推广GPU产品并积累了丰富的行业应用经验。近六年来专注于推广GPU应用生态及开发者社区建设，着重于高校GPU和CUDA 教育网络搭建和深度学习应用的推广。自2012年起负责英伟达公司GPU和CUDA应用推广工作至今，每年均支持多所高校参加各种HPC大赛，联合众多高校助力GPU平台成为HPC大赛的必用及常胜使用平台。同年年开始在中国推广英伟达GPU教育中心计划，目前几乎所有HPC和AI相关的高校院系均将GPU编程列入教学计划。同年年起在中国推广英伟达GPU研究中心计划，曾支持多家研究机构获取全球领先科研成果。与计算机协会紧密合作，积极赞助参与CCCV，HPC及CNCC大会。曾连续4次带队组织业界HPC和AI领先公司参与CNCC论坛活动。

侯宇涛先生毕业于北京航空航天大学，先后就职于美国DEC公司，Compaq公司，Phoenix 公司，具有30多年IT产业的销售，市场及技术职位的从业经验。

论坛日程安排

时间	主题	主讲嘉宾	单位及任职
16:00-16:30	飞桨分布式框架：深度解析超大模型训练技术	吴志华	百度深度学习技术平台部主任研发架构师，飞桨分布式技术负责人
16:30-17:00	阿里云在超大规模分布式模型训练的实践	董建波	阿里云资深技术专家
17:00-17:30	算法，算力，算料，算理，四位一体超级深度学习新范式	詹忆冰	京东科技，京东探索研究院算法科学家
17:30-18:00	超大规模模型训练的趋势及方案介绍 (DGX SuperPOD)	路川	英伟达工程解决方案技术经理
18:00-18:30	深入分析GPT-3模型训练的存储、计算和网络资源需求	刘宏斌	英伟达GPU技术专家
18:00-18:30	深入分析GPT-3模型训练的存储、计算和网络资源需求	刘斌	英伟达GPU技术专家
18:30-19:00	超大模型部署实践	薛博阳	英伟达GPU技术专家

讲者介绍

吴志华

百度深度学习技术平台部主任研发架构师，飞桨分布式技术负责人

讲者简介：2015年加入百度，长期从事人工智能、搜索推荐等领域的技术研发工作，在深度学习分布式框架、超大规模模型训练、搜索推荐模型算法等技术方向有丰富的研究与应用经验。目前主导研发飞桨大规模稀疏参数服务器训练框架、大规模自动混合并行和包含各种召回、粗排、精排模型的搜索推荐算法套件PaddleRec，及其在Feed、搜索、广告、CV、NLP等领域上的应用。

报告题目：飞桨分布式框架：深度解析超大模型训练技术

摘要：飞桨是源于产业实践的开源深度学习平台。本专题主要介绍飞桨分布式训练框架及其在自然语言处理，视觉，推荐等领域的应用。首先带大家深入了解飞桨超大规模深度学习模型训练技术，含三代参数服务器架构、多维混合并行训练技术等，来解决不同维度大模型的训练；其次通过经典案例来给大家介绍大模型训练难点及在实际业务中的应用。

董建波

阿里巴巴资深技术专家

讲者介绍：董建波，阿里巴巴资深技术专家。2012年毕业于中科院计算所，获博士学位。目前负责阿里巴巴高性能AI计算集群EFLOPS的技术创新和研发。主要研究方向包括：高性能AI计算技术，数据中心架构设计，低延时网络，处理器设计，可靠性设计等等。

报告题目：阿里云在超大规模分布式模型训练的实践

报告摘要：AI算法模型的规模迅速增长，对算力的需求也急剧增加，分布式集群成为AI计算的必然选择。而随着集群规模的扩展，系统的计算效率不断下降。为了应对这一挑战，阿里巴巴设计了EFLOPS高性能AI计算集群，通过软硬件的协同优化，获得极致的计算效率。本专题介绍EFLOPS高性能AI计算集群的硬件架构，软硬件协同设计，以及在典型业务场景上的应用。

詹忆冰

京东探索研究院算法科学家

讲者介绍：詹忆冰分别于2012和188体育app官网：在中国科学技术大学信息科学技术学院获取学士学位和博士学位。博士毕业之后，2018至2020年，詹忆冰于杭州电子科技大学计算机学院，任副研究员。现在，詹忆冰就职于京东科技的京东探索研究院，担任算法科学家。其主要探索图模型以及多模态学习，具体研究方向包括：跨模态检索、场景图生成和图神经网络。其已在CVPR、ACM MM、AAAI、IJCV以及IEEE TMM等顶级会议和期刊上发表多篇科学论文。

报告题目：算法，算力，算料，算理，四位一体超级深度学习新范式

报告摘要：超级深度学习（超大规模模型训练）范式需要算法、算力、算料、算理四方面支撑。我们将围绕这四方面，比如算法的设计、算力的构建、算料的收集、以及算理的证明，介绍京东探索研究的研究方向、进展和成果。

路川

英伟达工程解决方案技术经理

讲者介绍：2015年加入NVIDIA，目前主要负责支持中国互联网企业客户构建基于GPU计算的高性能解决方案，熟悉深度学习超大规模模型训练平台方案设计，构建和优化等技术。在加入NVIDIA之前，作为主要技术人员参与国家超算深圳、上海中心等大型超算项目的方案规划，建设及优化，在HPC分布式超算集群建设有着丰富的经验。

报告题目：超大规模模型训练的趋势及方案介绍 (DGX SuperPOD)

报告摘要：针对超大规模模型训练发展，我们将介绍NVIDIA DGX SuperPOD如何设计计算、网络和存储等，提供给客户最优化、可扩展和性能可保障的一站式分布式GPU集群解决方案。

刘宏斌

188体育app官网_188体育投注

超大规模模型训练超算化的趋势及应用 | CNCC2021