何水兵:面向AI系统的存算技术论坛 | CNCC专家谈
在即将于今年10月26-28日在沈阳举办的CNCC2023期间,在130个涵盖人工智能、安全、计算+、软件工程、教育、网络、芯片、云计算等30个热门专业领域的技术论坛上,包括国际知名学者、两院院士、产学研各界代表在内的700余位报告嘉宾将着力探讨计算技术与未来宏观发展趋势,为参会者提供深度的学术和产业交流机会,当中不乏在各领域深具影响力的重磅学者专家亲自担纲论坛主席。
本专题力邀CNCC2023技术论坛主席亲自撰稿,分享真知灼见,带你提前走进CNCC,领略独特专业魅力!
本期特别嘉宾:
何水兵 CCF杰出会员,浙江大学研究员、博导
作者:CNCC2023【面向AI系统的存算技术】技术论坛主席 何水兵
AI技术赋能各行各业
图1:AI技术赋能各行各业
随着社会经济的发展和科技水平的提高,人工智能(Artifical Intelligence, AI)技术已经出现在人们生活的方方面面,如自然语言处理、计算机视觉、脑机接口、推荐系统等等(图1)。随着ChatGPT、Stable Diffusion等新型AI现象级应用的出现,通用AI进入了大模型时代。垂域应用和大模型结合的创新成果如雨后出笋般快速涌现,大模型在社会生活方方面面展现出了前所未有的威力。
AI系统面临的挑战
AI技术的快速发展离不开计算机硬件平台和软件系统(简称AI系统)的大力支撑。高效的AI系统能够有效应对AI任务的运算能力(算力)需求,提升应用运算效率,降低用户成本,从而助力AI技术的突破。在“数据、算法、算力”这三架AI发展的马车之中,算力是整个AI技术发展的基座。然而,随着AI模型参数量与数据集规模的井喷式增长,当前AI系统面临着“算力、存储、网络和可靠性”等方面的挑战。
- AI系统面临巨大的算力需求:目前AI模型层数较深且计算复杂,需要消耗巨大的算力。OpenAl的数据显示,从2012年到2020年,其算力消耗平均每3.4个月就翻倍一次,8年间算力增长了30万倍[1](如图2)。2023年3月推出的多模态大模型GPT-4, 训练时的算力需求甚至达到了惊人的每秒2.15×1024 FLOPS[2]。不断增长的算力需求,使得AI计算中心面临着前所未有的算力挑战。
图2:2012年以来算力需求增长了超过30万倍
- AI系统面临巨大的存储挑战:以大模型为代表的AI训练具有参数众多并且输入数据集较大的特点。例如, GPT-4 模型具有1.8 万亿的模型参数且需要13万亿的Token作为输入数据集[2]。AI系统需要高效的存储系统来存储和读取这些大量的数据。然而,AI模型的数据大小呈现出逐年上升的趋势 [3](如图3),与此同时,存储硬件性能增长的速度远滞后于GPU算力提升的速度,因此,存储访问日益成为一些AI应用的性能瓶颈。例如,在美国橡树岭国家实验室的深度学习气候预测中,其使用的分布式文件系统仅仅能提供1%的理想带宽(1.16 TB/s);在美国阿贡国家实验室的深度学习应用中,I/O访问时间最高占据了90%的总执行时间,成为了性能瓶颈。
图3:AI模型增长趋势
- AI系统具有较高网络传输需求:由于单一计算节点无法满足大规模AI算力需求,目前AI中心往往利用网络将多个GPU服务器连接起来进行分布式机器学习。在分布式机器学习中,数据需要在多个机器间进行通信。如果网络传输速度较慢或不稳定,整个GPU系统的计算效率将会极大降低。如图4所示,较差的网络传输往往能降低一半的模型训练效率,对宝贵的硬件资源造成极大的浪费[4]。
图4:网络通信限制模型的训练性能
- AI系统具有较强的可靠性需求:由于多设备的参与以及长时间的运行,AI应用往往面临较高的出错率。例如,OPT-175B模型在训练的过程中使用了992张A100 GPU,并在两个月的训练时间内故障超过110次[5]。类似的现象同样出现在BLOOM模型的训练过程中[6]。频繁的故障带来硬件资源的浪费,增加应用执行的成本,因此需要高效的系统故障恢复机制,保证训练的稳定持续执行。
新型AI存算技术
为了解决上述挑战,我们迫切需要寻求新的AI存算技术,从存储、计算、网络等诸多方面对现有AI系统进行升级改造。按照系统架构的不同,可分为两种思路:一是对经典冯·诺伊曼架构下的AI系统进行优化,二是探索开发基于新型存算一体架构的AI存算系统。上述两种架构的对比如图5所示。