智能技术进入大规模智能计算阶段,网络技术是万亿参数模型计算不可或缺的支撑技术,甚至是大规模智能计算的重要瓶颈技术。本报告主要讨论三个方面内容:一是大规模智能计算中大网络若干特点;二是大规模智能计算的全定制网络技术、半定制网络技术、网络优化技术等三个技术方向;三是国内大模型网络面临的主要挑战和困难。
自 OpenAI 推出 ChatGPT 后,市场反应强烈。国内外科技公司快速跟进,到今年三月份,各公司逐步推出其专属的 ChatGPT 版本,并基于此开发逐步研发相关的商业应用。而 GPT 超大的模型结构在部署时产生的高延迟,高成本是其商业化路上的最大障碍。本报告将从小型化算法、推理框架及服务化部署等多个方面和大家分享工业级 GPT 高效部署优化方案。
大模型的训练对算力基础设施提出了极高的要求。本报告介绍华为在构建面向大模型的智算网络中遇到的组网规模、成本、性能和可用性等方面的核心挑战,以及围绕这些挑战所做的创新。通过网络与计算的协同设计,构建适合大模型流量特征的组网架构、路由系统、负载均衡和集合通信技术,将通信本身极致优化;进一步地,通过通信与计算的深度融合,跨越网和算的边界,系统性地优化计算和数据搬移代价,提升系统算效。
大模型进入万亿参数时代,需要打造大规模、分布式的高性能计算集群。腾讯高性能网络提供高效跨域数据互通服务,具备业界领先的低价数据互联技术;利用自研交换机构建了超大规模网络架构,具备业界领先的1.6Tbps/3.2Tbps RDMA通信接入带宽,可扩展支持十万卡规模的GPU集群;自研高性能集合通信库TCCL和自研协议栈TiTa,通过软、硬件融合的优化方案实现AI通信的全局流量规划和拓扑亲和感知;构建了端网协同的监控运营体系,实现秒级故障自愈能力。
拥有千亿级别参数的大语言模型已为今天的人工智能和云服务带来了巨大的技术与商业变革。然而,大模型的训练和通用云计算的网络模式行为存在很大差异。为了更好的支持大模型训练的效率,阿里云基础设施网络团队设计并研发了专门针对大模型训练网络特征的新型数据中心网络 HPN 架构,吞吐量提高平均 14.9%;此外,我们也设计研发了面向大模型多租训练的集合通信调度优化技术 Crux,将 GPU 计算利用率平均提高到多达 23%。此两项工作均被 SIGCOMM'24 发表。