188体育app官网_188体育投注

编者寄语

DeepSeek的横空出世,在蛇年春节之际再次在全球范围内引爆了人工智能的热点话题。人们不禁好奇:Deepseek这种大模型是如何训练和部署的?在以DeepSeek为代表的训练和推理过程中,其成功的关键在于对包括网络和系统软硬件的全方位优化。随着人工智能的飞速发展,特别是以GPT为代表的大语言模型的崛起,对传统网络架构和系统提出了前所未有的挑战。为应对海量数据处理、高效模型训练和低延迟推理等需求,智能时代呼唤新型网络架构、系统与优化技术的出现。为了探究大语言模型对于网络和系统的需求,引领未来面向大模型信息系统构建技术的发展,本次专题汇集了华为、腾讯、阿里等互联网大厂的大模型训练部署实践,也梳理了大小模型协同、云际部署、DeepSeek系统软件优化等学术界的前沿技术,方便会员集中观看学习。



编委主任:苏金树 CCF会士 军事科学院研究员

本期主编赵宝康 CCF互联网专委副主任 国防科技大学

本期编委:周   寰 国防科技大学


大规模AI计算的网络技术

智能技术进入大规模智能计算阶段,网络技术是万亿参数模型计算不可或缺的支撑技术,甚至是大规模智能计算的重要瓶颈技术。本报告主要讨论三个方面内容:一是大规模智能计算中大网络若干特点;二是大规模智能计算的全定制网络技术、半定制网络技术、网络优化技术等三个技术方向;三是国内大模型网络面临的主要挑战和困难。

格式:
视频
生成式 AI 高效部署实践-基于超大模型的推理和部署实践

自 OpenAI 推出 ChatGPT 后,市场反应强烈。国内外科技公司快速跟进,到今年三月份,各公司逐步推出其专属的 ChatGPT 版本,并基于此开发逐步研发相关的商业应用。而 GPT 超大的模型结构在部署时产生的高延迟,高成本是其商业化路上的最大障碍。本报告将从小型化算法、推理框架及服务化部署等多个方面和大家分享工业级 GPT 高效部署优化方案。

格式:
文章
面向大模型的网络技术:从网算协同到通算融合

大模型的训练对算力基础设施提出了极高的要求。本报告介绍华为在构建面向大模型的智算网络中遇到的组网规模、成本、性能和可用性等方面的核心挑战,以及围绕这些挑战所做的创新。通过网络与计算的协同设计,构建适合大模型流量特征的组网架构、路由系统、负载均衡和集合通信技术,将通信本身极致优化;进一步地,通过通信与计算的深度融合,跨越网和算的边界,系统性地优化计算和数据搬移代价,提升系统算效。

格式:
视频
大模型训练和推理中的高性能网络

大模型进入万亿参数时代,需要打造大规模、分布式的高性能计算集群。腾讯高性能网络提供高效跨域数据互通服务,具备业界领先的低价数据互联技术;利用自研交换机构建了超大规模网络架构,具备业界领先的1.6Tbps/3.2Tbps RDMA通信接入带宽,可扩展支持十万卡规模的GPU集群;自研高性能集合通信库TCCL和自研协议栈TiTa,通过软、硬件融合的优化方案实现AI通信的全局流量规划和拓扑亲和感知;构建了端网协同的监控运营体系,实现秒级故障自愈能力。

格式:
文章
大模型时代的阿里云基础设施网络研究与规模化部署

拥有千亿级别参数的大语言模型已为今天的人工智能和云服务带来了巨大的技术与商业变革。然而,大模型的训练和通用云计算的网络模式行为存在很大差异。为了更好的支持大模型训练的效率,阿里云基础设施网络团队设计并研发了专门针对大模型训练网络特征的新型数据中心网络 HPN 架构,吞吐量提高平均 14.9%;此外,我们也设计研发了面向大模型多租训练的集合通信调度优化技术 Crux,将 GPU 计算利用率平均提高到多达 23%。此两项工作均被 SIGCOMM'24 发表。

格式:
视频