188体育app官网_188体育投注

返回首页
您的位置:首页 > 新闻 > CCF新闻 > 青年精英大会

YEF2025 | 大模型时代的存储系统建设

阅读量:0 2025-04-27 收藏本文

(扫码报名) 



众所周知,大模型已经成为学术研究和行业技术热点。早期的大模型对算力的需求非常高,导致了早期的GPU价格持续上升,严重影响了人工智能的发展。2025年年初,随着DeepSeek的大火以及各类模型的发展,大家开始意识到存力对大模型的重要性,由此掀起了针对存力的大模型技术研究。当前,研究大模型场景的存储系统建设成为了新的技术热点,并持续影响行业的发展。为了应对大模型的存储需求,当前行业针对大模型的存储需求展开了深度的分析,包括预处理阶段的数据存储、训练阶段的数据读取和Checkpoint存储、推理阶段的KV Cache存储等。由此展开了针对大模型场景的存储系统建设的研究。然而,目前如何构建针对大模型场景的存储系统依然存在诸多问题,造成了性能无法满足、可靠性无法保障等诸多问题。本论坛将面向大模型的存储系统需求展开技术交流,从大模型的存储基础设施建设、内存和HBM的可靠性管理以及推理、文件系统和存储设备等方面展开交流和探讨,共同推动大模型时代存储系统建设,并为该方向的发展贡献思考和建议。


论坛安排


顺序
主题
主讲嘉宾
单位
1
AI时代的数据存储基础设施
陆游游
清华大学
2
面向大模型应用的内存故障容错技术
吴晨涛
上海交通大学
3
应对大规模训练集群的内存可靠性挑战:深入剖析HBM内存错误
沈志荣
厦门大学
4
面向AI推理的长记忆存储技术演进与趋势
李国杰
华为技术有限公司
5
云存储GooseFS-基于对象存储COS搭建的高性能AI存储
程力
腾讯科技(深圳)有限公司
6
存储技术在大模型推理效率提升中的关键作用
张文涛
北京焱融科技有限公司
7
Panel环节
陆游游
清华大学
吴晨涛
上海交通大学
沈志荣
厦门大学
李国杰
华为技术有限公司
程力
腾讯科技(深圳)有限公司
张文涛
北京焱融科技有限公司


执行主席


石亮

CCF杰出会员、

CCF YOCSEF上海25-26候任主席,

华东师范大学教授


CCF信息存储专委常务委员以及CCF上海执行委员,华东师范大学教授,博导。主要研究方向为存储系统,包括大模型存储系统、高性能存储系统以及各类移动终端存储系统。主持过4项国家自然科学基金,2项上海市科学基金项目,积极与企业展开合作,曾连续10年与企业展开存储系统核心技术攻关,两次获得华为年度技术成果奖。所编写的《深入浅出SSD(第二版)》获得机械工业出版社金码奖和年度十大好书荣誉。


论坛讲者


陆游游

清华大学计算机系长聘副教授


博士生导师,国家优青获得者,主要研究方向是计算机存储系统,作为负责人承担了国家自然科学基金重点项目、重点研发计划青年科学家项目等国家项目。在FAST、OSDI、SOSP等国际顶级会议上发表论文50余篇,曾获得NVMSA’14最佳论文奖、MSST’15最佳论文提名奖、SIGMOD’23研究亮点论文、CACM’25研究亮点等奖项。研制高性能文件系统SuperFS,部署于鹏城云脑II,蝉联世界超算存储IO500榜单第一名。曾获得CCF优博、首届中国科协青托工程等奖励。


题目:AI时代的数据存储基础设施


摘要:人工智能系统的参数量与训练集规模在不断提高,向量存储与近似检索等新型存储需求涌现。这对传统存储架构提出了新的挑战:文件存储存在海量样本元数据管理难、数据通路对AI无感知等问题;向量存储难以高效支持大规模向量近似检索;参数存储难以充分利用异构介质进行参数管理。本报告将从文件存储、向量存储和参数存储三方面讨论存储系统的新的设计需求与相关研究进展。

吴晨涛

上海交通大学教授


博导,国家级青年人才,国家重点研发计划首席科学家。研究方向主要为云存储、大数据存储系统。主持国家重点研发计划、国家自然科学基金、上海市自然科学基金等项目20余项,在IEEE TC、IEEE TPDS、IEEE TDSC、IEEE TMC、ATC、HPCA、DAC等期刊会议上发表论文130余篇。研究成果荣获2019年国家技术发明二等奖、188体育app官网:和2022年上海市技术发明一等奖、2022年华为火花奖等奖励。


题目:面向大模型应用的内存故障容错技术


摘要:当前大模型应用(如GPT等)主要依赖大规模万卡集群,在这些系统中面临着非常频繁的内存故障(平均3-4小时一次),导致大模型训练的中断和低效。本报告主要从内存故障预测和检查点等技术入手,通过内存主动容错和被动容错相结合方法,实现内存区域的分级容错,从而保障大模型系统的可靠性。

沈志荣

厦门大学信息学院教授


福建省杰青,主要研究方向为大数据/云存储系统,在IEEE TC、TPDS、TDSC和PPoPP、HPCA、USENIX ATC、ICDE等CCF A/B类期刊会议发表论文50多篇,主持国家重点研发项目(青年科学家)、国家重点研发计划课题等多项课题,获得IEEE Smart Computing Early Career Award(2023年), ACM SIGCSE中国新星奖(2022年),SRDS'20最佳论文奖(CCF-B类会议)、SRDS'15最佳论文提名奖(CCF-B类会议)等各类学术奖项。


题目:应对大规模训练集群的内存可靠性挑战:深入剖析HBM内存错误


摘要:我们首次对HBM错误展开系统性研究,通过对从19个数据中心收集的超过4.6亿个错误事件数据展开分析,我们发现HBM在空间局部性、时间相关性及传感器指标等方面展现出与传统DRAM不同的错误特征,这使得传统基于经验构建的DRAM错误预测模型对HBM失效。基于这些发现,我们设计并实现了分层级故障预测框架Calchas,通过整合来自不同设备层级的空间、时间和传感器信息,实现了对未来故障的精准预测。

李国杰

华为AI存储架构师


10年以上存储产品SE和存储资深架构师经验,5年以上存储系统首席性能专家经验,3年AI存储架构师经验,主导Dorado等明星存储的产品与架构设计,主导面向AI训练的新一代集群存储定义与规划,以及面向推理的长记忆存储定义和架构设计。


题目:面向AI推理的长记忆存储技术演进与趋势


摘要:构建层次化融合记忆存储系统,从RAG前置检索增强走向KV Retrieval的模型内生检索增强,从围绕长序列KVCache的离线静态稀疏加速走向在线动态稀疏加速,从Prefill阶段以查代算走向Decode长思维链的以查代算,基于存储系统与AI系统的联合创新,突破推理范式瓶颈,加速AI行业化普惠落地。

程力

腾讯云存储研发总监


主要负责腾讯云数据湖存储GooseFS的设计和研发,同时是开源社区Apache Hadoop Committer和ApacheOzone PMC,具备多年存储研发经验。


题目:腾讯云存储GooseFS-基于对象存储COS搭建的高性能AI存储


摘要:GooseFS是一个高性能缓存文件系统,结合对象存储COS实现了存算分离的AI存储架构,加速了对象存储的读写访问。GooseFS引入了计算端缓存,服务端缓存和元数据加速三个关键技术和架构设计,实现了对于大模型场景大带宽低时延的读写需求。结合腾讯云对象存储COS,腾讯云数据湖存储逐渐成为业界AI存储和大模型存储的标配。

张文涛

焱融科技CTO


专注于分布式存储领域,拥有超过15年的大规模公有云存储架构开发和AI存储架构设计,参与主导了YRCloudFile高性能分布式文件存储系统从0到1的设计研发及产品落地工作,并在AI场景应用落地方面具备一定的实战经验。在AI及高算力场景项目交付上,有着丰富的整体架构设计和性能优化经验。中国智能计算产业联盟专委会技术专家组,上海TGO鲲鹏会成员,CXL俱乐部专家。


题目:存储技术在大模型推理效率提升中的关键作用


摘要:本次报告将深入探讨RAG技术在企业应用中的落地挑战,并提出切实可行的解决方案。同时,详细阐述KV Cache技术在加速大模型推理中的具体应用机制。此外,还将展望存储技术未来的发展方向,探讨如何进一步优化存储系统以满足大模型日益增长的性能需求。




会议介绍

由CCF主办的YEF2025将于2025年5月22-24日在横琴召开。此次大会由CCF会士、副理事长,华中科技大学教授金海担任大会主席,以“智辟新径”为主题,汇聚了中国计算机领域的青年精英及知名专家,共同探讨科技前沿,开启智慧新篇章。在三天的时间里,预计将组织7场特邀报告、2场大会论坛、1场思想秀、1场优秀大学生学术秀及22场专题论坛。