随着数据的大量累积和数据活动的日益丰富,数据库场景和需求愈加复杂。近年来,传统数据库技术已经与各类新型技术进行探索融合,特别是AI技术发展日新月异,其能否助推数据库技术实现新的跨越成为学术界和产业界共同关注的重要问题。在这一背景下,CCF YOCSEF哈尔滨于2024年8月17日在哈尔滨工业大学科创大厦K1423会议室举办了《AI4DB如何赋能数据库实现技术‘新跨越’》技术论坛,论坛由YOCSEF哈尔滨AC委员丁小欧、YOCSEF哈尔滨副主席李元鹏共同担任执行主席。
图1 YOCSEF哈尔滨AC委员丁小欧主持论坛
论坛特邀浙江大学教授陈璐、东北大学教授张岩峰、阿里巴巴研究科学家朱鎔、中国人民大学教授魏哲巍进行引导发言,特邀哈尔滨工业大学教授苗东菁、复旦大学教授何震瀛、阿里巴巴研究科学家朱鎔进行思辨引导。论坛还邀请了哈尔滨工业大学教授邹兆年、哈尔滨工程大学教授李伟、沈阳航空航天大学副教授朱睿、天津师范大学教授马江涛、人大金仓东北事业部负责人宋洋等来自学术界和企业界的专家参与思辨发言。
在引导发言环节,四位嘉宾介绍了自己在AI4DB领域的研究成果。首先进行引导发言的是浙江大学教授陈璐。她介绍了团队近期为Spark SQL设计的智能查询优化器LEAP,可以与Spark SQL无缝集成,有效解决兼容性问题。为了避免不可靠的成本值估计,设计了一个执行计划比较器模型,在枚举过程中通过两两比较的方式选择更好的执行计划。此外,为了缩短执行计划的枚举时间,提出了一种渐进式的计划枚举算法,并引入剪枝技术,显著减少搜索空间。
图2 陈璐进行引导发言
图3 论坛执行主席李元鹏为陈璐颁发感谢牌
第二位引导发言者是东北大学教授张岩峰。报告题目为《大模型的向量-图混合检索增强生成》。主要分享其团队在大模型的向量-图混合检索增强生成技术方面的总结和思考,通过优化图数据管理提升大模型推理生成质量和速度大模型的向量-图检索增强生成技术可以充分发挥大模型、知识、逻辑的互补优势。
图4 张岩峰进行引导发言
图5 论坛执行主席丁小欧为张岩峰颁发感谢牌
第三位引导发言者是阿里巴巴研究科学家朱鎔,报告题目为《机器学习增强的查询优化器》。主要分享其团队提出一种新的学习型查询优化器设计思路。将learning-to-rank思想引入查询优化器设计过程,基于pairwise的判别模型设计和实现了一种新的查询优化器Lero。Lero不需要修改原有传统数据库的查询优化器,只需要调节其执行计划产生方法并配合判别模型就能得到更高质量的执行计划。在PostgreSQL和Spark上实际部署的效果表明,Lero大幅提升了查询优化性能,并且表现出良好的稳定性和适应动态数据的能力。
图6 朱鎔进行引导发言
图7 论坛执行主席丁小欧为朱鎔颁发感谢牌
第四位引导发言者是中国人民大学教授魏哲巍。魏哲巍的引导发言内容涉及NDV估计相关任务和一些前沿应用,以及分析利用采样估计NDV过程中面临的关键问题和挑战。魏哲巍的介绍利用神经网络提升基于采样的NDV估计方法效率的最新理论算法与模型,以及其团队在基于采样的NDV估计的可扩展性方面所做的一些工作和对未来的展望。
图8 魏哲巍进行引导发言
图9 论坛执行主席丁小欧为魏哲巍颁发感谢牌