CNCC 专题论坛聚焦之 大数据开源生态系统论坛
10月23日下午,2015中国计算机大会的重要活动之一 ----“大数据开源生态系统”在合肥会展中心举行。
本次论坛主席由中科院计算所副研究员查礼、中科院计算所研究员詹剑锋担任。
论坛开始后,中科院计算所研究员徐志伟首先为与会者带来题为“大数据生态需要效率”的报告。他在报告中指出:从学术角度看,大数据挑战是20年前由Jim Gray提出的。20年来,大数据研究和产业应用在性能、可扩展性、易用性三方面取得了令人惊喜的进展。但是,与高性能计算系统相比,大数据计算在系统效率方面进展缓慢。
徐志伟作题为“大数据生态需要效率”的报告
小米科技首席架构师崔宝秋在论坛上作了题为“小米大数据和开源软件”的报告,他在报告中指出:小米不仅仅是一个手机公司,更是一个快速发展的移动互联网公司、一个大数据公司,在公司软硬件产品迅猛发展的情形下如何快速搭建一个强大的大数据处理平台就成了一个关乎公司成败的关键问题。得益于开源软件,这个问题得到了一个比较完美的解决。
崔宝秋作题为“小米大数据和开源软件”的报告
华为大数据开源软件战略负责人陈亮在论坛上作了题为“华为大数据开源生态系统建设”,他介绍说:数字洪流时代华为遇到的大数据挑战,以及华为如何利用Hadoop、Spark等开源软件打造统一的大数据处理平台;其次介绍华为从2011年至今对Hadoop和Spark等生态系统做出的持续贡献,并介绍7月份在美国*波特兰 OSCON大会上发布的Astro开源项目(Spark SQL on HBase,端到端整合了Spark SQL和HBase的能力,提升Spark查询和分析HBase数据的效率);最后,介绍华为大数据拥抱开源软件的态度,致力于推动开源、开放的生态系统。
陈亮作题为“华为大数据开源生态系统建设”的报告
英特尔大数据高级软件工程师刘轶作了题为“针对Spark上大规模机器学习的参数服务器架构”的报告,他在报告中介绍为Apache Spark上的分布式机器学习,实现参数服务器(Parameter Server)架构的支持,以支撑众多大型互联网公司的大规模机器学习系统和应用的搭建。
刘轶作题为“针对Spark上大规模机器学习的参数服务器架构”的报告
腾讯数据平台部高级工程师翟艳堂作了题为“开源助力腾讯大数据平台发展”的报告,腾讯拥有互联网企业中最丰富的业务场景,数据庞大且类型多样,数据平台部作为腾讯底层的大数据平台,在不同的时期面临着不同的挑战。为了快速满足业务需求,先后引入Hadoop、Yarn、Spark、HBase、Storm、Kafka等众多开源软件,并根据腾讯业务特点进行深度定制与大量改造,使得腾讯大数据平台成为可以承载超大量级数据应用的海量数据处理平台。
翟艳堂作题为“开源助力腾讯大数据平台发展”的报告
美国俄亥俄州立大学Research Scientist鲁小亿作了题为“利用高性能计算技术加速大数据管理与分析”的报告,现代高性能计算系统及相关中间件(如MPI和并行文件系统)已经在过去十几年中高效地利用了高性能计算发展的各种最新技术(如多/众核架构,具有RDMA功能的高性能网络,和高速存储设备SSD)。然而,当前的大数据管理和分析中间件(如Hadoop,Spark,和Memcached)还无法高效地采用这些最新高性能计算技术的发展成果。这种差异导致高性能计算和大数据处理两个社区的发展轨迹没有形成有机的结合。
鲁小亿作题为“利用高性能计算技术加速大数据管理与分析”的报告
北京并行科技有限公司总经理陈健作了题为“开源大数据技术在7*24小时在线运维系统中的应用”的报告,他介绍了基于并行科技的7*24小时数据中心在线运维SaaS服务系统,利用开源大数据分析技术和机器学习建立起自动分析软件和自学习专家库,自动识别已知的各种系统软硬件故障和潜在风险,实时推送运维报警给7*24小时运维中心工作人员,由专业IT服务人员主动、直接修复远程数据中心故障,从而将故障响应和修复时间降到最低,同时大幅度的提高数据中心运营效率,为用户提供最佳服务体验。
中科曙光大数据总工程师宋怀明在论坛上作了题为“开源技术与曙光大数据”的报告,开源技术推动了大数据的发展,同时也给企业级应用提出了新的挑战,本报告将介绍开源技术如何推动曙光大数据产品研发和应用创新,并探讨企业大数据产品的发展之路。
宋怀明作题为“开源技术与曙光大数据”的报告
发展开源生态系统对于大数据产业的健康发展意义重大。但是,很遗憾在众多活跃的开源社区志愿者中,鲜有中国人的身影。促进开源文化在中国大地上生根发芽壮大是一件需要我们不断努力的事情,本次论坛在听众热烈的掌声中圆满结束。
所有评论仅代表网友意见