顶级赛事:第十届CCF大数据与计算智能大赛正在报名中!
2022年大数据与AI领域年度盛事——第十届CCF大数据与计算智能大赛已正式开赛!规模宏大,阵容豪华,含金量高,奖励丰厚,在业内拥有不错的知名度、关注度和认可度,堪称“年度最值得参与的国际大数据与AI赛事之一”。
大赛介绍
CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由CCF于2013年创办,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。迄今已成功举办九届,累计吸引全球25个国家、1500余所高校、1800余家企事业单位及80余所科研机构的16万余人参与,已成为中国大数据与人工智能领域影响力最广、参赛规模最大、成熟度最高的综合赛事之一。
十年磨砺,创新聚力再出发,2022年第十届CCF BDCI将进一步关注数字经济技术发展与人才培养,助力推动我国大数据技术及产业生态发展。大赛从百度、华为、360等10余家知名企业和科研院所征集大规模数据与真实场景,形成了涉及图像识别、自然语言处理、数据挖掘、系统优化等不同技术方向的20余道赛题,通过在线排行榜自动评测与院士专家评审结合的方式选拔优秀团队。
大赛亮点
国际权威赛事
CCF主办,CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF高性能计算专业委员会、CCF计算机安全专业委员会、CCF计算机应用专业委员会,CCF软件工程专业委员会、教育部易班发展中心、LandInn兰亭、北京数联众创科技有限公司联合承办,DataFountain竞赛平台(DF平台)作为大赛官方平台提供专业支持与服务。
顶级专家云集
梅宏、李国杰、倪光南、徐宗本等七大院士指导,国内外百余名学术专家及百度、华为、360等十余家名企技术专家共同组成大赛专家委员会,产学研结合,共同助力大赛举办。
百万级别奖项
总奖金池近百万元,入围决赛即可获得招聘绿色通道、政府及知名投资机构的投融资及孵化扶持,还有各合作单位提供的项目成果应用与试点机会,还有周冠军、邀请榜等赛事花样活动大礼包收到手软。
顶尖企业共创
国内各技术领域顶尖企业——百度、华为、360、竹云、达观数据、算能、联通数科、数元灵科技、智慧芽、蚂蚁技术研究院等企业作为大赛合作单位,共创顶级赛事。
探索硬核技术
大赛面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,共同探索前沿硬核技术。
甄选优质赛题
甄选自然语言处理、数据挖掘、计算机视觉等多种技术领域,知识挖掘、分类问题、图像分割、188体育app官网:、性能优化、图计算、关系抽取等多种技术方向的20余道优质赛题,为不同研究方向的数据爱好者提供多维参赛机会。
共建开源生态
在条件允许情况下,所有决赛入围的作品将统一开源,借由全球技术精英的力量,惠及所有大数据及人工智能参赛者、学习者及从业者。
赛练结合促学
大赛采用赛练结合模式,大奖赛和训练赛兼具,以练备赛,以赛促学,鼓励选手在训练赛道开源分享,帮助初学者锻炼基础能力,辅助高校开展相关专业及课程教学实践工作。
赛道赛题
算法赛道
精通各类算法,热爱编程?
快来【算法赛道】与数据科学爱好者“码”上PK!
《基于文心CV大模型的智慧城市视觉多任务识别》
出题单位:百度
赛题奖金:¥5万
技术方向:图像分类
难易程度:★★★
赛题背景:近年来预训练大模型一次次刷新记录,展现出惊人的效果。但受算力和存储的限制,大模型无法直接部署在边缘设备上。针对大模型的开发和部署问题,VIMER-UFO 给出了 One for All 的解决方案,将不同参数量、不同任务功能和不同精度的模型训练过程变为训练一个超网络模型。
赛题任务:选手需使用飞桨(PaddlePaddle)深度学习框架,基于人脸、人体、车辆、商品四大场景任务,训练视觉大一统模型。
《系统访问风险识别》
出题单位:竹云科技
赛题奖金:¥5万
技术方向:分类问题
难易程度:★★
赛题背景:在当前IAM的探索进程当中,最易落地的方法是基于规则的行为分析技术。它的可理解性很高,且很容易与身份鉴别技术进行联动,但它是基于经验的,缺少从数据层面来证明是否有人正在尝试窃取/验证非法获取的身份信息,或正在使用窃取的身份信息。
赛题任务:基于用户历史的系统访问日志及是否存在风险标记等数据,结合行业知识,构建必要的特征工程,建立机器学习、人工智能或数据挖掘模型,并用该模型预测将来的系统访问是否存在风险。
《高端装备制造188体育app官网:自动化构建技术评测任务》
出题单位:达观数据
赛题奖金:¥5.5万
技术方向:188体育app官网: 关系抽取
难易程度:★★★
赛题背景:各种高端装备领域的故障案例文本是由业务专家或者专业维修人员撰写的描述相关设备异常以及故障排查步骤的记录,它的利用受到数据结构化程度的影响,因而识别数据中的部件单元、性能表征、故障状态、故障检测工具等核心实体及其之间的组成关系至关重要。
赛题任务:通过从大量故障案例文本抽取出部件单元、性能表征、故障状态、检测工具等实体及其关系,为后续高端装备制造业故障188体育app官网:构建和故障智能检修和实时诊断打下坚实基础。本任务需从故障案例文本自动抽取4种类型的关系和4种类型的实体(详见赛题页)。
《返乡发展人群预测》
出题单位:联通数科
赛题奖金:¥5万
技术方向:分类问题
难易程度:★★
赛题背景:近年来,随着新一线城市的快速发展,带领着我国经济稳步发展,新一线城市对人才的吸引力也逐年递增,紧追一线城市。越来越多的年轻人不再局限于在一线城市谋求就业机会,而是选择回到家乡就业。
赛题任务:基于中国联通的大数据能力,通过使用对联通的信令数据、通话数据、互联网行为等数据进行建模,对个人是否会返乡工作进行判断。
《小样本数据分类任务》
出题单位:智慧芽
赛题奖金:¥4.2万
技术方向:文本分类
难易程度:★★★
赛题背景:常见的分类体系有国际专利分类(IPC)、联合专利分类(CPC)、欧洲专利分类(ECLA)等,但这些分类体系比较复杂,专业性强,对非IP人员而言使用有一定的困难。
赛题任务:为了解决以上困难,智慧芽构建了一种新的分类体系,并提供958条训练数据,及对应36个类别的分类标签,要求选手设计一套算法,完成测试专利数据的分类任务。
自主平台赛道
热衷于研究算法,喜欢钻研?
快来【自主平台赛道】畅快体验!
《基于文心NLP大模型的阅读理解可解释评测》
出题单位:百度
赛题奖金:¥5万
技术方向:知识挖掘 阅读理解
难易程度:★★★
赛题背景:神经网络(NN)模型已经成功地应用于很多 NLP 任务并取得了不错成绩,但NN模型的黑盒性质降低了使用者对其结果的信任度,因此NN模型的可解释性、鲁棒性等问题受到广泛关注。为进一步推动模型可解释性研究的发展。
赛题任务:选手需使用飞桨(PaddlePaddle)深度学习框架,根据给定的一段文本T及与其相关的问题Q,从文本T中抽取问题Q对应的的答案,同时给出模型预测答案所依赖的证据。
《基于昇思MindSpore AI框架的肾脏肿瘤分割》
出题单位:华为
赛题奖金:¥5万
技术方向:文本分类
难易程度:★★★★
赛题背景:近年来深度学习方法在图像分割领域引起广泛关注,特别是UNet等网络在肿瘤分割中取得显著的效果,但其在结构设计、训练模式等方面仍有进一步提升空间。
赛题任务:参赛团队利用赛方所提供数据,分析数据特点,在华为昇思MindSpore AI框架上设计、开发可用于肾脏和肾脏肿瘤语义分割的算法模型,在测试集中得到最好的肾脏和肾脏肿瘤语义分割结果的模型为获胜者。
《基于TPU平台实现人群密度估计》
出题单位:算能
赛题奖金:¥5万
技术方向:人群计数
难易程度:★★★★
赛题背景:人群密度估计是计算机视觉中的一项重要任务,旨在同时识别各种情况下的任意大小的目标,包括稀疏和杂乱的场景。它主要应用于现实生活中的自动化公共监控,能够在公共安全管理、公共空间设计、数据收集分析等方面发挥重要的作用。
赛题任务:参赛者选用预训练的模型部署在算能TPU芯片上,无需自己训练模型;在实现模型部署的过程中,参赛者需兼顾精度与推理速度。
系统赛道
逻辑思维极强,善于构建方案?
快来【系统赛道】提升系统优化能力!
《SQL语句内存使用量预测系统》
出题单位:华为
赛题奖金:¥5万
技术方向:性能优化
难易程度:★★★★★
赛题背景:全内存查询引擎由于其高性能被广泛应用于各大厂商,但是它普遍面临的问题是,当SQL语句使用的内存超出了系统的内存大小时,就会导致SQL语句执行失败,甚至可能会导致系统崩溃。因此,在SQL运行前准确预估SQL内存的使用量对系统的稳定性尤为重要。
赛题任务:本赛题只涉及SQL语句内存使用量预测系统,重点在于根据SQL涉及的算子、表格数据量和参与计算的列等信息,建立一个内存使用量预测系统。
《数据湖流批一体性能优化》
出题单位:数元灵科技
赛题奖金:¥5万
技术方向:性能优化
难易程度:★★★★★
赛题背景:湖仓存储框架的流批一体读写性能,关系到数据能否快速、准确的摄入到湖仓中,并做高效的数据处理分析。而数据湖通常使用计算存储分离的设计,并且需要支持多种计算框架、支持对象存储等,给读写性能优化带来很大的挑战。
赛题任务:参赛选手可以选择一个数据湖存储框架,在保证数据正确性的前提下,通过调优参数、优化代码的方式来优化性能,提升写入速度。
《大规模金融图数据中异常风险行为模式挖掘》
出题单位:蚂蚁技术研究院
赛题奖金:¥5万
技术方向:图计算
难易程度:★★★★
赛题背景:业界常用的频繁子图挖掘算法可以帮助发现高频出现的子图结构,如何使用频繁子图挖掘算法高效地进行异常风险行为模式挖掘显得尤为重要。
赛题任务:赛题使用简化的金融仿真数据,数据为带有时间戳和金额的账户间交易、转账等数据。基于此数据自动挖掘出不小于频繁度(f >= 10000)的频繁子图模式集合。
数字安全专题赛
担忧大安全隐患,想保卫数字安全?
快来“战”出数字安全最优解!
《Linux跨平台二进制函数识别》
出题单位:360网络安全研究院、360未来安全研究院AI安全实验室
赛题奖金:¥8万
技术方向:文本预处理
难易程度:★★★★
赛题背景:设备平台环境的多样性导致了相同代码在二进制形式下的多样性,这种多样性给跨平台下相似代码的识别带来了巨大的挑战。
赛题任务:数据集分为训练集和测试集两部分,参赛选手需要先根据训练集中的样本数据自主设计算法模型,然后再对测试集中的函数进行相似匹配识别,从而尽可能多地找出与指定函数相似的其他平台下的函数。
《基于人工智能的漏洞数据分类》
出题单位:中国科学院信息工程研究所、360未来安全研究院工业互联网实验室
赛题奖金:¥8万
技术方向: