188体育app官网_188体育投注

返回首页
您的位置:首页 > 新闻 > CCF新闻 > 青年精英大会

YEF2025 | 在“数据封锁”中突围,高质量自主可控数据集的构建之道

阅读量:0 2025-04-29 收藏本文


(扫码报名) 



在数字化转型浪潮中,数据集是数字新基建的核心基座,其构建过程涵盖采集、清洗、标注、治理等多个环节。通过驱动大数据挖掘、AI模型训练、数据要素市场化配置,高质量数据集正在成为全球科技与产业竞争的核心。近日,美国国立卫生研究院(NIH)宣布全面禁止中国等国访问其核心生物数据库,切断了包括人类基因型-表型数据库dbGaP在内的多个关键数据资源。国内虽自有可观的数据来源,但数据集的质量和易用性仍有待优化。在“数据封锁”的大背景下,构建自主可控的高质量数据集已成为提升国家数据治理能力、强化科技自主创新的重要抓手,其中关键在于解决质量评估标准混杂、数据生产加工协同困难、数据采集标注规范不足等核心问题。本次论坛面向即将到来的“数据封锁”危机,旨在探讨高质量数据集评估标准、自主构建高质量数据集所面临的挑战及应对措施,梳理构建高质量自主可控数据集的目标方向、现存问题和可行路径。


论坛安排


顺序
主题
主讲嘉宾
单位
1
引导报告一:时空数据质量评估
陈璐
浙江大学
2
引导报告二:高质量数据集建设面临的挑战与破局
王治平
江苏省联合征信有限公司
3
引导报告三:人工智能高质量数据集建设实践
谭昶
安徽飞数信息科技有限公司
4
思辨议题一:见贤思齐,高质量数据集有哪些关键的评估维度?
马东升
苏州柏川数据科技有限公司
5
思辨议题二:临危思变,自主构建高质量数据集面临哪些挑战?
魏子恒
武汉大学
6
思辨议题三:处变不惊,如何实现全周期数据集质量保障机制?
王吴越
海淀数据要素综合服务中心


执行主席


尤玮婧

CCF YOCSEF福州分论坛候任主席,

福建师范大学副教授


福建师范大学计算机与网络空间安全学院副教授,硕士研究生导师,福建省高层次引进人才(教育科研类),CCF YOCSEF福州分论坛第9届主席(2025-2026年)。主研方向为数据要素确权技术。主持和参与国家多项国家和省部级项目。近年来围绕数据要素确权问题在国内外高水平学术会议和期刊上发表学术论文20余篇,申请或授权国家发明专利9项。多次担任S&P、ESORICS、DSN等国际学术会议,以及TDSC、CyberSecurity、Cluster Computing、《计算机学报》等学术期刊审稿人,ICCNC 2025本地会务主席。


共同主席


吴天星

CCF YOCSEF南京分论坛主席,

东南大学长聘副教授、院长助理


东南大学计算机科学与工程学院长聘副教授、院长助理、博士生导师,江苏省“双创博士”、江苏省“科技副总”。研究方向为188体育app官网:、大语言模型、人工智能应用等。担任中国计算机学会信息系统专委会、自然语言处理专委会执行委员,中国中文信息学会语言与知识计算专委会、大模型与生成专委会委员,CCF YOCSEF南京24-25年度主席,国际著名期刊International Journal on Semantic Web and Information Systems、Data Intelligence编委。主持国家自然科学基金面上项目、青年项目等多项纵横向课题。曾先后在SIGMOD、AAAI、ICDE、IJCAI、SIGIR、MM、IEEE TKDE、《计算机研究与发展》等会议和期刊发表论文60余篇,编写专著章节2篇,10余项国家发明专利获得授权。


引导嘉宾


陈璐

浙江大学研究员、国家级青年人才


浙江大学研究员,博士生导师,国家特聘青年专家(2021)。2016年6月获浙江大学计算机科学与技术专业工学博士学位,2016年10月至2017年9月在新加坡南洋理工大学担任博士后,2017年10月至2019年7月在丹麦奥尔堡大学担任助理教授,2019年8月晋升为副教授,2020年9月入职浙江大学且被聘为“百人计划(A类)”研究员。研究方向为多模态大数据管理。已在国内外顶级学术期刊或会议VLDBJ、TKDE、SIGMOD、VLDB、ICDE、SIGIR等发表论文80余篇,出版中文学术专著1部,授权发明专利8项。


报告题目:时空数据质量评估


摘要:数据质量评估是确保数据可靠性、可用性和决策有效性的核心环节,广泛应用于大数据分析、人工智能、企业信息化等领域。然而,现有的数据质量评估系统大多面向通用数据,对时空数据支持不足,质量评估准确性低。本报告浅谈讲者对数据质量评估的思考,分析了数据全生命周期(采集、存储、处理、应用)中的常见质量问题,如缺失值、异常值、冗余数据和逻辑冲突等,并系统梳理了时空数据质量评估的核心指标,包括完整性、一致性、准确性和公平性。

王治平

江苏省联合征信有限公司信息技术部总经理


博士,中国计算机学会大数据专家委员会执行委员,中国人工智能学会会员。目前担任江苏省联合征信有限公司信息技术部总经理、平台建设部总经理,负责人工智能、大数据技术在金融场景的研究与应用。曾任中兴通讯股份有限公司大数据技术总工、华为技术有限公司电信大数据首席技术规划。作为主要技术负责人承担工信部重大专项3项、科技部863项目2项,授权发明专利十余项。


题目:高质量数据集建设面临的挑战与破局


摘要:分析国家建设高质量数据集的必要性,结合国内目前高质量数据集的建设现状,从数据采集、数据标注、数据治理、应用合规等维度分析高质量数据集建设过程中的挑战,思考建设高质量数据集的合理路径。

谭昶

CCF大数据专委、智慧交通分会常委、

安徽飞数信息科技有限公司常务副总经理


中国科学技术大学计算机专业博士,教授级高工,现任安徽飞数信息科技有限公司常务副总经理,曾任科大讯飞副总裁兼大数据研究院院长。谭昶博士长期从事数据标注、智慧城市和个性化推荐等方向的大数据核心技术研发及应用推广工作,主持国家重点研发课题、国家发改委专项等研发项目,授权发明专利20余件,曾获安徽省科技进步二等奖(排名1)。谭昶博士的主要社会兼职有全国数据标准化技术委员会委员、中国计算机学会大数据专委会常委、智慧交通分会常委、人工智能专委会执委、数据治理发展委员会执委,中国互联网协会数字政府发展工委会副主任,合肥市数据产业协会秘书长。


题目:人工智能高质量数据集建设实践


摘要:高质量数据集是模型训练和性能提升的关键,但是高质量数据集的建设面临原始数据难获得、行业专家稀缺等困难。报告将结合数据合成、数据治理等技术在讯飞星火大模型中的建设实践,介绍高质量数据集构建思路。报告也将给出在不同企业的实践案例,介绍行业垂类高质量数据集建设实践和创新。


特邀嘉宾


马东升

苏州柏川数据科技有限公司CEO


柏川数据创始人兼CEO,毕业于南京大学,曾任职于华为,连续创业者。2021年创立柏川数据,定位“人工智能数据基础设施”,聚焦自动驾驶、大模型、具身智能等前沿AI领域,构建覆盖数据全生命周期的技术服务体系,业务辐射全球30+国家,累计服务吉利、奇瑞、上汽、长城、广汽、地平线等50+行业领军企业,助力全球AI产业智能化升级。


思辨议题:见贤思齐,高质量数据集有哪些关键的评估维度?

魏子恒

武汉大学教授、国家级青年人才


武汉大学计算机学院教授、国家级高层次青年人才,博士毕业于新西兰奥克兰大学。曾在新西兰奥克兰大学担任博士后研究员、在华为云担任主任工程师,主要从事数据库、数据智能以及数据挖掘技术的研究。在数据库、数据挖掘领、以及数据治理域发表学术论文30余篇,其中包括TODS、SIGMOD、VLDB、VLDB J.、ICDE、AAAI、SIGIR等CCF-A类会议以及期刊17篇,负责主持国家自然科学基金优秀青年科学基金项目(海外)。


思辨议题:临危思变,自主构建高质量数据集面临哪些挑战?

王吴越

海淀数据要素综合服务中心首席专家


海淀数据要素综合服务中心首席专家、海国投旗下海新域城市更新集团首席架构师,人工智能关键技术和应用评测重点实验室2024年度“数据委员会工作组/政务推进组工作组”贡献专家,百度飞桨技术专家PPDE。美国圣母大学法律博士、数据科学硕士。前北京市金杜律师事务所NLP业务负责人,前深圳数据交易所人工智能业务主管。主导建设开发金杜律所OCR中台、北京市政数局数据流通利用增值协作网络DataSeek Agent应用、北京市网信办数据合规GDPR智能审核助手。国家数据局、湖北省数据局相关课题主要起草人,支撑国家数据局、北京市政数局、中关村科学城管委会、海淀区数据局工作,多次参加国家、省、市级人工智能高质量数据集及人工智能产业标准制定并积极建言献策。LawGLM开源项目主要负责人之一。


思辨议题:处变不惊,如何实现全周期数据集质量保障机制?





会议介绍

由CCF主办的YEF2025将于2025年5月22-24日在横琴召开。此次大会由CCF会士、副理事长,华中科技大学教授金海担任大会主席,以“智辟新径”为主题,汇聚了中国计算机领域的青年精英及知名专家,共同探讨科技前沿,开启智慧新篇章。在三天的时间里,预计将组织7场特邀报告、2场大会论坛、1场思想秀、1场优秀大学生学术秀及22场专题论坛。