首页 > 新闻 > 长三角 > 华东都市圈 > 江苏

江苏4个!国家数据局发布首批高质量数据集典型案例

时间:2025-08-31 浏览:

在8月28日至30日召开的2025数博会上,国家数据局正式发布首批104个高质量数据集典型案例名单。江苏有4个案例入选。

高质量数据集,对全社会意味着什么?当前,数据已成为驱动各行业发展的核心生产要素,高质量数据集更是模型训练的基石和核心稀缺要素。“没有优质的数据集,再先进的算法难以突破智能边界,再强大的算力底座也可能出现无米之炊,更是难以支撑人工智能迈向通用智能的终极目标。”中国工程院院士吴世忠在现场表示。

行业对高质量数据集建设的热情,从发布会现场的火爆程度,也可见一斑。记者了解到,发布会现场“一座难求”,有很多人是“站票”看完全场。

会场内火爆十足,会场外也是热度满满。今年上半年,全国各地建设高质量数据集超过3.5万个,总体量超过300PB(1PB可存储约5亿张2MB大小的高清照片),为人工智能模型性能的快速提升奠定了良好的数据基础。交易热度持续攀升,各地高质量数据集累计交易额已达40亿元,交易机构挂牌3364个高质量数据集,总规模达246PB。

此次发布的首批“高质量数据集典型案例”,是国家数据局战略布局的成果,展示了我国在农业、医疗、通信等领域的深度融合应用。其中,江苏有4个典型案例入选,分别是:中移(苏州)软件技术有限公司申报的“中国移动研发大模型高质量数据集”、南京莱斯信息技术股份有限公司申报的“公共信用档案高质量数据集”、南京南自信息技术有限公司申报的“中国华电发电智能巡检与安全管控高质量数据集”、中节能太阳能科技(镇江)有限公司的“节能光伏一体化综合能源高质量数据集建设”。

中移(苏州)软件技术有限公司于2014年3月在苏州注册成立,是中国移动通信集团的全资子公司。此次该公司入选的“中国移动研发大模型高质量数据集”,目前已完成高质量数据集构建,总数据量超10TB,覆盖技术类中文语料、图片代码对数据、文字识别数据、通用文本数据、图像数据等8类17个数据集。在经济效益方面,研发大模型在公司内外部得到广泛应用。在社会效益方面,研发大模型数据质量提升和评分方法,可复用到工业、金融、交通等各垂直领域行业大模型数据质量的提升和评估中,指引垂直行业大模型数据质量不断提升。

为解决“无标准难识别”“数据散难处理”“源头多难追溯”等难题,南京莱斯信息技术股份有限公司建设了“公共信用档案高质量数据集”。通过数据全链条精细化治理,构建公共信用档案高质量数据集,形成覆盖市场主体的公共信用档案。目前,数据集已对接47个部委、31个省级单位及兵团。截至今年6月,累计归集数据超800亿条,覆盖1.8亿以上社会法人和8亿自然人,年增量稳定在20亿条以上。广泛应用于政务服务、民生领域、优化营商环境、社会治理等领域,有效提升行政管理效能,降低市场运行成本。

南京南自信息技术有限公司此次成功入选的是“中国华电发电智能巡检与安全管控高质量数据集”。在我国加速构建新型能源体系与人工智能垂域深度融合的背景下,本案例克服视觉、声纹在发电领域面临异常种类多、正样本缺乏、感知环境复杂等挑战,构建覆盖“风电、光伏、水电、火电”全发电类型的智能巡检、安全管控视觉数据集 , 大型转动设备声纹等数据集。构建了数据集采集、标注、更新迭代、场景应用的标准体系,推动行业发展。

中节能太阳能科技(镇江)有限公司的“节能光伏一体化综合能源高质量数据集建设”典型案例,通过节能光伏一体化综合能源高质量数据集建设,将综合能源系统从“经验驱动、局部优化”的传统模式,升级为“数据驱动、全局最优”的智能体,重点建设构建光伏行业开放共享、多场景的一体化高质量可信数据管理业务全流程与应用生态场景建设,为行业客户提供一体化的绿色低碳运营场景和交付服务能力。

新华日报·交汇点记者 聂伟

猜你喜欢: