中宏网北京6月15日电(沈怡然)近日,国家数据局正式发布《关于推进行业高质量数据集建设行动的实施方案》(下称《方案》)。作为“十五五”开局之年数据要素领域的里程碑文件,《方案》围绕数据扩容、标注提质、标准建设、场景应用、全生命周期管理、数据资产化等层面部署六项重点行动。
未来,数据将和土地、劳动力、资本等并重,成为可使用、可交易、可创造收益的新型要素与资产。本网就此专访清华大学服务经济与数字治理研究院副院长、公共管理学院副教授高宇宁。
高宇宁表示,《方案》标志着我国数据要素建设正从基础规则搭建,迈入数据加工利用、价值变现的新阶段,不同于以往的数据领域政策,《方案》是国家层面首次对数据赋能人工智能发展作出的系统性部署,为“十五五”时期数字经济与人工智能产业发展夯实制度基础。
认识行业高质量数据集
行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的行业数据的集合,包含行业通识和行业专识数据集。
据国家数据局消息,截至今年一季度,全国已建成高质量数据集超过11.6万个,总体量超过960PB,相当于中国国家图书馆数字资源总量的336倍左右。
“传统数据普遍杂乱残缺、格式混乱,而高质量数据集经过清洗、梳理、标注,内容完整准确,人工智能模型可直接训练使用,无需复杂的二次加工处理。”高宇宁表示,同时在伦理合规层面,这类数据严守法律和伦理规范,避免智能应用出现偏差问题,就像给大模型“喂好料”才能保障它的输出准确可靠。此外,这类数据集融入各领域专业知识,贴合实际应用场景,能够支撑人工智能在工厂、医院、交通道路场景执行专业任务。
当前我国人工智能产业发展迅速,头部企业正大量使用网络公开的通用数据来训练人工智能模型。高宇宁坦言,行业发展随之遭遇瓶颈,劣质数据更容易让人工智能系统出现幻觉、判断失误、答非所问,难以满足更复杂的使用需求,因此市场对合规、优质的专业数据集需求持续攀升。《方案》出台的核心目标,就是破解当前人工智能产业高质量行业数据集供给短缺问题,补齐产业发展的关键短板。
六大行动激活数据价值
《方案》围绕数据全流程部署了六大专项行动,分别是强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放,覆盖数据供给、加工、应用、管理、资产转化等各个环节。目前国内已建成7个国家级数据标注基地,累计形成524个行业高质量数据集,赋能163款国产大模型研发。
高宇宁表示,专项行动中,标注、标准是基础。数据标注即给原始数据打上分类、释义等标签,方便人工智能模型的识别理解。目前我国已启动高质量数据集相关国家标准研制工作。
高宇宁认为,完成数据标注、统一质量标准,数据集才能成为市场认可的标准化产品;而价格体系是最终落脚点,也是数据要素真正融入市场经济循环的核心。
值得注意的是,《方案》明确提出了数据的价值释放。国家数据局曾发布的《全国数据资源调查报告(2025年)》显示,数据流通活跃度不断提高,2025年全国数据跨省流通总量同比增长19.01%。
高宇宁强调,当前产业仍然面临“有数据、难变现”的困境,全面探索数据商业化、资产化路径,集中出现数据集挂牌交易(即在正规数据交易平台公开售卖合规数据集)、多元商业模式、数据资产化等前沿内容,也是对当前产业自发探索行为的规范化引导。
政策释放积极信号
《方案》以鼓励引导的基调,向市场释放出清晰的信号。高宇宁表示,可以看出,国家层面意识到数据要素与人工智能产业的卡点、堵点并积极引导施策,明确在“十五五”及未来更长时期,认可并规范数据市场化交易与资产化发展。政策鼓励探索数据集质押融资、作价入股、资产证券化、数据信托、数据保险等多元资产化创新模式,拓宽数据价值转化渠道。
与水、电、油气等传统生产要素相比,数据的特殊性在于关联个人隐私、商业机密及数据安全。“业内在数据交易、资产化推进过程中一直较为保守审慎,也缺乏共识。”高宇宁表示,《方案》政策鼓励数据集交易、质押、作价入股等行为,推动全社会形成“为高质量数据付费”的市场共识,体现了“发展与安全并重”的思想。
政策落地也将催生大量新业态、新岗位。高宇宁认为,随着全产业链价值共创,接下来有望出现数据测评、数据资产服务、词元结算(即以人工智能识别信息的最小单元为依据进行计费结算)等新兴服务赛道,催生一批新岗位,例如智能化数据标注工程师、行业专家型标注员、数据集合规管理员、数据资产运营师、词元结算专员,拓展就业渠道。而工业、医疗等领域“数据+应用”的融合新模式也将不断涌现,推动数据要素产业走向精细化、多元化发展,垂直行业人工智能应用深度普及。