引言
也是许久没有更新文章了,这段时间一直在忙科研和学术类的事宜,研究AI4S的内容,成果也颇为显著,后续计划也会做一些分享,主要分享如何把自己的项目成果转化为软著、专利、论文之类的以及基于这些成果如何去申报省级、市级的奖项。
这篇高质量数据集建设的文章,是我近期在参与交通行业数字化转型项目中的一些思考和总结。随着人工智能技术在交通领域的深入应用,高质量数据集的重要性日益凸显,它不仅是AI模型训练的基础,也是交通智能化升级的关键支撑。
在实际项目中,我发现许多交通行业从业者对如何建设高质量数据集存在困惑,要么不知道从何入手,要么缺乏系统的方法和工具。因此,我希望通过本文,结合实践经验,为大家提供一份全面的指南,帮助大家从0开始认识和建设交通高质量数据集。
背景与建设基础
政策背景
近年来,国家陆续出台了一系列政策文件,为高质量数据集建设提供了明确的方向和强有力的支持。
2024年1月,国家数据局会同多部门联合印发《“数据要素x”三年行动计划(2024-2026年)》,明确提出“建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练”

2024年11月23日,《可信数据空间发展行动计划(2024—2028年)》明确提出:在科技创新领域,推动基础科学数据集、高质量语料库汇聚,促进人工智能驱动的科研范式创新应用。

2024年12月30日,《关于促进数据产业高质量发展的指导意见》,由国家发展改革委、国家数据局、教育部、财政部、金融监管总局、中国证监会联合印发,首次提出“高质量数据集”,旨在促进数据产业高质量发展。

2025年2月19日,高质量数据集建设工作启动会在北京召开,国家发展改革委、教育部、科技部、工业和信息化部、公安部、人力资源社会保障部等27个部门有关司局负责同志参加会议。

2025年12月30日,新华社发文《 我国建成高质量数据集超10万个,规模超890PB》里面提到,国家数据局局长刘烈宏表示“我们将2026年明确为‘数据要素价值释放年’。”

建设标准:2025年陆续推出相关标准草案
《高质量数据集 分类指南》(TC609-5-2025-03)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据集提供一套清晰、统一的分类体系与方法,以解决当前高质量数据集分类标准缺失、类型界定模糊的问题,从而优化数据资源的供需匹配与流通应用,更好地支持不同类型人工智能模型的开发与训练。

《高质量数据集 格式要求》(TC609-5-2025-02)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据集提供统一的元数据格式规范,以解决数据集格式不规范、不统一的问题,促进数据集的可读性、可交换性与流通应用。

《高质量数据集 质量评测规范》(TC609-5-2025-04)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据集的质量评测提供统一的指标体系和评测细则,以支持人工智能模型开发与训练中的数据质量保障工作。

《高质量数据集 建设指南》(TC609-5-2025-01)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据集的建设提供全生命周期的指导,推动我国人工智能数据基础设施的规范化发展。

这些政策的出台带来了明显的变化,我们在项目中接触到的交通管理部门,从原来的"重建设、轻数据"逐渐转变为"数据驱动决策" 的理念,开始重视数据的质量和价值,这也为开展高质量数据集建设工作创造了良好的环境。
什么是高质量数据集
在项目实践中,我经常被问到:"到底什么是高质量数据集?"这个问题看似简单,实则涉及多个维度的考量。根据我们的实践经验和相关标准规范,我们可以给出一个基本的定义——高质量数据集是指经过采集、 加工等数据处理, 可直接用于开发和训练人工智能模型, 能有效提升模型表现的数据的集合。

高质量数据集分类及特征
高质量数据集大致可以分为三大类,分别是通识数据集、行业通识数据集和行业专识数据集。
其详细对比如下表所示:
| 对比维度 | 通识数据集 | 行业通识数据集 | 行业专识数据集 |
|---|---|---|---|
| 核心定位 | 面向社会公众的基础性知识数据集,是人工智能大模型训练的核心基础数据资源 | 衔接通用知识与行业专业知识的关键型数据集,行业数字化建设的基础数据支撑 | 行业知识体系中聚焦细分专业领域、承载深度专业知识的核心数据集,为行业通识数据集的深化与延伸 |
| 知识内容 | 以基础概念、通用原理、典型事例等常识性知识为核心 | 根植于行业共性知识体系,围绕行业基础理论、通用技术规范、共性业务流程构建 | 高度聚焦行业内部核心专业知识,提炼自研发、生产、管理、营销、服务等全业务环节实践积累 |
| 面向人群 | 社会公众 | 各行业领域从业人员、相关研究人员 | 行业内部核心业务人员、技术研发人员、专业运营人员等 |
| 专业背景要求 | 无特定专业背景要求,可直接理解 | 需要一定的行业专业背景 | 需要较深的行业细分领域专业积淀与实践认知 |
| 数据来源 | 无明确边界限制,涵盖百科、问答平台等网络公开资源,综合类书籍等传统出版物,及合成数据技术生成内容 | 来源清晰规范且具行业权威性,包括行业专业文献资料、行业权威机构公开数据、行业定制化合成数据 | 专属化、内部化且来源可控,为机构自主生成与定向采集,包括内部核心业务系统/管理平台、内部专属文档图纸等文献,无外部公开数据泛化采集 |
| 时效性 | 整体较低,核心知识可长期保持稳定,极少频繁变更 | 相对稳定,时效性介于通用通识知识与行业专业知识之间,适配行业整体发展与管理规范调整 | 高动态、强适配,时效性远高于前两者,随细分业务场景需求及时更新,满足数据处理及时性要求 |
| 标注人员要求 | 制作门槛低,由普通标注人员内部完成,无特殊专业要求 | 有明确专业能力要求,由具备行业学科背景或相关从业经验的专业人员完成 | 要求极高,由具备深厚细分专业知识、丰富一线实践经验、较高专业权威性的行业专家/技术带头人/资深业务骨干完成 |
| 数据敏感程度 | 较低,不涉及国家秘密、工作秘密、商业秘密、个人隐私 | 较低,严格规避各类敏感信息,仅收录行业公开共性知识与规范内容 | 显著高于前两者,包含机构内部核心业务关键信息、专业技术细节等专属内容 |
| 使用权限 | 无特殊权限要求,具备良好的公开性和可用性 | 无特殊权限要求,具备良好的公开性和可复用性 | 仅限组织机构内部使用,对外不公开、不流转,应用全流程需严格的权限管理与授权审批 |
| 主题覆盖范围 | 极为广泛,兼具通用性与广泛性,无领域限制 | 中等,聚焦所属行业核心领域,同时覆盖上下游及周边相关行业共性知识,兼具聚焦性与关联性 | 较窄,高度聚焦行业内部具体业务场景与细分专业领域 |
| 核心应用场景 | 支撑通用人工智能模型、各领域基础行业模型的开发与训练,为模型构建基础知识认知体系 | 支撑通用人工智能模型的行业知识赋能升级,及各行业基础模型的开发、训练与优化,帮助模型构建贴合行业实际的基础认知体系 | 支撑行业专业模型的开发与训练,为打造行业细分领域专属大模型提供个性化、定制化数据支撑 |
| 典型案例 | Kaggle平台上的各类通用高质量通识数据集 | 基于隐私计算技术的政务通数据集、地址标准化数据集 | 城市治理行业-地铁隧道监测数据集、政务服务-政务热线智能办数据集 |
上面字数太多了,大家也可以直接看我的这个示意图:

与传统数据建设差异
不同于传统数据资源体系建设,高质量数据集的核心目标是精准服务 AI 场景(数据消费者),围绕模型全生命周期的不同阶段,梳理并供给适配的知识与数据内容,数据形态和格式呈现多样化特征,聚焦为模型训练、微调、推理等环节提供适配的数据支撑,而非对现有结构化数据的梳理整合。
例如,在模型训练阶段,一般都是以原始文本标注数据为主来适配不同类型模型的基础训练需求,为模型构建基础认知能力提供数据支撑。在模型微调阶段,可以使用以问答对形式的数据为主,针对特定场景优化模型能力,让模型更贴合细分场景的业务逻辑。在模型推理阶段,可以以层次化索引知识为主,支撑模型高效推理与知识调用,如政策法规知识库、专家经验知识库等,保障模型在推理环节的精准性与效率。
这种阶段化、适配性的数据供给,本质是“场景驱动”建设逻辑的具体落地,所以这里我们必须要强调说明的是:高质量数据集的建设并非盲目推进,而是始终以具体 AI 智能场景为出发点的。

在数据集的具体建设落地环节,核心聚焦“建什么、怎么建、如何交付”,重点从定义与工程交付两大维度推进,确保数据集可落地、可使用、可适配模型需求。
在定义维度,需明确数据集的核心基础信息,包括数据集名称(如安全隐患识别标注数据集、政务政策问答数据集)、对应使用场景(如训练安全隐患识别小模型、支撑政务推理场景)、数据集分类(如应急领域、政务领域、安全监管领域等)、数据集分级(如一般数据、安全分级数据等),以及数据集内容描述(如数据特征、标注规范、问答对数量、索引知识范围等),为后续建设与使用提供清晰指引。
在工程交付维度,需提供完整、标准化的交付内容,确保数据集能够直接对接模型开发流程,降低使用门槛。具体包括描述信息(详细的数据集说明文档,明确数据来源、格式、使用规范等)、数据样例(如标注文本样例、问答对样例、索引知识样例及对应标注信息、图片样例等)、数据集文件(含完整样本数据、元数据,保障数据完整性与可追溯性),以及明确的使用方法(如数据调用方式、适配的工具链,支持Python直接调用,可与主流数据科学、模型开发工具打通)。
从全流程实施来看,遵循“场景→模型→数据集识别规划→数据集实施→评测→上架使用”的闭环流程,确保每一个环节都围绕场景与模型需求展开。
高质量数据集示例:面向模型的数据融合服务
我也不多说了,大伙直接看图吧(原图有敏感信息,这里脱敏了一下):

这里是以交通行业为示例,也可更可延伸至政务、医疗、工业等各类垂直场景,核心在于抓住“场景适配”与“全生命周期支撑”两个关键,才能真正发挥数据的赋能价值,让AI模型从“实验室”走向“实际应用”,切实解决行业痛点、提升业务效率,这也是高质量数据集区别于传统数据资源的核心竞争力所在。
主要建设过程

在我们先确定或者先构想出一个大致场景时,第一步就是要进行一个基本的需求调研,明确需要哪些类型的数据、数据的精度与粒度要求、数据的可用范围,同时构建起衡量数据质量的核心模型,确保后续所有工作都围绕真实的业务痛点与场景目标展开。
这里的数据质量模型其实也是个很抽象的玩意,它的衡量方式感觉目前也没有统一标准,我们摘取了百科上的一段话来进行定义:数据质量模型是一种用于评估和管理数据质量的模型。其内涵通常通过多个质量维度来体现,如准确性、完整性、时效性、一致性等,并构建了包括基础模型、定义模型、控制模型、评价模型在内的典型构成。随着数据应用的发展,该模型从通用领域延伸至教育等具体场景,并强调数据质量取决于用户使用的“适用性”特点。
以 “未来 1 小时交通流量预测” 场景为例,需求调研阶段便会清晰界定:需要 T0 时刻的车流量、天气特征、日期特征、上游路段汇入流量等数据,以及 T1 时刻的实际车流量作为标签,同时明确数据的时间粒度、覆盖范围,以及用预测准确率等指标来衡量数据质量,为后续环节划定清晰边界。
在完成需求调研后,接下来就是数据规划环节,需要将抽象的需求转化为可执行的步骤,对数据进行分类、定义与整合,核心是把需求调研阶段的 “要什么数据”,转化为 “数据长什么样、怎么管” 的具体框架。
以 “未来 1 小时交通流量预测” 场景为例,将数据划分为特征数据(T0 时刻车流量、天气、日期、上游汇入流量)和标签数据(T1 时刻实际车流量),同时进一步细分特征数据的类型(结构化监测数据、非结构化气象文本),为后续采集与处理明确方向;同时,梳理不同数据源的关联逻辑,比如将交管系统的车流量数据与气象平台的天气数据通过 “时间戳 + 路段 ID” 进行关联,形成统一的数据关联规则,同时明确数据整合的优先级,保障数据的一致性与可用性。
后面的步骤,就和传统的数据集处理步骤大差不差了,通过数据采集与预处理,从各类渠道获取并 “提纯” 数据,去除噪声、规整格式,接着依托专业的数据标注,为数据赋予可被模型理解的意义,最终在发布验证环节,用模型的实际表现反向验证数据集的适配性,若未达预期则反馈优化,直至完全满足场景需求。
未完待续~