跟很多做数据的朋友聊下来,发现一个共性问题:多数人对数据治理的理解停留在“做做数据标准、搞搞质量稽核”的层面。不是说这些不重要,问题是——如果只盯着标准和质量,你永远在救火,永远在跟业务部门吵架,永远解释不清“治理了这么久为什么报表还是对不上”。
数据治理不是碎片化任务的集合,它有清晰的层次结构。本文梳理了数据治理的四个核心层次,以及每个层次企业应该做什么、注意什么。
第一层:摸清家底——元数据和数据资产盘点
数据治理的起点不是定标准,而是搞清楚自己有什么。
这句话听起来像废话,但实际上多数企业跳过了这一步。他们一上来就定标准、建平台、搞质量稽核,然后三个月后发现标准推不下去,因为没人说得清“企业到底有哪些数据、数据在哪些系统里、谁在用、谁负责”。
元数据管理是第一层的地基。技术上,元数据分为三类:
技术元数据:表结构、字段定义、数据模型、ETL逻辑、调度依赖关系。这是IT团队最熟悉的。
业务元数据:字段的业务含义、计算口径、数据来源系统、更新频率。这是业务团队需要参与定义的。
操作元数据:数据被访问的频次、最近一次使用时间、数据血缘。这是指导后续治理优先级的依据。
这一层的工作重点是“盘点”而非“管控”。目标是形成一个能回答以下问题的数据地图:
企业有多少个业务系统?每个系统有哪些核心数据表?
每个核心字段的业务含义是什么?不同系统间的同一字段定义是否一致?
关键报表的数据链路是怎样的:从源系统→ODS→DW→报表,中间经过了哪些加工?
哪些数据三个月以上没人访问过?哪些数据被频繁使用?
这个阶段最容易犯的错误:把元数据管理等同于“建一个元数据平台”。工具是辅助,真正的工作是推动业务部门和IT部门坐下来,逐表、逐字段地确认业务含义和数据责任归属。这个过程很枯燥,但它是所有后续治理工作的前提——没有共识的数据地图,标准就定不下去。
第二层:建立规矩——数据标准与数据模型规范
盘清了家底,接下来要回答一个问题:同样的数据,在不同系统里为什么长不一样?
这是第二层要解决的。数据标准不是“规定字段名用下划线还是驼峰”这种层面的东西,而是在业务层面定义“一个客户”“一笔订单”“一个产品”在企业级范围内应该有怎样的统一定义和表达规则。
这一层的核心工作有三项:
第一,制定企业级数据标准。关键是区分“业务标准”和“IT规范”。很多企业把数据标准做成了“开发规范”——只约束了字段长度、命名方式、数据类型,没有触及业务层面的定义共识。真正有效的标准应该包含:业务术语的统一定义、核心数据项的计算口径、编码规则、数据格式规范。举例:CRM系统中的“签约金额”和ERP系统中的“合同金额”是不是同一个概念?如果不是,定义差异在哪里?这是标准需要回答的问题。
第二,建立数据模型规范。数据模型是数据标准的落地载体。如果标准是“宪法”,模型就是“部门规章”——把标准变成可执行的表结构设计规则。包括:维度建模的规范、命名规范、字段冗余策略、分区策略、拉链表的处理方式等。需要注意的是,数据模型规范必须由“数据架构师”角色统一维护,不能让每个ETL开发人员按自己的习惯设计。
第三,主数据管理。这是第二层里最容易产生业务感知的工作。主数据(客户、供应商、产品、组织架构等)是企业最核心的共享数据实体,“一处录入、多处复用”。主数据管理的难点不在技术,而在责任归属——谁来维护客户主数据的唯一可信源?CRM部门?销售运营?数据团队?如果这个问题不解决,主数据管理就是空中楼阁。
这个阶段最容易犯的错误:标准定得太理想化,不考虑历史系统改造的成本。正确做法是先明确“新系统必须遵守标准,老系统制定迁移计划分阶段对齐”,不要把标准变成一纸空文。
第三层:持续稽核——数据质量闭环管理
标准和模型建立之后,治理进入了“运营态”。第三层的核心是建立一个数据质量的闭环管理机制:发现问题→定位根因→修复→验证→预防。
数据质量的监控维度,行业通用的是六个:
完整性:该有的数据有没有?比如客户表中手机号字段的空值率。
准确性:数据是否符合客观事实?比如地址字段是否真实存在。
一致性:不同系统间同一数据是否匹配?比如CRM和ERP中的客户名称是否一致。
时效性:数据更新是否及时?比如销售数据的T+1入仓是否在早上8点前完成。
唯一性:是否存在重复数据?比如同一个客户在系统中有两条记录。
有效性:数据是否符合业务规则?比如订单金额不能为负数。
实操中的关键不是“监控维度”,而是“闭环速度”。很多企业花了大价钱建了质量监控平台,产出了一堆质量报告,但问题的修复责任不明确,数据质量问题变成了“数据团队的报告、业务团队的无视”。
一个有效的闭环流程是这样的:
质量规则配置(由业务方和数据Owner共同确认)
自动监控+异常告警(明确到责任人,不是群发邮件)
根因分析(是源系统录入问题?是ETL加工逻辑缺陷?还是业务规则变更未同步?)
分级处理(P0问题2小时内响应,P1问题24小时内修复,P2问题纳入迭代计划)
修复验证+规则复盘(这个质量规则本身是否合理?是否需要新增规则?)
这个阶段最容易犯的错误:质量监控沦为“数据团队的KPI”——数据团队自己看、自己改、自己关环,业务方不参与。数据质量的第一责任人永远是数据生产方(业务系统和使用者),不是数据团队。
第四层:释放价值——数据资产化与服务化
治理的终极目的是使用。第四层要回答的问题:治理之后,数据有没有更好用?有没有产生新的业务价值?
这一层的关键转变:从“管控思维”转向“服务思维”。前三个层次的核心是“管住”——管住标准、管住质量、管住元数据。第四层的核心是“放开”——让合规的数据能被高效地找到、理解、使用。
具体包含以下工作:
数据资产目录建设。区别于第一层的技术元数据平台,数据资产目录面向的是业务数据消费者。它需要用业务语言描述数据:这个数据集是什么、覆盖什么业务场景、更新频率如何、数据质量评级、典型用法示例。好的数据资产目录能让一个懂业务但不懂SQL的产品经理,通过搜索找到需要的数据并理解是否适合自己的分析场景。
数据服务化。将高频使用的数据封装成标准化API或数据服务接口,降低数据使用门槛。从“给业务部门导出一张表”变成“提供一个自助查询的数据接口”。这需要数据团队具备产品化思维:哪些数据需求是高频的?哪些数据组合是业务常用的?主动包装,而非被动响应。
数据价值评估与运营。尝试回答:某一张表或某一个数据资产,被多少业务场景引用?创造了多少间接价值?这听起来很理想化,但方向是明确的——如果数据治理无法回答“治理投入和业务价值之间的关系”,这项工作就容易在预算周期中第一个被砍掉。
这个阶段最容易犯的错误:在数据质量还没达到“可用”标准时就急于做数据服务化——“巧妇难为无米之炊”的数字化版本。第四层必须在第三层基本成熟的基础上推进。
四个层次的关系:不是串行,而是螺旋上升
很多企业把四个层次理解为“一个阶段做完了才开始下一个阶段”。实际操作中,四个层次是重叠推进、螺旋上升的。
一个务实的推进节奏:
0-6个月:以第一层为主,完成核心业务域的数据资产盘点,建立元数据基线
6-12个月:第一层持续深化,启动第二层标准制定,选取1-2个核心主数据对象试点
12-18个月:第二层标准推广,启动第三层数据质量监控,先覆盖核心报表的数据链路
18个月以后:第三层持续运营,条件成熟时启动第四层数据服务化
这个节奏的底层逻辑是:治理的范围不是一步到位的,而是从一个业务域、一个数据链路逐步扩散到整个企业。试图“一次性治理所有数据”的企业,没有一个成功的。
梳理到这里,一个自然的结论是:数据治理真正的难点从来不是技术,而是跨部门的责任归属和共识达成。四个层次中任何一个被跳过或敷衍过去的环节,都会在后面的层次中加倍反弹回来。那些“治理了一年却看不到效果”的企业,十有八九是第一层没有做扎实——连数据地图都没有就在定标准,怎么可能推得动。
本文基于个人在数据治理领域的实践经验整理,欢迎交流讨论。