选型宝访谈:怎样构建统一、共享的主数据平台,打造真正干净的数据治理能力?

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 今天,商业环境瞬息万变,竞争日益加剧。无论你是什么行业,你都无法回避的一个关键词是“数字化转型”。通过数字化转型,让企业变得敏捷,成为一种时代精神,也是我们这代IT人的使命。然而,无论是业务层面的创新需求,还是决策层面的数据分析需求,都要干净、准确的业务数据作为支撑。

今天,商业环境瞬息万变,竞争日益加剧。

无论你是什么行业,你都无法回避的一个关键词是“数字化转型”。通过数字化转型,让企业变得敏捷,成为一种时代精神,也是我们这代IT人的使命。

然而,无论是业务层面的创新需求,还是决策层面的数据分析需求,都要干净、准确的业务数据作为支撑。只有拥有一个规范的、干净的数据基础,才有可能谈创新,才有可能在复杂多变的商业环境下,做出科学的决策,数字化转型战略才有机会落地。

在企业纷繁复杂的数据里,有一类数据事关全局,例如:客户数据、产品数据、员工数据…这些数据被频繁复用、影响全局,正在成为数据治理中的难点、痛点。

主数据管理系统正是以这些共享的、静态的数据为抓手,尝试通过建立一个统一的、共享的管理系统,通过治理和规范,形成打造真正干净的数据治理能力。

然而作为一类重实施的项目,主数据管理的实施并不简单,其中有诸多脏活、累活,项目实施风险很高。

主数据管理项目实施风险有哪些?

主数据产品选型关键注意事项是什么?

带着这些问题,选型宝采访了Stibo Systems 大中华区专业服务总监张金良先生。

干货满满,尽在访谈实录中…

本次访谈的观点精华

选型宝:在您看来,什么样类型的数据属于主数据,它跟其它的数据是一个什么样的关系?

张金良:主数据有三个标准,第一个就是唯一性,这个好理解,既然做主数据一定是唯一的,不能有重复的,这是唯一性。

第二个就是共享性,主数据一定要是在整个企业的业务系统中能够一直在流转的,各个系统都会使用的,这种是共享性。

第三个是静态性,这个数据是相对于静态,不是变化频率特别高的,不像我们的交易数据可能一分钟变几十次这种,它的数据相对静态。

一般来说我们会拿这三个标准来去进行一个梳理,这是传统的主数据定义的一个概念。当然现在对于主数据可能有一些外延或者有一些管理方式的变化,但是它的数据层面界定,我们基本上还是以这个为主。

业务数据之间跟主数据的关系,其实就是主数据是业务数据的基础,主数据到了各个业务系统,我会去补充它的一些业务属性,这样的话这个数据可能会更加丰富。

同时还有一些业务数据,交易性的数据,在跑的时候其实是拿主数据作为基础数据来去生成的。所以主数据是所有数据里边最基础、最核心的一部分。

选型宝:主数据管理跟数据治理这两个概念,我们应该怎么去理解它们之间的关系呢?

张金良:其实主数据跟数据治理,我们的简单理解,它们相互合作,是共同帮助企业提高数据质量。

其实数据治理它属于数据管理中的一部分,主数据管理又是数据管理中最核心的一部分。

企业在做数据治理的情况下,首先要有主数据管理,要有数据标准、规范,需要建立成熟的主数据管理流程,那基于这个,再做数据治理,包括数据清洗,至少我们说有法可依,你要依据哪一种标准来去进行数据的清洗,数据治理,那如果你的标准不定的话,你这数据只能越来越乱,今天我是这个标准我要这么去做,明天另外部门我另外一个标准,那数据肯定会乱的,一定要有一个统一的标准。

主数据管理,就是他把主数据层面的整个标准流程,包括一些定义落地,能保证这些数据的质量,那以这个为基础,我再去做数据质量,那就更加容易一些。

我们认为主数据管理,是整个数据管理中最核心的基石部分。

选型宝:一般而言,企业实施主数据系统,会经历怎么样的一个历程?

张金良:一般来讲,分为以下几步:

第一步 主数据的界定

我们要去做一些宣贯,跟客户讨论,他们什么样的数据是主数据,这个过程叫主数据的界定,或者叫主数据识别。界定的标准就是刚才说的唯一性、共享性、静态性。

第二步 确定主数据的维护流程、标准规范

访谈完之后,确定其这些数据维护的标准规范,如果是合理的,我可以研究它们,如果有一些可以变化,可以去改变,或者优化的,我们会给出一些意见,要细到字段级,我的数据类型是什么样的、大小,长度等等,这是一些主数据标准上面的东西。

同时也要帮客户梳理数据维护流程,未来参与这个流程大概都是谁,每一个流程节点的角色,应该是什么样的人,推荐什么样的人去担任这样的职务,去负责这一块。

因为你这个数据标准它也不是说一成不变的,之前定完之后,后边还会经常有一些变化,这个时候一定要有专门的人或者是组织办这个事。

第三步 历史数据清洗,进入主数据系统

数据清洗是主数据里边实施的一个很大的部分。数据如果质量不高,是脏数据、乱数据,进了主数据系统里,它还是脏乱的。如果没有数据清洗,我只不过是把脏数据,从这个地方拿了一个备份,放到另外一个地方,没有解决根本的问题。

结合确定的标准规范,对历史数据进行清洗,确保清洗以后,干净的数据进入主数据管理系统。

第四步 数据映射

清洗以后,主数据系统里存的是唯一可信的数据,在业务系统中,可能存在于重复的数据,或者数据质量很差,在这种情况下,要去做这种映射。

主数据管理系统把清洗过的数据,回推给业务系统,然后再一个保留映射的关系,因为交易在跑,如果把数据完全改的话,可能就原来的这个系统单据,这种历史数据可能走不下去了,所以说可能是要有映射关系,有一个过渡的过程。

选型宝:项目上线以后,怎样的机制,保证新产生的数据符合规范?

张金良:通常,我们讲究一个事前、事中、事后的一个概念。

事前,数据进来之前,要校验,质量不好的话,有问题的,我不要,这是一种。

另外一个我在里边维护的时候,因为人为做会有失误,不能保证人做的都是对的,在这个情况下,事中的时候,也会有一个监控跟治理的过程。

事后,主数据系统往业务系统推数据的时候,也一定是要按照符合业务系统要求规范,推下去。

整个这三部分,事前、事中、事后,都要有数据管理体系,而在我们的组数据产品,Stibo里边,其实有这些功能的。

比如说我会有一些校验接口,哪怕你是用自己的业务部门来去维护,你也是要到主数据系统的接口来进行数据校验,保证进来数据是OK的。

同时在里边,我们会有一些数据质量分析的报表,定期的去跑,有问题的话直接就能提示你这些数据有哪些问题?这个的话,在数据维护管理是非常重要的,因为我一眼就看到了哪一条数据什么问题,我就可以直接去进行更改、维护。

另外一种功能,我会有一些业务规则或者是流程校验的机制,你在里边维护的时候,我当时能提醒你,你这个输错了,你这个东西做的不对,或者不符合标准,这样整个是一个完整的体系。从数据标准、规范、流程,这几种合作才能保证它数据的干净程度。

选型宝:数据的校验机制,这个背后的是一些什么样的逻辑,能举几个例子吗?
张金良:其实校验这块,我们也会经常遇到,简单来讲就是我们经常自己上网登录东西发现的,这个框是文本就不能输数字的。
简单的,长度是20位的编码,你不能输40。比如手机号,你要超过11位,我就认为你输错了。
但是再复杂一些,比如说你的×××号进来之后,它会给您校验,你这个是不是自己编的?因为×××号它会有校验位,它不是自己编的,第二号码区号,你随便录,是不是对?
然后再复杂,比如说我的数据进来之后有一个判重,跟主数据要识别它的唯一性,之前录过一条数据,你过两天以后,可能录得非常相似或相近,我要去提示你。等等诸如此类的机制,来保证后续的数据是持续干净的。

选型宝:作为一种实施风险比较高的项目,您认为,可能导致主数据管理项目失败的因素有哪些?
张金良:其实从主数据管理来讲,实施难点主要在于几个方面:

1、怎样驱动业务部门落实新的管理规范
一般好多企业是这样,使用业务系统我要去使,但是都会认为整个数据的维护管理都应该是IT的事。
实际情况是,好多数据其实是从业务部门来的,这种情况下它在界定数据维护流程的时候,制度规范很难去往下推。人人都愿意享受数据规范后的便利,但是不一定愿意承受规范带来的束缚。
2、历史数据的清洗,这是一个脏活累活
另外一个点很重要,就是数据清洗,以前这个历史数据哪些数据能进主数据,要进之前,一定要做清洗,这步很关键的。
理论上其实每条每个字段都要过了,所以这个会比较苦,量会比较大,用我们的话讲就是干脏活累活的。
这一步,也是很重要的一个潜在风险,是关系到项目成败的关键。

选型宝:有哪些策略可以降低实施风险?
张金良:首先是要确保领导有力
这个项目一定需要比较高级别的领导才能推动,只有高级的领导,才能够去协调动各个部门之间的资源或者是人力。
包括比如说专家,包括各个部门的组长,他来去做数据的规范、数据标准的制定,他来去领导这个流程走下去。
如果有数据变更,他能去做一些仲裁这样一些内容,所以说这一定要是一个级别比较高的人才能推动这个项目。
第二,做好激励
在整个项目实施的过程当中,我们会把这个数据进行一个界定,定义这个数据的数组,到底是谁来管这块数据,哪个部门来负责哪一部分。
我们系统会有一个整个追溯的过程,到底是谁什么时间做什么维护,改了什么样的数据,会有这样的追溯过程,并且我们会对数据质量有一个评估,有些KPI指标,可以评估整个数据维护的及时性,包括准确性,通过这种KPI指标来统计每个人,可以跟他的绩效进行挂钩,也相当于进行一些相应的正激励或者负激励方式,也是去促使用户既在享受高数据质量的优势的同时,也要有一个贡献。
第三,通过产品和技术手段,尽可能沿用之前的数据维护习惯
例如,把主系统和有些页面直接嵌到业务系统里去,沿用用户以前的维护习惯,让用户感觉不到在维护主数据系统,他感觉到我是在为业务系统维护数据,但实际上他进到了主数据系统里面。
通过降低习惯的改动,降低业务人员的抵触情绪,降低实施风险。

选型宝:站在客户的角度看,您认为选择一款主数据管理平台,应该重点考察哪些维度?
张金良:如果以客户角度来讲,选择一个主数据平台,应该从以下角度考察:
▣ 第一,易用性
是不是非常好用,是不是非常容易上手,然后是不是我业务部门就能去使,产品做的足够易用,才更容易减少业务部门的抵触情绪。
▣ 第二,扩展性
就是刚才说的或者是叫业务响应性,如果数据的结构、标准发生了变化,能不能在第一时间能够响应业务的要求,而不是说再去找原厂重新开发,重新搭建结构、重新部署等等一系列东西,那可能这一系列时间过去之后,那个最佳时机已经过去了。
▣ 第三,公司和产品的持久性
因为主数据来讲,它这个核心数据是非常重要的数据。这家公司一定要未来看到它是一个持续发展的公司,不能说过几年这公司都没了,那我这个系统,我的这么重要的数据没有人来去维护,没有去做更新,这也是很关键的。
▣ 第四,实施人员的业务能力
因为看似只是纯数据的一个东西,但是你要对它的业务要有一些比较深的了解,你能给他一些经验,比如说哪个行业里边这个数据一般来说怎么维护,然后一般来说定义的数据标准什么样的,我的数据的质量属性一般是哪一些,这有给他一些指导。
▣ 第五,项目周期
这块放到最后,其实很重要。
很多客户都会想实施周期短,因为一旦发现数据质量问题,就肯定想越快越好,所以说项目实施周期也是非常重要,就是我能不能尽快的在半年以内把这个数据治理好。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
17天前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
13 2
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
46 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
37 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
33 0
|
3天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
10 3
|
5天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
7天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
38 1
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
存储 监控 大数据
数据仓库(11)什么是大数据治理,数据治理的范围是哪些
什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
64 0
|
1月前
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
49 4