数字化转型中的大数据治理架构

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文讲的是数字化转型中的大数据治理架构,数字化时代,我们的数据来源比以前更广了。

大家好,我今天分享的主题是大数据治理。我们如何使用好大数据资产,才能够更好地发挥其中的价值?

主要大纲:
一、数字化时代大数据向服务化发展
二、数字化时代的大数据治理架构
三、大数据治理的12个技术原则
四、总结

一、数字化时代大数据向服务化发展
本文讲的是数字化转型中的大数据治理架构,数字化时代,我们的数据来源比以前更广了。第一,之前传统企业政府的IT系统主要是面向内部使用,产生了一些信息,现在已经面向外部使用了;第二,更多行为信息、社交信息都会变成企业的数据;第三,我们有很多非结构化的数据,比如媒体、视频数据等;第四,还有物联网传感器方面的数据等。

image

这些数据大部分是非结构化的,如媒体数据、视频数据,包括物联网传感器等信息,这些信息远比以前更加难以管理,怎么样把这些信息管理好,充分发挥这些信息中的价值,就是我今天跟大家分享的主要内容。
1、以大数据为驱动的企业数字化转型

我们先看企业、政府是如何发挥大数据价值的。

红领集团——以大数据为驱动的企业数字化转型
image

我们先来看红领集团。红领集团是做工业4.0比较领先的企业,以生产男式西装为主。下图是红领集团的生产模式:用户在手机APP上下单之后,测量师会到你家里做定式测量,然后在版型库里做自动设计,自动排产之后就能生产使用了。
红领集团每个工人在生产的时候从布料里拿一张卡到屏幕上刷一下,屏幕上就能显示出订单编号和工序要求。所以对于红领集团来说所有订单都是个性化订单,所有生产都是个性化生产,整个生产流程都是由数据驱动的,其中男装生产中的两个非常关键的环节,也是用大数据解决的。
第一个关键环节是西装设计。就是根据你的身材来裁剪版型,西装设计非常重要,要求领子里面衬衣露不到一指,裤子盖脚面一指等。在订单量很大的情况下,版型师难免会供不应求,红领集团把以前做的一亿多套数据灌到数据库里,通过大数据的方式,自动给新订单生成版型,并抽查现有设计的版型是否合理,另外还有20几个版型师专门针对特别高、特别胖的人做版型设计,因为这些是机器做不出来的。
第二个关键环节是自动排产。生产工序是什么样的,什么地方钉扣子,什么地方挖扣眼,这些都是在自动排产里面进行的。排产也是数据驱动的,在红领生产工艺里面很少有人工审批,各个环节都是用数据驱动的方式在做。
image

通过这样一个模式,红领基本上把整个工业的生产线、传感器、车床、用于排产的MES系统、ERP系统、订单系统、物流系统等通过云和大数据的模式进行了整合。生产的时候有排产,排产是否有工艺流程、艺工的应用效率是什么样的,都是通过数据驱动的方式。
我们发现领的数据已经不是像传统一样仅仅用在了决策分析或某一个地方,而是贯穿了整个生产部门。这个数据是从哪来的,怎么来的,怎么管好,怎么发挥价值,实际上就是红领集团做数据管理带来的作用。
苏州工业园区——实现政务信息共享
我们再来看看苏州工业园区。作为政府机构,苏州工业园区很早就实现了机器物理的大集中,但是集中之后该如何做?现在政府都在提数据共享,物理服务器集中只能算数据共享的第一步,但是只做这个就能数据共享吗——显然不是,所以苏州工业园要做“三库、三通、九枢纽”。
image

三库即企业信息库、人口库、地理库,这个大部分政府都在做,但是九枢纽和三通是苏州工业园区自己做的规划。三通无非是跟政府、居民和企业打交道的业务,所有的应用都在三通框架下做,九枢纽把三库之外的信息做了分割聚类,比如到工商注册一个公司,可能环保对我有要求,工商对我有要求,税务对我也有要求,那么这些信息从哪里来,可能从九枢纽上面的各种应用来,这就是发挥数据功效的时候。
2、大数据治理是大数据服务化的关键
目前很多企业也意识到了数据管理的重要性,CDO也逐渐成为数字化企业的标准岗位,成为企业组织结构中的一部分,CDO已经不仅仅是一个职位了,而代表着数据部门职能的改变。
image

现在不少企业为了更加明确数据部门的目标,已经把数据管理部的名字改为数据服务部了,由数据管理转变为数据服务,以前是数据部门是自己准备数据给自己用,自己做一些分析报表等,现在更多是要把这些提供给别人用,为业务创新服务,像苏州工业园区的九枢纽就是给委办局用的。怎么把数据管理好,用服务的方式提供出来,这是大数据治理的核心。

image

3、大数据治理需要新一代架构

作为数据管理部门的一个管理手段,大数据治理在数据服务化上扮演着重要的角色。举一个例子,我们在看足球赛的时候,看的是运动员如何把球踢进去,但一场球踢得如何与裁判也有很大关系,大数据治理就像是足球赛的裁判,如何做好裁判的工作,就是我们今天要讨论的问题。
image

裁判通常的做法是向大家传输规定好的比赛流程,给大家定好比赛规则,然后再按照规定的流程和规则来监督大家执行,其实好的裁判应该不只是向大家传输规则和流程,还要考虑如何让运动员把球踢得更流畅。企业大数据治理也一样,治理本质上其实是帮业务把数据用好,让业务发挥更好的作用,而不只是通过一系列流程和规章制度给大家上套,增加大家的额外工作量。
裁判之前的工具只有哨子、红黄牌、旗子,想要把裁判的工作落实下去有一定的难度,现在裁判有各种先进的工具,有鹰眼、有录像的回放,通过一系列工具手段能把裁判工作落实得更好。在大数据时代还按传统方式做数据治理是行不通的,因为现在需要让每个人都能发现数据的价值,让每个人都能发挥创新能力,所以更好的工具和手段很重要。
大数据治理应该是自动化、自助化、智能化的,把大数据治理当做一系列服务给别人提供出来,可以让大家更好地开展大数据治理,这个我在后面会详细介绍。
image

二、数字化时代的大数据治理架构
1、目前的大数据平台难以满足数字化时代的要求
image

目前的大数据平台在管理、业务、技术都有很大优化空间,比如,管理上缺乏服务化,业务上数据难使用、难查找,用户不知道到底哪些数据能够用来创新;技术上,工具链条很复杂,比如报表发生错误之后,因为报表本身的数据可能是通过几次数据处理才形成的,最后的错误源头在哪儿?大家的一般做法是检查数据处理存储过程脚本等,查了好多个文件后,最后发现原来是某个数据不对,诸如此类的工具链让数据业务的开发和创新变得非常困难。
2、大数据治理从管理、业务、技术上全面提升创新能力
image

在大数据治理时,要转变管理定位,支撑好业务,而且要有技术落地。我们作为一个裁判不能只有哨子、红黄牌和旗子,我们还需要有鹰眼和视频回放,自动看到到底哪些球员越位了。传统的数据管理部门,正需要使用这样一些工具手段帮助业务人员、使用人员、开发人员、运维人员把事情做好,给他们提供数据服务,而不是给他们增加负担。
image

大家知道以前做数据治理,有个很重要的系统叫元数据系统,传统情况下一个企业里只有几个人在用这个系统,其他人不知道这个系统能干什么,也不会使用。如果将元数据系统变成服务,再将这个服务嵌入到企业每个人的工具里,这样一旦出现数据质量问题,就能定位到问题来源,一旦发现问题就自动查询数据,我们需要的就是这样一个平台,帮我们大数据治理做好,使企业更容易获得大数据的好处。
image

大数据平台中有各种类型的数据,前端有各种类型的业务应用,但是业务应用和大数据之间是有鸿沟的,怎么让他们匹配起来?按照解耦性,加入中间层,在中间解耦会让业务更简单、更方便地取得数据。
image

三、大数据治理的12个技术原则
如何用技术手段来做大数据治理,我们总结出了以下12个原则:
image

因为时间关系,我主要结合我们的具体实践讲三个原则。
可视化管理企业数据资产
企业有各种来源的数据,包括第三方购买的、自动产生的、从网络爬过来的等,现在领集团连之前不需要的传感器生产数据也拿过来了,这些海量数据之间的传递,实际上是知识的传递,或者说是知识工作者之间的传递,可视化的方式能极大地提升知识传递的效率。可视化有很多手段,比如树、思维脑图、流程图等,所以可以用数据地图来描述企业数据资产,通过思维脑图、流程图等形式可视化出企业的数据资产,嵌到各个数据应用系统中去。
image

大数据服务智能化
以前我做数据的时候发现很多热点数据是频繁使用的,每次都去数据仓库或者大数据平台抓这些热点数据会浪费大量的资源,现在通过大数据治理平台,把这些热点数据缓存起来,能够方便大家的下一次使用。
以大运河为例,在大运河边上能发现很多湖,这些湖就是用来调节运河水位的,同样我们也应该有这样一个“湖”,通过这个“湖”把前端的应用用好,刚才我讲的热点数据只是之一,数据的脱敏、安全性管理都是要做的,我们在中间提供了非常好的手段把这些来自很多维度的数据管理好。
image

数据管理能力服务化
将数据治理平台变为服务平台,用工具把IT的各个环节做一个串联。比如数据地图能不能是对外的API,形成页面组件供应用使用,数据字典能不能嵌入到管理的系统里去,数据标准能不能跟设计连接起来,让人家在设计库表结构、数据结构的时候就能用到数据标准,而不是到你的系统里用?能不能让需求人员在开发的需求工具里就能看到业务语义,用这样的业务语义来写需求?这需要把数据治理能力服务化,为开发者、运维者、架构师提供方便。
image

四、总结
苏州工业园区、领集团在数字化转型中都以大数据为支撑,支撑过程当中,大数据治理是关键,要用技术手段做治理,而不是只靠规章制度。要想把大数据治理做好,需要很多原则引导,以是否实现这些原则判断大数据治理效果的好坏。
.image
欢迎大家和我们一起沟通!愿大家能用好、管好大数据,让其真正发挥出价值,创造作用。谢谢大家!

原文发布时间为: 2016-12-16
本文作者:焦烈焱
本文来自云栖社区合作伙伴EAWorld,了解相关信息可以关注EAWorld。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
29天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
74 1
|
19天前
|
大数据
【赵渝强老师】大数据主从架构的单点故障
大数据体系架构中,核心组件采用主从架构,存在单点故障问题。为提高系统可用性,需实现高可用(HA)架构,通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能,确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
101 1
|
2月前
|
存储 分布式计算 大数据
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
62 3
|
20天前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
【赵渝强老师】基于大数据组件的平台架构
|
28天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
59 2
|
2月前
|
运维 Cloud Native 持续交付
探索云原生架构:企业数字化转型的新引擎
在当今数字化浪潮中,云原生架构以其独特的优势成为企业转型的关键。它通过容器化、微服务、DevOps和持续交付等技术,使企业能够快速响应市场变化,实现应用的高效开发、部署和运维。本文将深入探讨云原生的概念、核心技术及其在现代IT环境中的重要性。
|
2月前
|
Kubernetes 监控 Cloud Native
探索云原生架构:企业数字化转型的新引擎
【10月更文挑战第5天】 在当今数字化浪潮中,云原生架构以其独特的优势成为企业实现高效、灵活和可扩展的关键。本文将深入探讨云原生的核心概念、关键技术以及实际应用案例,揭示其在推动企业数字化转型中的重要作用。
39 6
|
2月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
105 1
|
2月前
|
运维 Kubernetes Cloud Native
探索云原生架构:企业数字化转型的新引擎
【10月更文挑战第9天】 在当今数字化浪潮中,云原生架构以其独特的优势成为企业实现高效运营和快速创新的关键。本文将深入探讨云原生的核心概念、关键技术以及实际应用案例,揭示其如何助力企业加速数字化转型步伐。通过对云原生技术的剖析,我们将看到这一新兴架构是如何重新定义软件开发、部署和运维模式的,进而推动企业在激烈的市场竞争中脱颖而出。