开发者社区> 超努力的写代码> 正文

数据中台:为什么会出现数据孤岛和应用孤岛

简介: 数据中台:为什么会出现数据孤岛和应用孤岛
+关注继续查看

此时,企业已经进入了数据管理的高级阶段,需要全局的数据治理、数据能力的复用和共享以及云原生架构的支撑。在这个阶段需要解决的一个重要问题是如何避免数据孤岛和应用孤岛。


应用场景:为什么会出现数据孤岛和应用孤岛


部门A为了解决一些大数据问题,采购了厂商X的大数据解决方案,安装了一个大数据平台,导入自己的数据并开发了一些大数据应用,运行得挺不错。这个时候,部门B也需要解决一些大数据问题,于是试图采购厂商Y提供的大数据解决方案,但Y的大数据平台和X的有一些版本、组件上的差异,所以需要对X的大数据平台进行改造。问题是,这个任务由谁来完成,由谁负责改造后的大数据平台的运维?有可能厂商Y的大数据应用也需要做些改造,这可行吗?部门A的应用已经运行得很好了,部门B的应用会不会对部门A的应用造成影响(包括性能和数据安全的影响)?如果影响了,谁来负责?比较简单且快速见效的方法是直接安装厂商Y提供的端到端的解决方案。照此下去,每个解决方案都会安装一个新的大数据系统。还有一个问题是,厂商X和厂商Y底层的数据结构可能不是对外公开的,因而它们各自解决自己的问题,虽然开始互不干扰,但是后来就造成了数据孤岛和烟囱。这个时候,由于各个子系统的数据标准不一、数据格式不同,各部门之间数据无法互联互通,很难根据数据做出全局决策。


解决上面的问题,正是数据中台方法论和架构的任务。TotalPlatform保证所有数据应用的统一管理,OneIDOneModel确保各子系统中数据的互联互通,OneService负责数据能力的共享,TotalInsight确保全局数据运营的高效和价值量化。


4.3.1 全局的数据治理

必须有全局的数据治理系统来管理所有子系统的数据,确保它们能互联互通。例如,OneID要求所有关于用户的数据都必须使用同一个ID,OneModel要求所有数据仓库的模型都必须符合同样的标准。


但是这里要指出,解决数据孤岛和应用孤岛的问题,除了技术方案以外,明确责权利也很重要。出现孤岛的原因之一就是各部门的责权利不明晰。如何在使用数据中台解决孤岛问题的同时保证责权利的明晰,是一个非常重要的问题,我们将在第6章中详细描述。


4.3.2 数据能力的复用和共享

在进行全局的数据治理的同时,治理的结果必须能为公司创造价值。这个时候就类似于OneService的功能,既要求能进行全局的数据能力的复用和共享,也需要类似TotalInsight的功能,管理全局的数据资产,量化数据能力的投入产出。主要的工作如下:

l  建立数据能力共享的责权利机制;

l  提供全局的数据能力目录和访问机制;

l  提供数据能力共享的工具、机制和流程;

l  对共享的数据能力的管控和审计;

l  确保共享的数据能力的高效运行。


4.3.3 云原生架构的支撑

在这个阶段随着业务的不断增长,越来越多的应用程序被添加到大数据系统中。先有Spark、Kafka,后有Flink、TensorFlow,现在又有各种新的大数据和人工智能组件。


这些就是在云基础架构上运行大数据系统的根本原因。而云平台为分析工作负载和一般工作负载提供了极大支持,并提供了云计算技术的所有好处:易于配置和部署、弹性扩展、资源隔离、高资源利用率、高弹性、自动恢复。


在云计算环境中运行大数据系统的另一个原因是大数据工具的发展。传统的分布式系统(如MySQL集群、Hadoop和MongoDB集群)倾向于处理自己的资源管理和分布式协调,但是现在由于Kubernetes、Mesos、YARN等分布式资源管理器和调度程序的出现,越来越多的分布式系统(如Spark)将依赖底层分布式框架来提供这些资源分配和程序协调调度的分布式操作原语。在这样的统一框架(见图4-5)中运行它们将大大降低复杂性并提高运行效率。


image.png


第8章将详细介绍云原生架构如何帮助我们简化数据中台的运营与管理以及真正实现TotalPlatform。


4.4DataOps

大部分企业的数据平台建设已经进行到第一阶段或第二阶段,而要顺利过渡到第三阶段,则离不开一个关键方法论—DataOps(数据运维)的帮助。

DataOps与DevOps十分形似,也有着与DevOps类似的软件开发角色,它是数据工程师简化数据使用、实现以数据驱动企业的方法,也是企业顺利实现第三阶段的关键。因此,本节将介绍DataOps的概念,解释为什么它对于企业从数据中获取真正价值、实现数字化运营以及建设数据中台都非常重要。


4.4.1 什么是DataOps

维基百科对DataOps的定义是:一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。DataOps的这一定义会随着时间的推移而变化,但其关键目标非常明确:提高数据分析的质量并缩短数据分析的周期。


在2018年Gartner发布的《数据管理技术成熟度曲线》报告中,DataOps的概念被首次提出(图4-6)。该报告指出,DataOps虽然可以降低数据分析的门槛,但并不会使数据分析变成一项简单的工作。与DevOps的落地一样,实施成功的数据项目也需要做大量的工作,例如深入了解数据和业务的关系、树立良好的数据使用规范和培养数据驱动的公司文化。当然,DataOps将极大提高人们使用数据的效率并降低使用数据的门槛,公司可以更快、更早、更好地使用数据,且成本和风险更低。

 

以上内容摘自《云原生数据中台:架构、方法论与实践》,经出版方授权发布。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
18591 0
阿里云服务器ECS登录用户名是什么?系统不同默认账号也不同
阿里云服务器Windows系统默认用户名administrator,Linux镜像服务器用户名root
13467 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,云吞铺子总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系统盘、创建快照、配置安全组等操作如何登录ECS云服务器控制台? 1、先登录到阿里云ECS服务器控制台 2、点击顶部的“控制台” 3、通过左侧栏,切换到“云服务器ECS”即可,如下图所示 通过ECS控制台的远程连接来登录到云服务器 阿里云ECS云服务器自带远程连接功能,使用该功能可以登录到云服务器,简单且方便,如下图:点击“远程连接”,第一次连接会自动生成6位数字密码,输入密码即可登录到云服务器上。
32657 0
使用NAT网关轻松为单台云服务器设置多个公网IP
在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。 具体如何操作呢,有了NAT网关这个也不是难题。
34365 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,大概有三种登录方式:
8733 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
14420 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
11658 0
使用SSH远程登录阿里云ECS服务器
远程连接服务器以及配置环境
12120 0
1946
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
OceanBase 入门到实战教程
立即下载
阿里云图数据库GDB,加速开启“图智”未来.ppt
立即下载
实时数仓Hologres技术实战一本通2.0版(下)
立即下载