数据中台:为什么会出现数据孤岛和应用孤岛

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 数据中台:为什么会出现数据孤岛和应用孤岛

此时,企业已经进入了数据管理的高级阶段,需要全局的数据治理、数据能力的复用和共享以及云原生架构的支撑。在这个阶段需要解决的一个重要问题是如何避免数据孤岛和应用孤岛。


应用场景:为什么会出现数据孤岛和应用孤岛


部门A为了解决一些大数据问题,采购了厂商X的大数据解决方案,安装了一个大数据平台,导入自己的数据并开发了一些大数据应用,运行得挺不错。这个时候,部门B也需要解决一些大数据问题,于是试图采购厂商Y提供的大数据解决方案,但Y的大数据平台和X的有一些版本、组件上的差异,所以需要对X的大数据平台进行改造。问题是,这个任务由谁来完成,由谁负责改造后的大数据平台的运维?有可能厂商Y的大数据应用也需要做些改造,这可行吗?部门A的应用已经运行得很好了,部门B的应用会不会对部门A的应用造成影响(包括性能和数据安全的影响)?如果影响了,谁来负责?比较简单且快速见效的方法是直接安装厂商Y提供的端到端的解决方案。照此下去,每个解决方案都会安装一个新的大数据系统。还有一个问题是,厂商X和厂商Y底层的数据结构可能不是对外公开的,因而它们各自解决自己的问题,虽然开始互不干扰,但是后来就造成了数据孤岛和烟囱。这个时候,由于各个子系统的数据标准不一、数据格式不同,各部门之间数据无法互联互通,很难根据数据做出全局决策。


解决上面的问题,正是数据中台方法论和架构的任务。TotalPlatform保证所有数据应用的统一管理,OneIDOneModel确保各子系统中数据的互联互通,OneService负责数据能力的共享,TotalInsight确保全局数据运营的高效和价值量化。


4.3.1 全局的数据治理

必须有全局的数据治理系统来管理所有子系统的数据,确保它们能互联互通。例如,OneID要求所有关于用户的数据都必须使用同一个IDOneModel要求所有数据仓库的模型都必须符合同样的标准。


但是这里要指出,解决数据孤岛和应用孤岛的问题,除了技术方案以外,明确责权利也很重要。出现孤岛的原因之一就是各部门的责权利不明晰。如何在使用数据中台解决孤岛问题的同时保证责权利的明晰,是一个非常重要的问题,我们将在第6章中详细描述。


4.3.2 数据能力的复用和共享

在进行全局的数据治理的同时,治理的结果必须能为公司创造价值。这个时候就类似于OneService的功能,既要求能进行全局的数据能力的复用和共享,也需要类似TotalInsight的功能,管理全局的数据资产,量化数据能力的投入产出。主要的工作如下:

l  建立数据能力共享的责权利机制;

l  提供全局的数据能力目录和访问机制;

l  提供数据能力共享的工具、机制和流程;

l  对共享的数据能力的管控和审计;

l  确保共享的数据能力的高效运行。


4.3.3 云原生架构的支撑

在这个阶段随着业务的不断增长,越来越多的应用程序被添加到大数据系统中。先有SparkKafka,后有FlinkTensorFlow,现在又有各种新的大数据和人工智能组件。


这些就是在云基础架构上运行大数据系统的根本原因。而云平台为分析工作负载和一般工作负载提供了极大支持,并提供了云计算技术的所有好处:易于配置和部署、弹性扩展、资源隔离、高资源利用率、高弹性、自动恢复。


在云计算环境中运行大数据系统的另一个原因是大数据工具的发展。传统的分布式系统(如MySQL集群、HadoopMongoDB集群)倾向于处理自己的资源管理和分布式协调,但是现在由于KubernetesMesosYARN等分布式资源管理器和调度程序的出现,越来越多的分布式系统(如Spark)将依赖底层分布式框架来提供这些资源分配和程序协调调度的分布式操作原语。在这样的统一框架(见图4-5)中运行它们将大大降低复杂性并提高运行效率。


image.png


8章将详细介绍云原生架构如何帮助我们简化数据中台的运营与管理以及真正实现TotalPlatform


4.4DataOps

大部分企业的数据平台建设已经进行到第一阶段或第二阶段,而要顺利过渡到第三阶段,则离不开一个关键方法论—DataOps(数据运维)的帮助。

DataOpsDevOps十分形似,也有着与DevOps类似的软件开发角色,它是数据工程师简化数据使用、实现以数据驱动企业的方法,也是企业顺利实现第三阶段的关键。因此,本节将介绍DataOps的概念,解释为什么它对于企业从数据中获取真正价值、实现数字化运营以及建设数据中台都非常重要。


4.4.1 什么是DataOps

维基百科对DataOps的定义是:一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。DataOps的这一定义会随着时间的推移而变化,但其关键目标非常明确:提高数据分析的质量并缩短数据分析的周期。


2018Gartner发布的《数据管理技术成熟度曲线》报告中,DataOps的概念被首次提出(图4-6)。该报告指出,DataOps虽然可以降低数据分析的门槛,但并不会使数据分析变成一项简单的工作。与DevOps的落地一样,实施成功的数据项目也需要做大量的工作,例如深入了解数据和业务的关系、树立良好的数据使用规范和培养数据驱动的公司文化。当然,DataOps将极大提高人们使用数据的效率并降低使用数据的门槛,公司可以更快、更早、更好地使用数据,且成本和风险更低。

 

以上内容摘自《云原生数据中台:架构、方法论与实践》,经出版方授权发布。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
2月前
|
前端开发 机器人 API
前端大模型入门(一):用 js+langchain 构建基于 LLM 的应用
本文介绍了大语言模型(LLM)的HTTP API流式调用机制及其在前端的实现方法。通过流式调用,服务器可以逐步发送生成的文本内容,前端则实时处理并展示这些数据块,从而提升用户体验和实时性。文章详细讲解了如何使用`fetch`发起流式请求、处理响应流数据、逐步更新界面、处理中断和错误,以及优化用户交互。流式调用特别适用于聊天机器人、搜索建议等应用场景,能够显著减少用户的等待时间,增强交互性。
566 2
|
3月前
|
机器学习/深度学习 敏捷开发 存储
数据飞轮:激活数据中台的数据驱动引擎
数据飞轮:激活数据中台的数据驱动引擎
|
4月前
|
SQL 运维 Oracle
【迁移秘籍揭晓】ADB如何助你一臂之力,轻松玩转Oracle至ADB的数据大转移?
【8月更文挑战第27天】ADB(Autonomous Database)是由甲骨文公司推出的自动化的数据库服务,它极大简化了数据库的运维工作。在从传统Oracle数据库升级至ADB的过程中,数据迁移至关重要。
80 0
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
唤醒数据中台潜力:加速数据飞轮转动,实现数据驱动的秘籍
本文探讨了如何通过数据飞轮激活数据中台的潜力,实现数据驱动的创新。文章分析了数据中台面临的挑战,如数据孤岛和工具复杂性,并提出了建立统一数据治理架构、引入自动化数据管道和强化数据与业务融合等策略。通过实际案例和技术示例,展示了如何利用数据飞轮实现业务增长,强调了数据可视化和文化建设的重要性。旨在帮助企业充分挖掘数据价值,提升决策效率。
95 1
唤醒数据中台潜力:加速数据飞轮转动,实现数据驱动的秘籍
|
3月前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
3月前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
127 4
|
3月前
|
机器学习/深度学习 搜索推荐 算法
从数据中台到数据飞轮:企业升级的必然之路
在探讨是否需从数据中台升级至数据飞轮前,我们应先理解两者之间的关系。数据中台作为数据集成、清洗及治理的强大平台,是数据飞轮的基础;而要实现数据飞轮,则需进一步增强数据自动化处理与智能化利用能力。借助机器学习与人工智能技术,“转动”数据并创建反馈机制,使数据在循环中不断优化,如改进产品推荐系统,进而形成数据飞轮。此外,为了适应市场变化,企业还需提高数据基础设施的敏捷性和灵活性,这可通过采用微服务架构和云计算技术来达成,从而确保数据系统的快速扩展与调整,支持数据飞轮高效运转。综上所述,数据中台虽为基础,但全面升级至数据飞轮则需在数据自动化处理、反馈机制及系统敏捷性方面进行全面提升。
110 14
|
2月前
|
机器学习/深度学习 JSON JavaScript
LangChain-21 Text Splitters 内容切分器 支持多种格式 HTML JSON md Code(JS/Py/TS/etc) 进行切分并输出 方便将数据进行结构化后检索
LangChain-21 Text Splitters 内容切分器 支持多种格式 HTML JSON md Code(JS/Py/TS/etc) 进行切分并输出 方便将数据进行结构化后检索
38 0
|
2月前
|
数据管理 数据挖掘 大数据
数据飞轮崛起:数据中台真的过时了吗?
数据飞轮崛起:数据中台真的过时了吗?
|
2月前
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
下一篇
DataWorks