谈谈企业如何构建现代数据平台

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 数据平台是一组集成的技术,它们共同满足组织的端到端数据需求。

一 什么是数据平台

数据平台是一组集成的技术,它们共同满足组织的端到端数据需求。它支持数据的获取、存储、准备、交付和治理,以及用户和应用程序的安全。数据平台是释放数据价值的关键。

但数据平台可能是一个复杂的课题。数据平台背后到底是什么?是如何进行设计的?客户数据平台、大数据平台和运营数据平台有什么区别呢?

二 数据平台的优势

在过去的20年里,IT供应商一直在努力开发和提供解决方案,以解决公司面临的来自业务内部和外部产生的大量数据。云原生数据仓库现在被大规模并行处理。数据管道可以处理TB级的数据。存储变得便宜而快速,像Spark这样的数据处理框架可以处理大量数据。NoSQL扩充了关系型数据库,而Graph扩充了SQL等传统语言,而AI/ML应用程序则随处可见。

尽管这些单独的技术已经成熟,但大多数企业还无法集成这些工具。其结果是数据竖井通常无法扩展,包含重复的、经常过时的数据,被锁定在专有解决方案中,并且没有统一的安全层。

现代数据平台试图解决这个问题。它是可互操作、可扩展和可替换技术的组合,共同提供企业的总体数据需求

三 数据平台vs大数据平台

人们经常用不同的名字来称呼数据平台。有时候这些名字的意思是一样的。有时它们指的是它们托管的不同类型的数据以及它们处理的工作负载类型。更复杂的是,它们的一些用例之间有重叠。

企业数据平台(EDP)提供对企业数据资产的集中访问。通常,EDP存在于本地或混合环境中,由传统数据源组成。例如,一个EDP可以包括OLTP数据库、数据仓库和数据湖。EDP还包括数据采集、准备和分析报告的工具和流程。

现代数据平台是电子数据处理的自然演变。除了电子数据处理之外,它还有更广泛的灵活和防未来的能力。一般来说,现代数据平台的诞生是为了存储和处理不同种类和容量的数据。例如,它可以在EDP更传统的批处理工作负载之外处理流数据。它可能允许大规模本地处理结构化、半结构化或非结构化数据,开发AI/ML应用程序,并执行像自然语言处理(NLP)这样的复杂操作。

现代数据平台经常使用云技术来实现可负担的成本模型、弹性可伸缩性和灵活的托管服务。然而,重要的是要记住,MDP并不总是完全基于云。

云数据平台(不要与CDP -客户数据平台混淆)是一个笼统的术语,指完全由云计算技术和数据存储构建的数据平台。例如,云数据平台可以包含无限的对象存储、托管关系和NoSQL数据库、MPP数据仓库、Spark集群、Analytics笔记本,以及将它们连接在一起的消息队列和中间件。

现代数据平台可以跨越EDP和云数据平台。例如,企业的EDP可能包括其ERP、供应链管理、CRM和财务数据存储。业务可能决定通过从一个服务中添加更多的服务来增强他们的能力。这些服务可能都来自云数据平台。

一些云计算和数据库供应商已经创建了解决方案,允许客户在托管平台上以多种格式存储和处理大量数据。

云数据库是公共云套件的一部分。它们是完全作为服务管理的关系和非关系数据库,包括软件、基础设施、补丁、高可用性、可伸缩性和备份。客户不必担心数据库操作。

数据分析平台(Data Analytics Platform)、大数据平台(Big Data Platform)或大数据分析平台(Big Data Analytics Platform)是专门用于数据分析的数据平台。它是一组服务和特性的集合,使用户能够以任何形式对大量数据运行复杂的查询,然后分析、组合和探索这些查询结果,以创建有意义的可视化。数据分析平台通常将多个大数据工具和实用工具组合在一起,并在幕后处理可伸缩性、可用性、安全性和性能。通常情况下,数据分析平台是云套件或SaaS解决方案的一部分,并作为数据即服务(Data-as-a- service, DaaS)提供。它的功能远远超出了在结构化数据上运行传统SQL。通常,数据分析平台与企业、现代或客户数据平台的运营数据一起使用。

客户数据平台(CDP)只关注与客户相关的数据。它汇集了来自CRM、交易系统、社交媒体、电子邮件、网站、数字广告或电子商务商店等多个来源的客户数据。聚合的数据构建了一个完整的用户配置文件,可用于市场营销和其他业务目的,如行为细分。尽管传统的客户关系管理经常谈论提供360度的客户视图,但与客户关系管理不同的是,CDP可以从多个来源聚合已知和匿名的客户数据。四 现代数据体系结构:数据平台的要素

构建现代数据平台需要采用现代数据体系结构(MDA),该体系结构指定如何收集、清理、存储、转换、处理数据,并使数据对消费者可用。现代数据体系结构包含以下特点:

45c8c4da0f9f7ebc5b532b3ffa133a18.png

1用户权限

最终用户处于现代数据平台体系结构的中心。用户不再局限于一组预先开发好的数据资产及其来源,而是可以将自己的数据带到平台上,并开发自己的管道来吸收、清理、分析和报告这些数据。

2混合云

现代的数据平台既采用了预置的方式,又采用了云计算的方式。内部部署确保对遗留应用程序进行最小的更改,而云确保了可伸缩和弹性能力、处理能力、高可用性、预构建应用程序和安全性。

3虚拟数据层

现代数据平台的核心是虚拟数据存储层,它可以处理不同的数据格式和工作负载。例如,该平台可以为支持实时交互的操作/事务数据库、包含非结构化数据的数据湖以及已知分析作业所需的结构化数据集所需的数据仓库提供不同的数据存储格式。因此,存储层更多的是对其他平台组件的“抽象”。在较低的层次上,用户和应用程序将使用一组公共的协议和标准(如REST API)来访问它。从使用的角度来看,这些数据将被透明地联合和虚拟化,允许用户共享和协作。

4可伸缩的数据集成

摄取、验证、清理和准备是数据平台的关键。灵活的数据体系结构使用可伸缩的管道,可以处理不同的场景:使用API从遗留源进行批处理,发布/订阅用于异步事件消息,流处理用于实时、高速数据。

5可扩展的处理逻辑

现代数据平台的处理体系结构允许开发和重用面向服务的应用程序。这些应用程序处理特定领域的功能,并且通常基于开源技术。在大多数高级情况下,该平台还可以在不同的工作空间中开发基于AI和ML逻辑的下一代应用程序。这个可插拔的体系结构允许用户来构建他们的应用程序无缝地从一组标准的可互操作组件。

6端到端管理

数据在数据平台中被自动分类和标记。此元数据提供了一个全面的数据目录,用户可以搜索自助服务数据发现。治理模型还允许用户检查数据的质量和敏感性。最后,数据沿袭报告可以随时显示数据元素在系统中的运行。

7自助服务分析

分析层允许开发、分发和共享基于灵活技术的自助仪表板、报表等。组织可以通过使用不同的集成库来利用现有的分析应用程序。

8自动化的灵活性

现代数据体系结构在两个方面严重依赖自动化:基础设施和数据加载。第一类可以确保平台的所有物理元素(如服务器、备份、存储和负载平衡器)都可以在需要时轻松地从头开始重新创建。第二类自动化确保数据管道、工作区、笔记本和函数在加载新数据源时都从标准模板创建。

9统一的安全层

最后,现代数据体系结构的安全层抽象了各个应用程序的访问机制。它可以使用企业范围的身份提供程序(IdP)进行身份验证和基于角色的访问授权。一个可靠的数据架构还可以通过符合法规标准来确保数据受到保护。

五 如何搭建数据平台构建现代数据平台需要正确的数据策略。虽然这本身是一个很大的话题,但这里有5点注意事项。

1从小处着手:组织应该为项目寻找最好的主题专家,并将他们带到团队中。这个团队将由非技术专家和技术专家组成,通常还会包括外部资源。

2关注人员和流程:关注最终用户和当前业务流程。想想管理和使用它所需要的人才和结构。

3收集业务需求:数据必须处理业务需求,以生成实际价值。需求应该包括最终用户角色、用例、现有和可能的新数据源、安全需求、当前应用程序等等。

4增量式构建:采用敏捷方法获得增量式胜利。整个项目可以分为多个子项目,每个小项目处理平台或功能的一个方面。例如,可能有一个项目用于标准化数据捕获工具,而另一个项目用于构建公共数据共享功能。

5使用已可用的内容:数据平台安排和扩大现有流程和数据,以获得最大效益。从您已经拥有的数据开始,并实现最有可能产生影响的工作流。

六 小结

数据平台是理解、管理和访问组织数据的关键。最后,它归结为你想用你的数据做什么以及你想怎么做。无论你是建立一个客户数据平台、一个大数据平台的运营数据平台,数据平台都可以释放数据一直隐藏的潜力和价值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
消息中间件 分布式计算 大数据
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
77 5
|
2月前
|
存储 SQL 分布式计算
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
65 3
|
2月前
|
Java 大数据 数据库连接
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
36 2
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
|
2月前
|
SQL 分布式计算 大数据
大数据-160 Apache Kylin 构建Cube 按照日期构建Cube 详细记录
大数据-160 Apache Kylin 构建Cube 按照日期构建Cube 详细记录
50 2
|
2月前
|
SQL 消息中间件 大数据
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
75 1
|
2月前
|
SQL 大数据 Apache
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
87 1
|
2月前
|
SQL 存储 监控
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
66 0
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
323 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
49 2