深入解读:获得 2021 Forrester 全球云数仓卓越表现者的阿里云数据仓库

简介: 阿里云在最新发布的 The Forrester Wave™: Cloud Data Warehouse, Q1 2021 全球云数据仓库技术评比中进入卓越表现者象限,成为国内唯一入选厂商。本文针对 Forrester 的报告,结合阿里云的以 MaxCompute 为核心的云数仓产品,做一个详细的技术解读。

概述:

       2021年3月25日,全球权威分析机构 Forrester 发布 《The Forrester Wave™: Cloud Data Warehouse, Q1 2021》研究报告,阿里云凭借产品现有能力、产品战略、市场表现三项优势,进入 Forrester Wave 2021 Q1 云数据仓库卓越表现者象限,成为入选此次评测的唯一中国厂商

image.png

      本次 Forrester 针对入选的 13 家国际最重要的云数据仓库服务商(见下表), 从产品、战略、和市场表现三个维度,26个指标 60 多项评估细则进行了研究、分析和评分。最终报告显示了每个提供商在每项的评比分数,帮助企业架构专业人员根据他们的需求选择正确的厂商。作为读者,也能从 Forrester 的这些评测项中理解、学习现代云数据仓库的定义、应具备能力以及未来的发展趋势。

image.png

       下面我们就针对 Forrester 的报告内容,结合阿里云 MaxCompute、DataWorks、AnalyticDB 几款云数仓产品,对现代云数仓做一下全面的技术解读。

技术解读:

现代云数仓的内涵:Forrester 认为现在云数仓需要具备的几个特性:

  • 极致弹性:在分钟级别内提供任意规模,能够自动优化查询
  • 存算分离:按需独立扩展计算和存储等资源(存算分离)并能无感知自动升级。
  • 为了满足对更集中、实时和自助式分析日益增长的需求,云数仓供应商将继续专注于与数据湖和对象存储的原生集成。
  • 通过自助服务,简化大型复杂仓库的访问和管理。
  • 能提供并行处理、压缩、分区、索引、查询优化和动态资源供应方面的高级功能。
  • 最常见的云数仓应用场景包括客户360°分析、基于AI/机器学习 ML 的分析、垂直领域和实时分析的场景。


Forrester 评测领先项(得5/满分5分)

给客户带来的价值

  1. 数据湖集成(Data Lake Integration)
  2. 数据类型(Data Types)
  3. 数据集成(Data Ingestion / Loading)

客户将数据湖(Hadoop、云对象存储 OSS)的灵活性、生态丰富与云数据仓库的企业级能力进行融合,可以通过 MaxCompute 湖仓一体方案,DataWorks 数据集成以及对丰富数据类型的支持,并通过 DataWorks 构建数据湖和数据仓库融合的数据开发、管理和数据治理平台。

  1. 性能(Performance Reference)
  2. 扩展性(Scalability Feature)

客户能享受以下 MaxCompute 的 Share Everything 的架构设计带来的如下好处:

  1. 开箱即用的服务:5 分钟开通云数仓服务并能执行第一条 SQL 任务
  2. 灵活的计费模式:支持开通后可以按照单条 SQL 计费的按量付费模式,不用资源不花钱,不怕开通了还继续收费
  3. 存算分离 + 无限扩展:可以分别对计算和存储进行扩缩容
  4. 更好的资源利用:多租户架构带来更好的资源利用,通过降低成本将技术红利分享给客户
  1. 数据安全(Data Security)

数据安全无疑是现在企业数据应用的重中之重。MaxCompute 支持多租户的使用场景,通过阿里云账号认证体系对于用户的每一个 HTTP 请求都会进行签名认证,针对不同的用户数据进行数据存储隔离,用户数据被离散存储在分布式文件系统中。可以同时满足多用户协同、数据共享、数据保密和安全的需要,做到真正的多租户资源隔离。同时在网络隔离,鉴权认证,数据安全,传输、存储加密,日志审计等。详情参见安全白皮书

  1. Support(售后服务)
  2. Subcription(订阅模式)

Forrester 从客户得到认证:证实阿里云拥有一个经过验证的全球技术服务和支持团队,可以满足当前和未来的增长需要,同时拥有最多的资源和专业知识来处理复杂的全球和本土云数仓的实施。客户对阿里云云数仓的技术支持非常满意。


同时,MaxCompute 提供 Pay-as-you-go 计费模式,只对资源(存储、服务器和服务)的使用收费。支持按存储、大小、查询和用户数量粒度定价。可以分别为计算和存储定价。Forrester 从客户侧证实阿里云有最好的计费模式和最好的性价比。


以下从技术角度阐述为什么阿里云数仓产品能够支撑上面的满分项:

1. 架构设计:

阿里云数据仓库 MaxCompute 从设计之初采用了“Share Everything”的架构设计。按 Forrester 的说法,这是一个具有前瞻性(future-proof) 的技术架构。它引领了云数仓架构的趋势,并提供了最佳的客户灵活性和开箱即用的解决方案。同时支持 SQL、机器学习\深度学习、图计算等多种计算模式。

除了支持第一方的计算模式外,一个关键区别是 MaxCompute 有一个开放的设计,第三方引擎(如Spark,Presto)也可以接入。在 2019年-2021年,MaxCompute 发展出了湖仓一体的架构设计,通过湖仓一体 MaxCompute 无缝集成云对象存储和 Hadoop 生态。这些帮助我们在 Forrester 技术评比中,在性能、扩展性、数据湖集成 3 项取得最高分(5分),达到世界领先水平。

  • 在性能项的评比中,MaxCompute 支撑了相比其它厂商更高每天作业总数
  • 在扩展性的评比中,MaxCompute 提供最好的可伸缩性特性,包括:

        a) 可以对于任意规模的计算或存储进行接近无限的扩展,且不需要中断或停机支持

        b) 可以独立、自动地扩展存储和计算。可支持 EB 级别以上的数据规模。

  • 在数据湖集成项评比中:通过湖仓一体架构,无缝集成对象存储(OSS)湖,以及 Hadoop 生态,并通过 DataWorks 提供统一的数据开发、管理、治理平台。


2. 实时性:

  • 阿里云数仓通过 DataWorks 数据集成功能,支持三种实时数据集成方式:数据集成流式数据导入、对接 datachub、Kafka 等发布-订阅子系统、 CDC 方式导入。
  • 可以流式地将数据输入到 MaxCompute 或 AnalyticsDB 中进行查询。(或通过Flink 处理的实时 BI 场景)
  • 支持数据服务场景和在线机器学习(Alink,流式算法包以及深度学习框架 TensorFlow)

3.高性能存储

  • AliORC:MaxCompute 采用与开源 ORC 兼容的列式存储格式 AliORC,比开源 ORC 读性能快 50%,同时支持 MaxCompute、机器学习引擎 PAI等。 MaxCompute 团队也是开源 ORC 社区最大的贡献者
  • 自动存储分层,通过算法支撑的 4 级自动存储分级,提供更好的读写性能

4.企业级的安全性:

      MaxCompute 和 DataWorks 数据安全卫士可以发现和识别敏感数据,并支持静态数据加密,支持tokenization,动态和静态数据 Masking;通过数据质量和 Logview 检查数据质量和漏洞评估,利用阿里云 ActionTrail 提供审计功能。同时数仓内部支持自主访问控制,强制访问控制 (labelSecurity),提供项目、表、行和列级的访问控制。在合规方面支持全球主流的安全标准:ISO 27001, SOC1/2/3, FIPS-140, GxP (21 CFR Part 11), PCI等。详细名单在在白皮书中均有描述。

      同时,MaxCompute 除了传统的通过认证和授权的方式共享数据外,我们还观察到了隐私保护的数据共享,甚至是在不受信任的群体之间共享的趋势。通常我们将这种共享需求称为“数据可用不可见”。现在阿里云也正在投资这个领域以及包括基于差分隐私的计算和联合计算在内的技术。

      在本次 Forrester 技术评比中:云数仓 MaxCompute 和 DataWorks 的安全能力以及技术前瞻性,取得了最高分(5分),达到世界领先。

5.统一的数据开发、管理治理平台 DataWorks:

      MaxCompute 有一个统一的数据部署、治理和管理平台 DataWorks。它支持不同工作负载的数据集成、元数据开发。我们的数据管理可以进一步编排不同的工作负载。例如,客户可以从数据集成、数据清理、特征工程、模型训练、模型服务等方面构建完整的大数据和 AI 通道。


关于云数仓的发展趋势:

       随着 IoT 和 5G 技术的不断成熟,设备产生的数据将远超过与人相关的行为数据,同时越来越多的企业也将沉睡的数据湖中的数据唤醒,越来越多的角色也加入到数据分析、机器学习的领域中。这为云数据平台带来新的挑战,云数仓需要:

  1. 提高平台自服务能力,高度自动化的运维和管理,降低数据仓库、机器学习以及深度学习的使用门槛
  2. 支持多方数据共享的同时保护数据隐私,数据可用不可见
  3. 与数据湖的深度集成,统一的开发平台、数据资产管理


总结:

       最后引用 Forrester 报告对阿里云数据仓库的总结:阿里云数仓服务提供广泛的基础设施、平台和分析服务,包括 MaxCompute、AnalyticDB 和 DataWorks 服务,以支持各种大规模数据仓库客户案例。虽然阿里云数据仓库服务大部分部署在中国,但 MaxCompute、AnalyticDB 和 DataWorks 在全球 16个国家和地区提供服务,客户涉及金融、互联网、生物医药、能源、交通和媒体行业。阿里云的 MaxCompute、AnalyticDB 和 DataWorks提供实时和 EB 级的能力,以支持任何数据仓库的需求。


最后是来自客户对阿里云数仓产品的评价:

      阿里云数仓供多种计算模型、机器学习能力、服务区域、技术支持、商业价值、工具和高端可扩展性。让客户在最常用的场景包括 BI 加速、基于AI/ML 的分析、数据仓库现代化、数据科学以及实时和风险分析领域获得最佳的应用体验。

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
1天前
|
SQL 存储 大数据
数据仓库(10)数仓拉链表开发实例
拉链表是数据仓库中特别重要的一种方式,它可以保留数据历史变化的过程,这里分享一下拉链表具体的开发过程。 维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。
183 13
数据仓库(10)数仓拉链表开发实例
|
1天前
|
SQL 存储 数据管理
阿里云视觉智能开放平台的逻辑数仓基于统一的SQL语法
【2月更文挑战第9天】阿里云视觉智能开放平台的逻辑数仓基于统一的SQL语法
64 2
|
1天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库产品使用合集之如何使用ADB MySQL湖仓版声纹特征提取服务
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
1天前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库产品使用合集之阿里云云原生数据仓库AnalyticDB PostgreSQL版的重分布时间主要取决的是什么
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
1天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库产品使用合集之ADB MySQL湖仓版和 StarRocks 的使用场景区别,或者 ADB 对比 StarRocks 的优劣势
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
1天前
|
运维 Cloud Native 关系型数据库
云原生数据仓库产品使用合集之原生数据仓库AnalyticDB PostgreSQL版如果是列存表的话, adb支持通过根据某个字段做upsert吗
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
1天前
|
SQL 分布式计算 关系型数据库
云原生数据仓库产品使用合集之可以把ADB MySQL湖仓版数据库做成页面查询的数据库吗
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
1天前
|
分布式计算 大数据 Hadoop
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
269 2
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
|
1天前
|
SQL 数据采集 存储
数据仓库(12)数据治理之数仓数据管理实践心得
这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。
315 0
|
1天前
|
存储 大数据 数据管理
数据仓库(09)数仓缓慢变化维度数据的处理
数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。
232 2
数据仓库(09)数仓缓慢变化维度数据的处理

热门文章

最新文章