深入解读:获得 2021 Forrester 全球云数仓卓越表现者的阿里云数据仓库

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 阿里云在最新发布的 The Forrester Wave™: Cloud Data Warehouse, Q1 2021 全球云数据仓库技术评比中进入卓越表现者象限,成为国内唯一入选厂商。本文针对 Forrester 的报告,结合阿里云的以 MaxCompute 为核心的云数仓产品,做一个详细的技术解读。

概述:

       2021年3月25日,全球权威分析机构 Forrester 发布 《The Forrester Wave™: Cloud Data Warehouse, Q1 2021》研究报告,阿里云凭借产品现有能力、产品战略、市场表现三项优势,进入 Forrester Wave 2021 Q1 云数据仓库卓越表现者象限,成为入选此次评测的唯一中国厂商

image.png

      本次 Forrester 针对入选的 13 家国际最重要的云数据仓库服务商(见下表), 从产品、战略、和市场表现三个维度,26个指标 60 多项评估细则进行了研究、分析和评分。最终报告显示了每个提供商在每项的评比分数,帮助企业架构专业人员根据他们的需求选择正确的厂商。作为读者,也能从 Forrester 的这些评测项中理解、学习现代云数据仓库的定义、应具备能力以及未来的发展趋势。

image.png

       下面我们就针对 Forrester 的报告内容,结合阿里云 MaxCompute、DataWorks、AnalyticDB 几款云数仓产品,对现代云数仓做一下全面的技术解读。

技术解读:

现代云数仓的内涵:Forrester 认为现在云数仓需要具备的几个特性:

  • 极致弹性:在分钟级别内提供任意规模,能够自动优化查询
  • 存算分离:按需独立扩展计算和存储等资源(存算分离)并能无感知自动升级。
  • 为了满足对更集中、实时和自助式分析日益增长的需求,云数仓供应商将继续专注于与数据湖和对象存储的原生集成。
  • 通过自助服务,简化大型复杂仓库的访问和管理。
  • 能提供并行处理、压缩、分区、索引、查询优化和动态资源供应方面的高级功能。
  • 最常见的云数仓应用场景包括客户360°分析、基于AI/机器学习 ML 的分析、垂直领域和实时分析的场景。


Forrester 评测领先项(得5/满分5分)

给客户带来的价值

  1. 数据湖集成(Data Lake Integration)
  2. 数据类型(Data Types)
  3. 数据集成(Data Ingestion / Loading)

客户将数据湖(Hadoop、云对象存储 OSS)的灵活性、生态丰富与云数据仓库的企业级能力进行融合,可以通过 MaxCompute 湖仓一体方案,DataWorks 数据集成以及对丰富数据类型的支持,并通过 DataWorks 构建数据湖和数据仓库融合的数据开发、管理和数据治理平台。

  1. 性能(Performance Reference)
  2. 扩展性(Scalability Feature)

客户能享受以下 MaxCompute 的 Share Everything 的架构设计带来的如下好处:

  1. 开箱即用的服务:5 分钟开通云数仓服务并能执行第一条 SQL 任务
  2. 灵活的计费模式:支持开通后可以按照单条 SQL 计费的按量付费模式,不用资源不花钱,不怕开通了还继续收费
  3. 存算分离 + 无限扩展:可以分别对计算和存储进行扩缩容
  4. 更好的资源利用:多租户架构带来更好的资源利用,通过降低成本将技术红利分享给客户
  1. 数据安全(Data Security)

数据安全无疑是现在企业数据应用的重中之重。MaxCompute 支持多租户的使用场景,通过阿里云账号认证体系对于用户的每一个 HTTP 请求都会进行签名认证,针对不同的用户数据进行数据存储隔离,用户数据被离散存储在分布式文件系统中。可以同时满足多用户协同、数据共享、数据保密和安全的需要,做到真正的多租户资源隔离。同时在网络隔离,鉴权认证,数据安全,传输、存储加密,日志审计等。详情参见安全白皮书

  1. Support(售后服务)
  2. Subcription(订阅模式)

Forrester 从客户得到认证:证实阿里云拥有一个经过验证的全球技术服务和支持团队,可以满足当前和未来的增长需要,同时拥有最多的资源和专业知识来处理复杂的全球和本土云数仓的实施。客户对阿里云云数仓的技术支持非常满意。


同时,MaxCompute 提供 Pay-as-you-go 计费模式,只对资源(存储、服务器和服务)的使用收费。支持按存储、大小、查询和用户数量粒度定价。可以分别为计算和存储定价。Forrester 从客户侧证实阿里云有最好的计费模式和最好的性价比。


以下从技术角度阐述为什么阿里云数仓产品能够支撑上面的满分项:

1. 架构设计:

阿里云数据仓库 MaxCompute 从设计之初采用了“Share Everything”的架构设计。按 Forrester 的说法,这是一个具有前瞻性(future-proof) 的技术架构。它引领了云数仓架构的趋势,并提供了最佳的客户灵活性和开箱即用的解决方案。同时支持 SQL、机器学习\深度学习、图计算等多种计算模式。

除了支持第一方的计算模式外,一个关键区别是 MaxCompute 有一个开放的设计,第三方引擎(如Spark,Presto)也可以接入。在 2019年-2021年,MaxCompute 发展出了湖仓一体的架构设计,通过湖仓一体 MaxCompute 无缝集成云对象存储和 Hadoop 生态。这些帮助我们在 Forrester 技术评比中,在性能、扩展性、数据湖集成 3 项取得最高分(5分),达到世界领先水平。

  • 在性能项的评比中,MaxCompute 支撑了相比其它厂商更高每天作业总数
  • 在扩展性的评比中,MaxCompute 提供最好的可伸缩性特性,包括:

        a) 可以对于任意规模的计算或存储进行接近无限的扩展,且不需要中断或停机支持

        b) 可以独立、自动地扩展存储和计算。可支持 EB 级别以上的数据规模。

  • 在数据湖集成项评比中:通过湖仓一体架构,无缝集成对象存储(OSS)湖,以及 Hadoop 生态,并通过 DataWorks 提供统一的数据开发、管理、治理平台。


2. 实时性:

  • 阿里云数仓通过 DataWorks 数据集成功能,支持三种实时数据集成方式:数据集成流式数据导入、对接 datachub、Kafka 等发布-订阅子系统、 CDC 方式导入。
  • 可以流式地将数据输入到 MaxCompute 或 AnalyticsDB 中进行查询。(或通过Flink 处理的实时 BI 场景)
  • 支持数据服务场景和在线机器学习(Alink,流式算法包以及深度学习框架 TensorFlow)

3.高性能存储

  • AliORC:MaxCompute 采用与开源 ORC 兼容的列式存储格式 AliORC,比开源 ORC 读性能快 50%,同时支持 MaxCompute、机器学习引擎 PAI等。 MaxCompute 团队也是开源 ORC 社区最大的贡献者
  • 自动存储分层,通过算法支撑的 4 级自动存储分级,提供更好的读写性能

4.企业级的安全性:

      MaxCompute 和 DataWorks 数据安全卫士可以发现和识别敏感数据,并支持静态数据加密,支持tokenization,动态和静态数据 Masking;通过数据质量和 Logview 检查数据质量和漏洞评估,利用阿里云 ActionTrail 提供审计功能。同时数仓内部支持自主访问控制,强制访问控制 (labelSecurity),提供项目、表、行和列级的访问控制。在合规方面支持全球主流的安全标准:ISO 27001, SOC1/2/3, FIPS-140, GxP (21 CFR Part 11), PCI等。详细名单在在白皮书中均有描述。

      同时,MaxCompute 除了传统的通过认证和授权的方式共享数据外,我们还观察到了隐私保护的数据共享,甚至是在不受信任的群体之间共享的趋势。通常我们将这种共享需求称为“数据可用不可见”。现在阿里云也正在投资这个领域以及包括基于差分隐私的计算和联合计算在内的技术。

      在本次 Forrester 技术评比中:云数仓 MaxCompute 和 DataWorks 的安全能力以及技术前瞻性,取得了最高分(5分),达到世界领先。

5.统一的数据开发、管理治理平台 DataWorks:

      MaxCompute 有一个统一的数据部署、治理和管理平台 DataWorks。它支持不同工作负载的数据集成、元数据开发。我们的数据管理可以进一步编排不同的工作负载。例如,客户可以从数据集成、数据清理、特征工程、模型训练、模型服务等方面构建完整的大数据和 AI 通道。


关于云数仓的发展趋势:

       随着 IoT 和 5G 技术的不断成熟,设备产生的数据将远超过与人相关的行为数据,同时越来越多的企业也将沉睡的数据湖中的数据唤醒,越来越多的角色也加入到数据分析、机器学习的领域中。这为云数据平台带来新的挑战,云数仓需要:

  1. 提高平台自服务能力,高度自动化的运维和管理,降低数据仓库、机器学习以及深度学习的使用门槛
  2. 支持多方数据共享的同时保护数据隐私,数据可用不可见
  3. 与数据湖的深度集成,统一的开发平台、数据资产管理


总结:

       最后引用 Forrester 报告对阿里云数据仓库的总结:阿里云数仓服务提供广泛的基础设施、平台和分析服务,包括 MaxCompute、AnalyticDB 和 DataWorks 服务,以支持各种大规模数据仓库客户案例。虽然阿里云数据仓库服务大部分部署在中国,但 MaxCompute、AnalyticDB 和 DataWorks 在全球 16个国家和地区提供服务,客户涉及金融、互联网、生物医药、能源、交通和媒体行业。阿里云的 MaxCompute、AnalyticDB 和 DataWorks提供实时和 EB 级的能力,以支持任何数据仓库的需求。


最后是来自客户对阿里云数仓产品的评价:

      阿里云数仓供多种计算模型、机器学习能力、服务区域、技术支持、商业价值、工具和高端可扩展性。让客户在最常用的场景包括 BI 加速、基于AI/ML 的分析、数据仓库现代化、数据科学以及实时和风险分析领域获得最佳的应用体验。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
2月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
2月前
|
人工智能 分布式计算 数据管理
阿里云位居 IDC MarketScape 中国实时湖仓评估领导者类别
国际数据公司( IDC )首次发布了《IDC MarketScape: 中国实时湖仓市场 2024 年厂商评估》,阿里云在首次报告发布即位居领导者类别。
|
2月前
|
存储 小程序 Apache
10月26日@杭州,飞轮科技 x 阿里云举办 Apache Doris Meetup,探索保险、游戏、制造及电信领域数据仓库建设实践
10月26日,由飞轮科技与阿里云联手发起的 Apache Doris 杭州站 Meetup 即将开启!
64 0
|
2月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
247 0
|
5月前
|
存储 数据挖掘 BI
数据仓库深度解析与实时数仓应用案例探析
随着数据量的不断增长和数据应用的广泛深入,数据治理和隐私保护将成为数据仓库建设的重要议题。企业需要建立完善的数据治理体系,确保数据的准确性、一致性和完整性;同时加强隐私保护机制建设,确保敏感数据的安全性和合规性。
621 55
|
3月前
|
存储 机器学习/深度学习 监控
阿里云 Hologres OLAP 解决方案评测
随着大数据时代的到来,企业面临着海量数据的挑战,如何高效地进行数据分析和决策变得尤为重要。阿里云推出的 Hologres OLAP(在线分析处理)解决方案,旨在为用户提供快速、高效的数据分析能力。本文将深入探讨 Hologres OLAP 的特点、优势以及应用场景,并针对方案的技术细节、部署指导、代码示例和数据分析需求进行评测。
139 7
|
3月前
|
运维 数据挖掘 OLAP
阿里云Hologres:一站式轻量级OLAP分析平台的全面评测
在数据驱动决策的今天,企业对高效、灵活的数据分析平台的需求日益增长。阿里云的Hologres,作为一站式实时数仓引擎,提供了强大的OLAP(在线分析处理)分析能力。本文将对Hologres进行深入评测,探讨其在多源集成、性能、易用性以及成本效益方面的表现。
170 7
|
4月前
|
分布式计算 安全 OLAP
7倍性能提升|阿里云AnalyticDB Spark向量化能力解析
AnalyticDB Spark如何通过向量化引擎提升性能?
|
4月前
|
消息中间件 存储 大数据
大数据-数据仓库-实时数仓架构分析
大数据-数据仓库-实时数仓架构分析
155 1
|
4月前
|
人工智能 分布式计算 数据管理
阿里云位居 IDC MarketScape 中国实时湖仓评估领导者类别
国际数据公司(IDC)首度发布《IDC MarketScape: 中国实时湖仓市场 2024 年厂商评估》,阿里云荣登领导者地位。报告评估了13家厂商,涵盖互联网、云服务及大数据领域。阿里云凭借其在实时湖仓领域的创新能力,特别是Apache Paimon及与Flink的集成,实现了高效流批处理和AI增强功能,为企业提供了一体化的湖仓解决方案,支持多种数据管理和AI应用场景,展现出了强大的市场领导力和技术实力。
143 8
下一篇
DataWorks