入选首个Forrester云数仓研究报告,“后起之秀”DataWorks有何魔力?

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 日前,全球权威IT咨询机构Forrester发布最新研究报告The Forrester WaveTM: CloudData Warehouse, Q4 2018,对云数据仓库从各个维度进行综合评判,帮助企业选择最佳解决方案。

日前,全球权威IT咨询机构Forrester发布最新研究报告The Forrester WaveTM: CloudData Warehouse, Q4 2018,对云数据仓库从各个维度进行综合评判,帮助企业选择最佳解决方案。其中,阿里云DataWorks、MaxCompute、ADB等三款产品成功入选,并在产品功能(Current Offering)方面力压微软,杀入前七。

0e00aab0f97b40269d301a1981816ec5_jpeg

这是Forrester Wave首次发布关于云数仓解决方案(Cloud Data Warehouse,简称CDW)的测评。2017年和2018年的Q2,Forrester分别发布过BigData Fabric和Big Data Warehouse的研究报告,其中对Big Data Fabric的定义为:

在2018年3月,Forrester发布了题为Now Tech: Cloud Data Warehouse, Q1 2018的前瞻性报告,首次提出了CDW的概念:

An on-demand, secure, and scalableself-service data warehouse that automates provisioning, administration,tuning, backup, and recovery to accelerate analytics and actionable insightswhile minimizing support requirements.

—— 一种按需使用的、安全的、可扩展的自助式数据仓库,通过自动化的部署、管理、调优、备份、恢复加速数据分析过程,同时将技术支持需求降到最低。

既然是首个Forrester云数仓报告,我们就来聊聊报告的标准,另外依据标准维度来看看DataWorks背后的魔力。

先谈谈标准

在本次发布的研究报告中,Forrester进一步阐述了CDW应具备的核心能力:

  • 快速部署:允许客户通过图形化操作,在数分钟内完成数仓的搭建或扩缩容;
  • 一键数据上云:对于已有私有数仓的客户,提供便捷的迁移工具,能够自动完成表结构创建、数据传输加载、宽表合并的动作;
  • 支持多种分析洞察场景:例如IoT客户端采集处理、异构数据源关联分析、即席自助查询等场景;
  • 较低的软硬件成本:相较于私有数据仓库,可节省20%至80%的客户成本,同时支持存储、计算费用分开结算。

报告同时指出,相比于传统的Big Data场景,CDW需要支持的使用场景更加多样,从原先简单的数据加载、报表展示,到更加复杂的客户行为分析、风险控制、反欺诈、IoT分析等更加贴近业务的场景。

本次测评,Forrester从功能覆盖、战略规划、市场规模三个维度出发设计了25项指标,结合历史研究、厂商自评、用户调研、专家打分。

大数据计算的集大成者

从Forrester对CDW核心能力的定义中可以看出,功能覆盖全面,满足客户全链路、全场景的需求,是对CDW的核心要求。事实上,由于主流的CDW解决方案,通常由PaaS化的计算引擎演化而来,在计算性能、可扩展性等方面有相当的技术储备,但是对于数据上云、多种分析场景全覆盖、以及数据治理的需求,难以提供工具来进行覆盖。

例如,大家熟悉的AWS Redshift,不仅提供了大容量、高可靠的数据仓库服务,更提供了数据迁移产品来辅助用户将数据迁移上云。但是,仍然在数据集成容量方面得分不够理想。

再比如,大数据的先驱Google BigQuery,HBase即参照其底层存储BigTable设计,不仅自身提供了强大的离线、实时数据处理服务,更整合了Google Cloud Storage、Google Drive等基础设施,覆盖了异构组合查询的需求场景,但是仍在用户入门、数据管理工具、工作流设计工具等方面不尽如人意。

不仅是AWS、Google这样的巨头,缺少开发设计工具、缺少管理运维工具,Oracle、Azure、Hotonworks、Pivotal等老牌大数据、云服务公司的解决方案,在功能场景的广度上,都不约而同的暴露出了短板。

DataWorks是阿里巴巴集团沉淀多年的一体化大数据研发平台,基于MaxCompute、Flink、ADB、PAI等计算引擎,提供了从离线计算,到流式处理覆盖了从数据汇聚、数据研发、数据治理到数据开放共享的整条链路。

cb3bb93654e841038cdd260f560deb6c_jpeg

DataWorks提供的DataStudio组件,提供了媲美客户端IDE的开发体验,从代码提示、自动补全,到结构化SQL视图、代码全局搜索、SQL模板共享,极大的提高了数据开发者的工作效率;

03_

DataStudio深度集成的数据集成组件,可将数据同步节点与SQL节点混合编排,支持20余种不同数据源的读写,且提供整库上云、多库批量上云的快速迁移功能;

01_

其提供的监控运维组件,内置了沉淀多年的基线监控算法,只需设定数据产出节点,即可自动推断其他任务的监控阈值,实现智能监控;

DataWorks还提供了数据资产管理、数据质量管理、数据安全等组件,提供客户一站式的数据治理解决方案。

在整个数据链路的最上层,DataWorks还拥有数据服务组件,支持客户通过简单的配置,将数据表转变为查询API,满足各种业务场景的对接需求。

06_

布局未来:支持AI/ML算法

CDW广阔的使用场景给了给家厂商无穷的想象空间。在深度学习全民化的浪潮下,将对AI/ML算法的支持引入CDW是大势所趋。Google、IBM、MarkLogic等入选厂商都不约而同的将AI/ML概念加入到了战略规划之中。

一般来说,CDW对AI/ML算法的应用,主要包含三种方式

  • 训练AI/ML模型:通过CDW开发调度工具,将数据的获取、整理、汇总的过程与模型的训练过程联动起来
  • 使用AI/ML模型处理数据:数据在CDW的处理过程中,可以调用AI/ML模型,完成诸如分类、预测、模式匹配等常见SQL无法完成的操作
  • 使用AI/ML模型管理数据:在海量数据集面前,传统的数据治理方法论需要智能算法的加持,实现数据的自动化管理

6e3875d0aa6e468f8e62e73cc93c43d8_jpeg

在这方面,DataWorks可谓走在了业界前列。首先,DataWorks深度集成阿里云的机器学习平台PAI,可以直接在数据加工业务流程中插入机器学习实验,既可以将数据加工与模型训练联动,又可以直接在数据加工过程中应用算法模型。

05_PAI

其次,DataWorks的各个模块使用了大量机器学习算法,减少数据治理过程的人工介入:

  • 智能监控模块:通过算法分析数据加工流程,识别链路上的瓶颈节点,智能判断故障的影响范围
  • 数据质量模块:通过43种统计算法,识别数据质量问题,并及时阻塞下游加工流程,防止数据污染
  • 数据安全模块:内置模式识别算法,可以直接通过数据内容,匹配识别出地址、身份证号、银行卡号等敏感信息

当然,除了AI/ML算法的支持和应用之外,DataWorks还在致力于向更广阔的业务场景延伸。除了操作离线数据的DataStudio之外,FlinkStudio定位于流式计算过程的开发,FunctionStudio提供便捷的自定义函数(UDF)开发能力,通过CloudAppStudio快速开发的数据应用则用来补齐从数据到业务的“最后一公里”。这些组件,都正在被逐步纳入到DataWorks生态体系中来。

07_appstudio

公共云赋能

市场规模是Forrester评价体系的重要维度。Forrester不仅从客观上判断产品的普及程度,更通过访谈等方式获取用户的主观评价,尤其是Forrester咨询订阅用户,他们的需求与意见更是至关重要。

对CDW这样的企业级生产工具来说,无疑应该适配多种客户的不同需求。在本次测评的25项指标中,对这一点提出了非常高的要求:

  • 必须在公共云面向所有用户提供服务,且必须在2018年6月前上线
  • 必须拥有25家以上付费客户,且必须分布于多个国家或地区
  • 在过去的12个月内多次被受访客户提及

DataWorks自2009年开始服务阿里巴巴集团内业务,近10年来几乎服务了阿里巴巴经济体内的所有业务,积累了大量的实践经验。

e1ba4ceb6cba4fcbb234ead050775e64_jpeg

从2013年开始,DataWorks登陆阿里云,向公共云客户提供服务,目前已在全球18个Region上线,注册客户逾3万家。

2015年开始,专有云平台ApsaraStack Enterprise搭载DataWorks,至今已服务超过130家政企客户,尤其是支撑了几乎所有的“城市大脑”项目,承载公安、交通、工业物联网等多种复杂计算场景。

d52bbae15eb54927981ed607af8cff06_jpeg

结语

从Forrester的本次研究报告可以看出,大数据技术已经进入CDW阶段,需求重点从原先的“能不能”,向自助式、智能化、面向业务的纵深发展。大数据技术的竞争,已经不再是性能、容量的比拼,而是一站式综合解决方案的沉淀。

DataWorks作为阿里巴巴CDW体系中直接面向开发者的研发平台,沉淀了多年跨行业的数据加工、数仓管理、协作开发的最佳实践,横向上覆盖离线计算MaxCompute、实时计算Flink、机器学习PAI三大计算引擎,纵向上打通数据集成、数据研发、数据治理、数据开放共享、数据应用开发整条链路。

据了解,DataWorks在今年7月份上线了V2.0全新版本,各模块能力都有了质的提升,详情参加https://help.aliyun.com/document_detail/87243.html

有了DataWorks一站式研发平台的加持,相信阿里巴巴CDW会继续领跑大数据新兴厂商,并进一步向Microsoft、IBM等老牌厂商发起强有力的挑战。

欢迎扫码了解DataWorks的更多信息:

1542178196930_d8f9f4a5_1ced_4887_9e3f_ae004128c260

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
8月前
|
分布式计算 Cloud Native 大数据
Forrester云数仓报告:国内唯一,阿里云连续两次进入卓越表现者象限
国际权威咨询机构Forrester发布最新云数据仓库研究报告 《The Forrester Wave™: Cloud Data Warehouses, Q2 2023》,凭借产品性能和市场规模等方面的表现,阿里云连续第二次进入卓越表现者象限,是国内唯一挺进该象限的科技公司。
Uma
|
SQL 存储 数据挖掘
阿里下一代云分析型数据库AnalyticDB入选Forrester云化数仓象限
近期, 全球权威IT咨询机构Forrester发布"The Forrester Wave: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型数据库(AnalyticDB)成功入选。
Uma
2875 0
|
8月前
|
机器学习/深度学习 存储 分布式计算
国内唯一,阿里云蝉联Forrester云数仓报告卓越表现者象限
近日,国际权威咨询机构 Forrester 发布研究报告 《The Forrester Wave™: Cloud Data Warehouses, Q2 2023》,阿里云蝉联卓越表现者象限,是国内唯一入选该象限的科技公司。
|
8月前
|
机器学习/深度学习 存储 分布式计算
Forrester云数仓报告:阿里云,国内唯一卓越表现者
Forrester云数仓报告:阿里云,国内唯一卓越表现者
185 0
|
8月前
|
机器学习/深度学习 存储 分布式计算
Forrester云数仓报告:阿里云,国内唯一卓越表现者
阿里云连续第二次进入卓越表现者象限,是国内唯一挺进该象限的科技公司。
|
运维 分布式计算 DataWorks
阿里云-数仓开发-DataWorks开发
阿里云-数仓开发-数据分析利器-DataWorks
阿里云-数仓开发-DataWorks开发
|
存储 机器学习/深度学习 SQL
深入解读:获得 2021 Forrester 全球云数仓卓越表现者的阿里云数据仓库
阿里云在最新发布的 The Forrester Wave™: Cloud Data Warehouse, Q1 2021 全球云数据仓库技术评比中进入卓越表现者象限,成为国内唯一入选厂商。本文针对 Forrester 的报告,结合阿里云的以 MaxCompute 为核心的云数仓产品,做一个详细的技术解读。
1313 0
深入解读:获得 2021 Forrester 全球云数仓卓越表现者的阿里云数据仓库
|
存储 弹性计算 Cloud Native
Forrester发布最新云化数仓象限报告: 阿里云获评“强劲表现者”,排名国内第一
2021年3月24日,全球权威IT分析机构Forrester发布最新云化数据仓库- "The Forrester Wave: Cloud Data Warehouse Q1 2021"研究报告,阿里云成为唯一入选此次评测的中国云厂商。以“AnalyticDB”为核心代表之一的阿里云数据仓库创造了国内数仓产品在该榜单的最好成绩,进入“强劲表现者(Strong Performers)”象限,代表了业界权威机构对AnalyticDB(简称ADB)强劲实力的高度肯定。
384 0
Forrester发布最新云化数仓象限报告: 阿里云获评“强劲表现者”,排名国内第一
|
存储 SQL 分布式计算
MaxCompute/Dataworks云数仓高可用最佳实践
大数据计算服务(MaxCompute,原名ODPS)是一种企业级SaaS模式云数据仓库,能够快速、完全托管的EB级数据仓库解决方案。DataWorks和MaxCompute关系紧密:DataWorks为MaxCompute提供一站式的数据同步、业务流程设计、数据开发、管理和运维功能。 本文主要介绍在使用阿里云MaxCompute/DataWorks运维过程中经常会遇到的问题及对应的解决方法。
2740 0
MaxCompute/Dataworks云数仓高可用最佳实践
|
SQL 安全 大数据
使用 Dataworks 实现 AnalyticDB PostgreSQL版上的 ETL 作业调度
DataWorks作为阿里云上广受欢迎的大数据开发调度服务,最近加入了对于AnalyticDB PostgreSQL版(原HybridDB for PostgreSQL,简称ADB PG版)的支持,意味着所有ADB PG版的客户可以获得任务开发、任务依赖关系管理、任务调度、任务运维.
2826 0