日前,全球权威IT咨询机构Forrester发布最新研究报告The Forrester WaveTM: CloudData Warehouse, Q4 2018,对云数据仓库从各个维度进行综合评判,帮助企业选择最佳解决方案。其中,阿里云DataWorks、MaxCompute、ADB等三款产品成功入选,并在产品功能(Current Offering)方面力压微软,杀入前七。
这是Forrester Wave首次发布关于云数仓解决方案(Cloud Data Warehouse,简称CDW)的测评。2017年和2018年的Q2,Forrester分别发布过BigData Fabric和Big Data Warehouse的研究报告,其中对Big Data Fabric的定义为:
在2018年3月,Forrester发布了题为Now Tech: Cloud Data Warehouse, Q1 2018的前瞻性报告,首次提出了CDW的概念:
An on-demand, secure, and scalableself-service data warehouse that automates provisioning, administration,tuning, backup, and recovery to accelerate analytics and actionable insightswhile minimizing support requirements.
—— 一种按需使用的、安全的、可扩展的自助式数据仓库,通过自动化的部署、管理、调优、备份、恢复加速数据分析过程,同时将技术支持需求降到最低。
既然是首个Forrester云数仓报告,我们就来聊聊报告的标准,另外依据标准维度来看看DataWorks背后的魔力。
先谈谈标准
在本次发布的研究报告中,Forrester进一步阐述了CDW应具备的核心能力:
- 快速部署:允许客户通过图形化操作,在数分钟内完成数仓的搭建或扩缩容;
- 一键数据上云:对于已有私有数仓的客户,提供便捷的迁移工具,能够自动完成表结构创建、数据传输加载、宽表合并的动作;
- 支持多种分析洞察场景:例如IoT客户端采集处理、异构数据源关联分析、即席自助查询等场景;
- 较低的软硬件成本:相较于私有数据仓库,可节省20%至80%的客户成本,同时支持存储、计算费用分开结算。
报告同时指出,相比于传统的Big Data场景,CDW需要支持的使用场景更加多样,从原先简单的数据加载、报表展示,到更加复杂的客户行为分析、风险控制、反欺诈、IoT分析等更加贴近业务的场景。
本次测评,Forrester从功能覆盖、战略规划、市场规模三个维度出发设计了25项指标,结合历史研究、厂商自评、用户调研、专家打分。
大数据计算的集大成者
从Forrester对CDW核心能力的定义中可以看出,功能覆盖全面,满足客户全链路、全场景的需求,是对CDW的核心要求。事实上,由于主流的CDW解决方案,通常由PaaS化的计算引擎演化而来,在计算性能、可扩展性等方面有相当的技术储备,但是对于数据上云、多种分析场景全覆盖、以及数据治理的需求,难以提供工具来进行覆盖。
例如,大家熟悉的AWS Redshift,不仅提供了大容量、高可靠的数据仓库服务,更提供了数据迁移产品来辅助用户将数据迁移上云。但是,仍然在数据集成容量方面得分不够理想。
再比如,大数据的先驱Google BigQuery,HBase即参照其底层存储BigTable设计,不仅自身提供了强大的离线、实时数据处理服务,更整合了Google Cloud Storage、Google Drive等基础设施,覆盖了异构组合查询的需求场景,但是仍在用户入门、数据管理工具、工作流设计工具等方面不尽如人意。
不仅是AWS、Google这样的巨头,缺少开发设计工具、缺少管理运维工具,Oracle、Azure、Hotonworks、Pivotal等老牌大数据、云服务公司的解决方案,在功能场景的广度上,都不约而同的暴露出了短板。
DataWorks是阿里巴巴集团沉淀多年的一体化大数据研发平台,基于MaxCompute、Flink、ADB、PAI等计算引擎,提供了从离线计算,到流式处理覆盖了从数据汇聚、数据研发、数据治理到数据开放共享的整条链路。
DataWorks提供的DataStudio组件,提供了媲美客户端IDE的开发体验,从代码提示、自动补全,到结构化SQL视图、代码全局搜索、SQL模板共享,极大的提高了数据开发者的工作效率;
DataStudio深度集成的数据集成组件,可将数据同步节点与SQL节点混合编排,支持20余种不同数据源的读写,且提供整库上云、多库批量上云的快速迁移功能;
其提供的监控运维组件,内置了沉淀多年的基线监控算法,只需设定数据产出节点,即可自动推断其他任务的监控阈值,实现智能监控;
DataWorks还提供了数据资产管理、数据质量管理、数据安全等组件,提供客户一站式的数据治理解决方案。
在整个数据链路的最上层,DataWorks还拥有数据服务组件,支持客户通过简单的配置,将数据表转变为查询API,满足各种业务场景的对接需求。
布局未来:支持AI/ML算法
CDW广阔的使用场景给了给家厂商无穷的想象空间。在深度学习全民化的浪潮下,将对AI/ML算法的支持引入CDW是大势所趋。Google、IBM、MarkLogic等入选厂商都不约而同的将AI/ML概念加入到了战略规划之中。
一般来说,CDW对AI/ML算法的应用,主要包含三种方式
- 训练AI/ML模型:通过CDW开发调度工具,将数据的获取、整理、汇总的过程与模型的训练过程联动起来
- 使用AI/ML模型处理数据:数据在CDW的处理过程中,可以调用AI/ML模型,完成诸如分类、预测、模式匹配等常见SQL无法完成的操作
- 使用AI/ML模型管理数据:在海量数据集面前,传统的数据治理方法论需要智能算法的加持,实现数据的自动化管理
在这方面,DataWorks可谓走在了业界前列。首先,DataWorks深度集成阿里云的机器学习平台PAI,可以直接在数据加工业务流程中插入机器学习实验,既可以将数据加工与模型训练联动,又可以直接在数据加工过程中应用算法模型。
其次,DataWorks的各个模块使用了大量机器学习算法,减少数据治理过程的人工介入:
- 智能监控模块:通过算法分析数据加工流程,识别链路上的瓶颈节点,智能判断故障的影响范围
- 数据质量模块:通过43种统计算法,识别数据质量问题,并及时阻塞下游加工流程,防止数据污染
- 数据安全模块:内置模式识别算法,可以直接通过数据内容,匹配识别出地址、身份证号、银行卡号等敏感信息
当然,除了AI/ML算法的支持和应用之外,DataWorks还在致力于向更广阔的业务场景延伸。除了操作离线数据的DataStudio之外,FlinkStudio定位于流式计算过程的开发,FunctionStudio提供便捷的自定义函数(UDF)开发能力,通过CloudAppStudio快速开发的数据应用则用来补齐从数据到业务的“最后一公里”。这些组件,都正在被逐步纳入到DataWorks生态体系中来。
公共云赋能
市场规模是Forrester评价体系的重要维度。Forrester不仅从客观上判断产品的普及程度,更通过访谈等方式获取用户的主观评价,尤其是Forrester咨询订阅用户,他们的需求与意见更是至关重要。
对CDW这样的企业级生产工具来说,无疑应该适配多种客户的不同需求。在本次测评的25项指标中,对这一点提出了非常高的要求:
- 必须在公共云面向所有用户提供服务,且必须在2018年6月前上线
- 必须拥有25家以上付费客户,且必须分布于多个国家或地区
- 在过去的12个月内多次被受访客户提及
DataWorks自2009年开始服务阿里巴巴集团内业务,近10年来几乎服务了阿里巴巴经济体内的所有业务,积累了大量的实践经验。
从2013年开始,DataWorks登陆阿里云,向公共云客户提供服务,目前已在全球18个Region上线,注册客户逾3万家。
2015年开始,专有云平台ApsaraStack Enterprise搭载DataWorks,至今已服务超过130家政企客户,尤其是支撑了几乎所有的“城市大脑”项目,承载公安、交通、工业物联网等多种复杂计算场景。
结语
从Forrester的本次研究报告可以看出,大数据技术已经进入CDW阶段,需求重点从原先的“能不能”,向自助式、智能化、面向业务的纵深发展。大数据技术的竞争,已经不再是性能、容量的比拼,而是一站式综合解决方案的沉淀。
DataWorks作为阿里巴巴CDW体系中直接面向开发者的研发平台,沉淀了多年跨行业的数据加工、数仓管理、协作开发的最佳实践,横向上覆盖离线计算MaxCompute、实时计算Flink、机器学习PAI三大计算引擎,纵向上打通数据集成、数据研发、数据治理、数据开放共享、数据应用开发整条链路。
据了解,DataWorks在今年7月份上线了V2.0全新版本,各模块能力都有了质的提升,详情参加https://help.aliyun.com/document_detail/87243.html
有了DataWorks一站式研发平台的加持,相信阿里巴巴CDW会继续领跑大数据新兴厂商,并进一步向Microsoft、IBM等老牌厂商发起强有力的挑战。