深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告,报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能、区域表现、细分市场和典型客户等进行了全面评估。

1.前言

本文基于Now Tech: Cloud Data Warehouse, Q1 2018 (Published: by Noel Yuhanna, March 13, 2018)进行了分析,文中内容仅代表个人观点。

2018年3月13日Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告。报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能、区域表现、细分市场和典型客户等进行了全面评估,最终AWS、阿里云、Google、微软四大巨头杀入全球一线阵营。阿里云DataWorks+MaxCompute成为入选的中国产品。

报告中,Forrester强调了CDW的四方面核心能力:

·灵活部署。CDW应具有多种灵活的部署模式。针对小型客户,CDW应可提供在线多租户的模式,使客户有能力快速调集计算资源,在数分钟内完成数据仓库的部署。针对大中型客户,CDW应提供独占式或本地部署的模式,提供强大的计算性能和绝对的安全保障,同时屏蔽复杂的技术细节;

·高效数据上云。对于未将数据仓库云化的客户,或者采用线上-线下混合架构的客户,CDW应提供快速、低成本的方式,帮助用户完成数据集成。

·多样化分析手段。CDW应提供多种技术手段,帮助用户在各种业务场景中,获得想要的数据加工能力。

·安全性。CDW的安全性应全面考虑数据加密、审计、脱敏、访问控制等各方面。

DataWorks(https://data.aliyun.com/product/ide)作为阿里巴巴CDW服务能力的核心,为何能获得Forrester的青睐呢?今天我们来做一个解读。

2.DataWorks产品架构

在正式开始解读之前,我们先来了解一下DataWorks在阿里云CDW服务体系中的角色,以及DataWorks的产品架构。

b134003d56feec57cefc9d47c0de147b3b7c7d98

在阿里云的众多产品中,DataWorks和MaxCompute共同构成了CDW服务能力的核心。其中,MaxCompute作为存储计算引擎,扮演了IaaS层支撑的角色,为使用者提供了海量可靠的大数据表存储,以及SQL执行的能力。但是,仅仅有了MaxCompute是不够的。为了让大数据技术能真正的给客户赋能,还需要数据开发、数据集成等一系列CDW服务,而DataWorks就提供了较为完整的解决方案。

具体来看,她包含8个主要模块:

  • 数据集成:异构数据集成,将海量的数据从各种源系统汇集到大数据平台
  • 数据开发:数据仓库设计和ETL开发过程
  • 监控运维:ETL线上作业的运维监控
  • 实时分析:实时探查和分析数据
  • 数据资产管理:元数据管理、数据地图、数据血缘、数据资产大图等
  • 数据质量:数据质量探查、监控、校验和评分体系
  • 数据安全:数据权限管理,数据的分级打标、脱敏,以及数据审计
  • 数据服务:数据共享和数据交换,数据API服务
4f1776b6b232631d219302b773dcba571f6ba3e9

3.灵活部署

Forrester在报告中大篇幅的阐述了多种部署形态的必要性,并对多家CDW进行了对比,而DataWorks是第一阵营中为数不多的提供多种部署方式的产品。

首先,作为阿里巴巴集团数据中台体系的核心,DataWorks从2009年开始便支持阿里集团、蚂蚁金服、菜鸟等全集团业务。只要使用了淘宝、天猫、蚂蚁金服等产品的数据服务,就有可能间接使用了DataWorks的计算服务。

其次,DataWorks已在公有云中开放。截止目前,DataWorks已服务4000+公有云客户,支撑了新浪微博、人人车、天弘基金等重要客户。

最后,DataWorks还支持专有云输出。作为大数据能力赋能的重要手段,DataWorks出现在了Apsara Enterprise等阿里云专有云解决方案中。从2015年至今,已支撑了包括“城市大脑”、“最多跑一次”等重量级政企项目。

通过灵活的部署方式,DataWorks可以满足多种不同形态的客户需求。对于小型用户,可以通过公有云方式灵活支撑;对于大中型客户,专有云或混合云的解决方案也完全可以满足客户需求。

4.高效数据上云

高效的数据集成方式对企业数据上云的意义不言而喻。在初始上云阶段,企业需要把自己的数据资产快速安全的迁移到云上;在持续运营阶段,企业需要将各种形态的数据输入到CDW中,并将CDW中加工完成的数据结果输出到各个业务单元。

DataWorks的数据集成提供了对多种类型数据源进行读写的能力,包括对关系型数据库、NoSQL数据库、大数据数据库、文本存储(FTP)等,能对数据源头的数据资源能够进行统一清点,并能够在复杂网络情况下对异构的数据源进行数据同步与集成。在具体的导入任务编排上,DataWorks支持离线数据的批量、全量、增量同步,支持分钟、天、小时、周、月来自定义同步时间。

227353c8fc349e55fa90d5133919b90de59a15e1

DataWorks的数据集成还具有数据流管控的能力,能够从脏数据、数据流速、并发线程数等多个维度管控数据流的行为,多方位节约用户成本,实现精益化管理。

5.多样化分析手段

DataWorks提供了强大的数据开发IDE,支持从SQL代码编辑、集成任务编辑到业务流程DAG图的可视化编辑。而多人在线协作功能和任务脚本的版本管理功能也非常切合企业级数据开发的实际需求。除了常规的离线处理任务外,DataWorks还提供了轻量级工具“数据分析工作台”,充分利用MaxCompute的计算能力,满足用户即席数据分析的需求。

756273762ea9c7246527596b014be7e011db30d8

据悉,DataWorks近日还更新了拖曳式业务流程编辑功能,进一步改善用户体验,打造可能是最好用的数据开发IDE。

6.安全性

DataWorks将数据安全能力视为重中之重,敏感数据防护更需要符合行业规定和数据隐私法律等规定。DataWorks提供了数据安全模块,通过以下几方面提供了全方位的数据安全保护:

·多租户隔离。DataWorks拥有自己的多租户权限模型。租户可按需申请资源配额,独立管理自己的资源;租户也可以独立管理自有的数据、权限、用户、角色,彼此隔离,以确保数据安全。

·数据安全等级设定。通过数据安全等级,发现和定位敏感数据,明确其在数据资源平台上的分布情况,根据定义的敏感数据类型自动发现敏感数据,并为其分级分类。通常分为绝密、机密、正常等等级进行对应安全规则保障。

·数据访问审计。DataWorks对于特权用户的访问有严格的审查流程,包括何时访问,执行哪些操作,执行顺序等等。记录审计特权用户的访问记录,可以确保特权用户在正确的时间完成了正确的操作,审查是否有越轨行为的出现,进而保证数据系统的安全。

·数据脱敏。DataWorks能够在在不确定能够排除那些用户,那些访问地址,甚至那些字段为可疑或者有害访问时,关注数据内容本身,抓住敏感信息点,并有针对性地对该部分信息进行动态访问遮蔽,从而达到保护数据安全的目的。

目前,DataWorks已通过了公安部信息安全等级保护三级认证。

7.总结

随着社会各行各业“互联网+”改革的深入,企业对数据资产的管理、加工、利用的诉求越来越强烈。利用云计算技术,互联网公司得以快速的将自身的大数据处理能力对外赋能。这也是在Forrester的榜单中,全球主要的四家云服务公司,得以超越Oracle、IBM等老牌数仓技术公司,成为一线CDW供应商的原因。

得益于阿里巴巴多年的数据利用经验沉淀,DataWorks在部署模式、数据集成、分析手段、数据安全等各方面都实现了与企业级需求的高度契合。

据了解,DataWorks还会持续输出更多先进的数据管理理念,包括实时数据集成、数据资产分析等。将云计算技术与数仓管理方法论有机结合,保持不断迭代,致力于打造“最适合于大数据数仓建设的平台”,我想这正是DataWorks入选Forrester CDW榜单的原因。

相关文章
|
3月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
14天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
14天前
|
SQL DataWorks 关系型数据库
阿里云 DataWorks 正式支持 SelectDB & Apache Doris 数据源,实现 MySQL 整库实时同步
阿里云数据库 SelectDB 版是阿里云与飞轮科技联合基于 Apache Doris 内核打造的现代化数据仓库,支持大规模实时数据上的极速查询分析。通过实时、统一、弹性、开放的核心能力,能够为企业提供高性价比、简单易用、安全稳定、低成本的实时大数据分析支持。SelectDB 具备世界领先的实时分析能力,能够实现秒级的数据实时导入与同步,在宽表、复杂多表关联、高并发点查等不同场景下,提供超越一众国际知名的同类产品的优秀性能,多次登顶 ClickBench 全球数据库分析性能排行榜。
|
16天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
2月前
|
人工智能 分布式计算 DataWorks
连续四年!阿里云领跑中国公有云大数据平台
近日,国际数据公司(IDC)发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》报告——2023年中国大数据平台公有云服务市场规模达72.2亿元人民币,其中阿里巴巴市场份额保持领先,占比达40.2%,连续四年排名第一。
200 12
|
2月前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
323 17
|
2月前
|
SQL 人工智能 大数据
阿里云牵头起草!首个大数据批流融合国家标准发布
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
85 7
|
2月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
2月前
|
存储 分布式计算 DataWorks
关于阿里云DataWorks的6个问题记录
该文章记录了关于阿里云DataWorks使用的六个常见问题及解答,帮助用户更好地理解和操作DataWorks平台。
193 0
关于阿里云DataWorks的6个问题记录
|
2月前
|
存储 SQL 分布式计算
Java连接阿里云MaxCompute例
要使用Java连接阿里云MaxCompute数据库,首先需在项目中添加MaxCompute JDBC驱动依赖,推荐通过Maven管理。避免在代码中直接写入AccessKey,应使用环境变量或配置文件安全存储。示例代码展示了如何注册驱动、建立连接及执行SQL查询。建议使用RAM用户提升安全性,并根据需要配置时区和公网访问权限。具体步骤和注意事项请参考阿里云官方文档。

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    102
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    102
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    104
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    88
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    86
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    99
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    109
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    148
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    84
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    118