DataWorks+Maxcompute在云数据仓库上,获全球第二

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
数据安全中心,免费版
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 本文基于Now Tech: Cloud Data Warehouse, Q1 2018 (Published: by Noel Yuhanna, March 13, 2018)进行了分析,文中内容仅代表个人观点。

【转】深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

2018年3月13日Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告。报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能、区域表现、细分市场和典型客户等进行了全面评估,最终AWS、阿里巴巴、Google、微软四大巨头杀入全球一线阵营。阿里巴巴DataWorks+MaxCompute成为唯一入选的中国产品。报告中,Forrester强调了CDW的四方面核心能力:

  • 灵活部署:CDW应具有多种灵活的部署模式。针对小型客户,CDW应可提供在线多租户的模式,使客户有能力快速调集计算资源,在数分钟内完成数据仓库的部署。针对大中型客户,CDW应提供独占式或本地部署的模式,提供强大的计算性能和绝对的安全保障,同时屏蔽复杂的技术细节;
  • 高效数据上云:对于未将数据仓库云化的客户,或者采用线上-线下混合架构的客户,CDW应提供快速、低成本的方式,帮助用户完成数据集成。
  • 多样化分析手段:CDW应提供多种技术手段,帮助用户在各种业务场景中,获得想要的数据加工能力。
  • 安全性:CDW的安全性应全面考虑数据加密、审计、脱敏、访问控制等各方面。

DataWorks作为阿里巴巴CDW服务能力的核心,为何能获得Forrester的青睐呢?今天我们来做一个解读。

DataWorks产品架构

在正式开始解读之前,我们先来了解一下DataWorks在阿里云CDW服务体系中的角色,以及DataWorks的产品架构。

image

在阿里云的众多产品中,DataWorksMaxCompute共同构成了CDW服务能力的核心。其中,MaxCompute作为存储计算引擎,扮演了IaaS层支撑的角色,为使用者提供了海量可靠的大数据表存储,以及SQL执行的能力。但是,仅仅有了MaxCompute是不够的。为了让大数据技术能真正的给客户赋能,还需要数据开发、数据集成等一系列CDW服务,而DataWorks就提供了较为完整的解决方案。
具体来看,她包含8个主要模块:

  • 数据集成:异构数据集成,将海量的数据从各种源系统汇集到大数据平台
  • 数据开发:数据仓库设计和ETL开发过程
  • 监控运维:ETL线上作业的运维监控
  • 实时分析:实时探查和分析数据
  • 数据资产管理:元数据管理、数据地图、数据血缘、数据资产大图等
  • 数据质量:数据质量探查、监控、校验和评分体系
  • 数据安全:数据权限管理,数据的分级打标、脱敏,以及数据审计
  • 数据服务:数据共享和数据交换,数据API服务

image

灵活部署

Forrester在报告中大篇幅的阐述了多种部署形态的必要性,并对多家CDW进行了对比,而DataWorks是第一阵营中为数不多的提供多种部署方式的产品。

首先,作为阿里巴巴集团数据中台体系的核心,DataWorks从2009年开始便支持阿里集团、蚂蚁金服、菜鸟等全集团业务。只要使用了淘宝、天猫、蚂蚁金服等产品的数据服务,就有可能间接使用了DataWorks的计算服务。

其次,DataWorks已在公有云中开放。截止目前,DataWorks已服务4000+公有云客户,支撑了新浪微博、人人车、天弘基金等重要客户。

最后,DataWorks还支持专有云输出。作为大数据能力赋能的重要手段,DataWorks出现在了Apsara Enterprise等阿里云专有云解决方案中。从2015年至今,已支撑了包括“城市大脑”、“最多跑一次”等重量级政企项目。通过灵活的部署方式,DataWorks可以满足多种不同形态的客户需求。对于小型用户,可以通过公有云方式灵活支撑;对于大中型客户,专有云或混合云的解决方案也完全可以满足客户需求。

高效数据上云

高效的数据集成方式对企业数据上云的意义不言而喻。在初始上云阶段,企业需要把自己的数据资产快速安全的迁移到云上;在持续运营阶段,企业需要将各种形态的数据输入到CDW中,并将CDW中加工完成的数据结果输出到各个业务单元。

DataWorks的数据集成提供了对多种类型数据源进行读写的能力,包括对关系型数据库、NoSQL数据库、大数据数据库、文本存储(FTP)等,能对数据源头的数据资源能够进行统一清点,并能够在复杂网络情况下对异构的数据源进行数据同步与集成。在具体的导入任务编排上,DataWorks支持离线数据的批量、全量、增量同步,支持分钟、天、小时、周、月来自定义同步时间。

image

DataWorks的数据集成还具有数据流管控的能力,能够从脏数据、数据流速、并发线程数等多个维度管控数据流的行为,多方位节约用户成本,实现精益化管理。

多样化分析手段

DataWorks提供了强大的数据开发IDE,支持从SQL代码编辑、集成任务编辑到业务流程DAG图的可视化编辑。而多人在线协作功能和任务脚本的版本管理功能也非常切合企业级数据开发的实际需求。除了常规的离线处理任务外,DataWorks还提供了轻量级工具“数据分析工作台”,充分利用MaxCompute的计算能力,满足用户即席数据分析的需求。

image

据悉,DataWorks近日还更新了拖曳式业务流程编辑功能,进一步改善用户体验,打造可能是最好用的数据开发IDE。

安全性

DataWorks将数据安全能力视为重中之重,敏感数据防护更需要符合行业规定和数据隐私法律等规定。DataWorks提供了数据安全模块,通过以下几方面提供了全方位的数据安全保护:

  • 多租户隔离:DataWorks拥有自己的多租户权限模型。租户可按需申请资源配额,独立管理自己的资源;租户也可以独立管理自有的数据、权限、用户、角色,彼此隔离,以确保数据安全。
  • 数据安全等级设定:通过数据安全等级,发现和定位敏感数据,明确其在数据资源平台上的分布情况,根据定义的敏感数据类型自动发现敏感数据,并为其分级分类。通常分为绝密、机密、正常等等级进行对应安全规则保障。
  • 数据访问审计:DataWorks对于特权用户的访问有严格的审查流程,包括何时访问,执行哪些操作,执行顺序等等。记录审计特权用户的访问记录,可以确保特权用户在正确的时间完成了正确的操作,审查是否有越轨行为的出现,进而保证数据系统的安全。
  • 数据脱敏:DataWorks能够在在不确定能够排除那些用户,那些访问地址,甚至那些字段为可疑或者有害访问时,关注数据内容本身,抓住敏感信息点,并有针对性地对该部分信息进行动态访问遮蔽,从而达到保护数据安全的目的。
    目前,DataWorks已通过了公安部信息安全等级保护三级认证。

总结

随着社会各行各业“互联网+”改革的深入,企业对数据资产的管理、加工、利用的诉求越来越强烈。利用云计算技术,互联网公司得以快速的将自身的大数据处理能力对外赋能。这也是在Forrester的榜单中,全球主要的四家云服务公司,得以超越Oracle、IBM等老牌数仓技术公司,成为一线CDW供应商的原因。

得益于阿里巴巴多年的数据利用经验沉淀,DataWorks在部署模式、数据集成、分析手段、数据安全等各方面都实现了与企业级需求的高度契合。

据了解,DataWorks还会持续输出更多先进的数据管理理念,包括实时数据集成、数据资产分析等。将云计算技术与数仓管理方法论有机结合,保持不断迭代,致力于打造“最适合于大数据数仓建设的平台”,我想这正是DataWorks入选Forrester CDW榜单的原因。

本文转自:深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

目录
相关文章
|
4天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
8天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
7天前
|
分布式计算 DataWorks 搜索推荐
聊聊DataWorks这个大数据开发治理平台
聊聊DataWorks这个大数据开发治理平台
36 2
|
10天前
|
机器学习/深度学习 存储 数据采集
解锁DataWorks:一站式大数据治理神器
解锁DataWorks:一站式大数据治理神器
32 1
|
4月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
21天前
|
DataWorks 搜索推荐 大数据
聊聊DataWorks——这个一站式智能大数据开发治理平台
聊聊DataWorks——这个一站式智能大数据开发治理平台
48 2
|
4天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
43 0
|
4月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
存储 SQL 分布式计算
MaxCompute 在大规模数据仓库中的应用
【8月更文第31天】随着大数据时代的到来,企业面临着海量数据的存储、处理和分析挑战。传统的数据仓库解决方案在面对PB级甚至EB级的数据规模时,往往显得力不从心。阿里云的 MaxCompute(原名 ODPS)是一个专为大规模数据处理设计的服务平台,它提供了强大的数据存储和计算能力,非常适合构建和管理大型数据仓库。本文将探讨 MaxCompute 在大规模数据仓库中的应用,并展示其相对于传统数据仓库的优势。
144 0
|
4月前
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之写入ODPS目的表时遇到脏数据报错,该怎么解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
117 0

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    120
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    118
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    116
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    100
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    104
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    118
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    123
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    161
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    92
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    133