看云栖说云栖——大数据企业服务

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: DataWorks提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的大数据开发和管理服务。

年兽带领动物们攻入幸福能量管理公司!
——《年兽大作战》

本文内容取自2019杭州云栖大会《大数据企业服务专场》。

分会场开场演讲的题目叫做《阿里云大数据企业服务架构》,阿里云专家研究了国内外企业大数据的需求现状得出了以下结论:

  • 单一引擎或单一存储很难满足客户需要:数据/存储千差万别,计算引擎各种各样,开发生态各不相同,需求百花齐放。
  • 纯线下建数据中心不符合潮流趋势:成本、异地多活、容灾、弹性扩缩容、可触达性、实时、生态。
  • 一次性上云实施很难接受:业务中断,切换风险,总体成本,信息安全。
  • 需要的变化:从单引擎到多引擎、单一数据源到多数据源、统一的数据管理和开发、生态。
  • 当前最佳方式:跨引擎统一编程平台+跨数据源综合治理。

下一步就引出本次分论坛的主题了:一站式跨引擎大数据智能研发平台。

现阶段,企业用户需要的不是同统一的大数据计算引擎,而是统一的大数据智能研发平台,阿里云管这个平台叫做DataWorks。

DataWorks的官网介绍如下:

DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS平台产品,为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks为您提供全链路智能大数据及AI开发和治理服务。

从下图可以看到DataWorks在阿里云大数据和AI平台中的位置:
1.jpg

(图片来自云栖社区)

DataWorks起到的作用包括:

  • 最底层的统一元数据管理。
  • 中间层的统一调度、统一编排
  • 最上层的数据综合治理,包括:数据发现、数据构建、数据丰富、数据分类、数据剖析、数据血缘、数据分析、数据查询、数据管理、数据交换

阿里云在本次云栖大会上发布了DataWorks V3.0,突出特点包括:

  • 全面支持开源大数据生态
  • 升级混合调度能力、支持跨引擎、跨地域、跨云混合调度
  • AI加持
  • 升级数据综合治理、包括元数据自动发现、数据探查、洞察、透视分析,完善数据质量控制与安全审计机制。

随着DataWorks3.0 的发布,阿里云就是要打破数据量与成本的线性关系,通过性能优化、存储空间优化和智能数据治理降低客户上云成本。国内最大的IT技术网站CSDN通过引入DataWorks实现了基于飞天大数据平台的新媒体数据中台,计算效率提升近3倍、辅助提升业务指标30-50%,成本降低30%。CSDN 通过DataWorks支持的业务线包括:商场、博客、下载、学院、论坛、问答、用户等。

能否妥善解决数据的安全问题是企业上云最大的顾虑之一,DataWorks的数据应用安全解决方案能够提升企业用户在权限管控、数据保护、风险治理方面的能力,防止企业的数据被泄露、滥用、误用。
2.jpg

(图片来自云栖社区)

  • 整个阿里云的大数据平台包括MaxCompute、DataWorks等,都基于MAC(强制访问控制),不同于DAC(自主访问控制),在MAC中所有的主体(用户)、客体(数据)都被打上了安全标签,只有满足系统安全策略定义的操作才被允许执行。
  • 权限管控可以细化到表甚至字段级别,可以保证敏感数据不被低安全级别的主体所访问。
  • 对资源的授权和使用操作都将计入行为审计日志中,可以根据用户的行为随时回收权限。
  • 针对数据内容的保护提供静态脱敏和查分隐私两种方案,针对普通的数据保护需求可以使用静态脱敏,针对数据要提供给第三方进行大数据分析的场景可以使用差分脱敏技术,使得经过脱敏变换后的数据在统计学上与原数据具有相同的统计学特征。

差分隐私,脱敏后的数据和源数据具有相同的统计特征,使得数据可用不可见。
3.jpg

(图片来自云栖社区)

最后是DataWorks3.0 功能细节的介绍,DataWorks3.0 的改进包括但不限于如下方面:

  • 全域数据集成、新增异构数据源之间传输过程中的数据转换能力,支持数据过滤、连接、联合、聚合等操作,完整支持ETL能力体系。
  • 全域数据开发平台XStudio、提供完全的插件化框架,支持各类计算引擎开发插件,提供智能代码编辑器及DAG-SQL(界面拖拽和SQL语句)相互转换、提供作业统一调度能力。
  • 混合编排调度、支持跨引擎(支持开源和E-MapReduce)、跨云混合编排调度和跨地域依赖调度,支持千万级别的任务调度管理。
  • 自定义计算节点接入、支持自建的计算节点接入DataWorks,支持数据库、自建Hadoop/Spark集群以及其他云厂商的计算服务。
  • 数据综合治理、提供数据发现机制,支持统一的元数据采集和数据资产目录构建,支持数据探查与数据分析、联邦查询及资源优化服务。

基于以上这些功能特性,阿里云提出了《DataWorks3.0 混合云》和《DataWorks3.0 数据湖》两个结局方案。混合云解决方案通过将线下数据中心的计算节点接入到DataWorks实现全域数据集成以及统一的调度和开发。数据湖解决方案主要应用了数据治理和联邦查询方面的功能。

以上,就是我在2019杭州云栖大会《大数据企业服务》分会场看到的主要内容。

今天是大年初一,祝大家新年快乐,致敬还奋战在一线的医务人员们。


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
人工智能 大数据 调度
【云栖2023】林伟:大数据AI一体化的解读
本文根据2023云栖大会阿里云研究员,阿里云计算平台事业部首席架构师,阿里云人工智能平台PAI和大数据开发治理平台DataWorks负责人---林伟演讲实录整理而成,演讲主题:”大数据AI一体化的解读“。
|
5月前
|
存储 人工智能 大数据
2023云栖陈守元,阿里云开源大数据产品年度发布
阿里云计算平台事业部开源大数据产品总监陈守元围绕EMR、Flink Streaming Lakehouse、 Elasticsearch、Milvus等产品发布展开分享介绍。
294 2
|
存储 运维 分布式计算
|
存储 SQL 人工智能
贾扬清演讲实录:阿里云一体化大数据智能平台的演进丨2022云栖一体化大数据智能峰会
贾扬清在一体化大数据智能峰会论坛上分享立足于数据这个领域,数据和智能之间创新的火花。
贾扬清演讲实录:阿里云一体化大数据智能平台的演进丨2022云栖一体化大数据智能峰会
|
存储 机器学习/深度学习 人工智能
看云栖说云栖——大数据 & AI
AI加持的大数据最终还是为了AI。
728 0
|
机器学习/深度学习 存储 SQL
看云栖说云栖 —— 大数据生态
Flink是主角、E-MapReduce、MaxCompute是配角。
1002 0
|
人工智能 物联网 大数据
云栖科技评论第60期:云、大数据与AI:大科学时代的“三剑客”
简单一句话:数据是介质,云是协作平台,AI是知识发现的助力。有趣的是,随着支持大科学时代的大尺度问题的解决,不断面对大规模数据计算与存储、大范围协作平台以及深层次知识发现等问题的云与AI,也将得到“反哺”,得以实现“高维”学习,持续提高其功能与能力。
3473 0
|
人工智能 分布式计算 大数据
【广州云栖大数据/人工智能会场信息】全新一代人工智能引擎MaxCompute惊艳全场
11月22日在广州举办的2017年云栖大会·广东分会今天拉开序幕,小编已经深深感受到了华南地区小伙伴们的热情,针对大家好奇的问题,如本届广东分会阿里云会有什么亮点?邀请了哪些嘉宾?展台会有什么活动等等问题,小编在这里为大家做个现场报道吧!
4278 0
|
分布式计算 算法 大数据
基于数加,全民众筹平台开启大数据智能时代 | 上海云栖
大家下午好,我是轻松筹CTO李汐,欢迎来到上海云栖大会的大数据专场。 今天我要和大家分享的是:基于数加平台,轻松筹如何开启大数据时代。 今天,主要和大家从以下三个方面来分享: 背景(Why) 轻松筹做大数据的目的是希望 真正给用户带来价值,给企业带来增长 轻松筹于2014年9月成立,经过一年的时间在2015年9月注册用户达到100万,2016年9月 经过2年时间注册用户突破1亿,并入选民政部网络募捐平台。
3760 0

热门文章

最新文章