看云栖说云栖——大数据企业服务

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: DataWorks提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的大数据开发和管理服务。

年兽带领动物们攻入幸福能量管理公司!
——《年兽大作战》

本文内容取自2019杭州云栖大会《大数据企业服务专场》。

分会场开场演讲的题目叫做《阿里云大数据企业服务架构》,阿里云专家研究了国内外企业大数据的需求现状得出了以下结论:

  • 单一引擎或单一存储很难满足客户需要:数据/存储千差万别,计算引擎各种各样,开发生态各不相同,需求百花齐放。
  • 纯线下建数据中心不符合潮流趋势:成本、异地多活、容灾、弹性扩缩容、可触达性、实时、生态。
  • 一次性上云实施很难接受:业务中断,切换风险,总体成本,信息安全。
  • 需要的变化:从单引擎到多引擎、单一数据源到多数据源、统一的数据管理和开发、生态。
  • 当前最佳方式:跨引擎统一编程平台+跨数据源综合治理。

下一步就引出本次分论坛的主题了:一站式跨引擎大数据智能研发平台。

现阶段,企业用户需要的不是同统一的大数据计算引擎,而是统一的大数据智能研发平台,阿里云管这个平台叫做DataWorks。

DataWorks的官网介绍如下:

DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS平台产品,为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks为您提供全链路智能大数据及AI开发和治理服务。

从下图可以看到DataWorks在阿里云大数据和AI平台中的位置:
1.jpg

(图片来自云栖社区)

DataWorks起到的作用包括:

  • 最底层的统一元数据管理。
  • 中间层的统一调度、统一编排
  • 最上层的数据综合治理,包括:数据发现、数据构建、数据丰富、数据分类、数据剖析、数据血缘、数据分析、数据查询、数据管理、数据交换

阿里云在本次云栖大会上发布了DataWorks V3.0,突出特点包括:

  • 全面支持开源大数据生态
  • 升级混合调度能力、支持跨引擎、跨地域、跨云混合调度
  • AI加持
  • 升级数据综合治理、包括元数据自动发现、数据探查、洞察、透视分析,完善数据质量控制与安全审计机制。

随着DataWorks3.0 的发布,阿里云就是要打破数据量与成本的线性关系,通过性能优化、存储空间优化和智能数据治理降低客户上云成本。国内最大的IT技术网站CSDN通过引入DataWorks实现了基于飞天大数据平台的新媒体数据中台,计算效率提升近3倍、辅助提升业务指标30-50%,成本降低30%。CSDN 通过DataWorks支持的业务线包括:商场、博客、下载、学院、论坛、问答、用户等。

能否妥善解决数据的安全问题是企业上云最大的顾虑之一,DataWorks的数据应用安全解决方案能够提升企业用户在权限管控、数据保护、风险治理方面的能力,防止企业的数据被泄露、滥用、误用。
2.jpg

(图片来自云栖社区)

  • 整个阿里云的大数据平台包括MaxCompute、DataWorks等,都基于MAC(强制访问控制),不同于DAC(自主访问控制),在MAC中所有的主体(用户)、客体(数据)都被打上了安全标签,只有满足系统安全策略定义的操作才被允许执行。
  • 权限管控可以细化到表甚至字段级别,可以保证敏感数据不被低安全级别的主体所访问。
  • 对资源的授权和使用操作都将计入行为审计日志中,可以根据用户的行为随时回收权限。
  • 针对数据内容的保护提供静态脱敏和查分隐私两种方案,针对普通的数据保护需求可以使用静态脱敏,针对数据要提供给第三方进行大数据分析的场景可以使用差分脱敏技术,使得经过脱敏变换后的数据在统计学上与原数据具有相同的统计学特征。

差分隐私,脱敏后的数据和源数据具有相同的统计特征,使得数据可用不可见。
3.jpg

(图片来自云栖社区)

最后是DataWorks3.0 功能细节的介绍,DataWorks3.0 的改进包括但不限于如下方面:

  • 全域数据集成、新增异构数据源之间传输过程中的数据转换能力,支持数据过滤、连接、联合、聚合等操作,完整支持ETL能力体系。
  • 全域数据开发平台XStudio、提供完全的插件化框架,支持各类计算引擎开发插件,提供智能代码编辑器及DAG-SQL(界面拖拽和SQL语句)相互转换、提供作业统一调度能力。
  • 混合编排调度、支持跨引擎(支持开源和E-MapReduce)、跨云混合编排调度和跨地域依赖调度,支持千万级别的任务调度管理。
  • 自定义计算节点接入、支持自建的计算节点接入DataWorks,支持数据库、自建Hadoop/Spark集群以及其他云厂商的计算服务。
  • 数据综合治理、提供数据发现机制,支持统一的元数据采集和数据资产目录构建,支持数据探查与数据分析、联邦查询及资源优化服务。

基于以上这些功能特性,阿里云提出了《DataWorks3.0 混合云》和《DataWorks3.0 数据湖》两个结局方案。混合云解决方案通过将线下数据中心的计算节点接入到DataWorks实现全域数据集成以及统一的调度和开发。数据湖解决方案主要应用了数据治理和联邦查询方面的功能。

以上,就是我在2019杭州云栖大会《大数据企业服务》分会场看到的主要内容。

今天是大年初一,祝大家新年快乐,致敬还奋战在一线的医务人员们。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
存储 分布式计算 运维
【2023云栖】刘一鸣:Data+AI时代大数据平台建设的思考与发布
本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:刘一鸣 | 阿里云自研大数据产品负责人 演讲主题:Data+AI时代大数据平台应该如何建设
102198 15
|
1月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
180 1
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
1月前
|
人工智能 分布式计算 大数据
云栖实录 | MaxCompute 迈向下一代的智能云数仓
2024年云栖大会上,阿里云核心自研云原生智能数据仓库产品MaxCompute,在经过一年的深度打磨后,推出了其迈向下一代智能云数据仓的系列主题分享。此次产品发布,充分展示MaxCompute产品领先行业的云数据产品发展理念与核心优势。
260 0
|
人工智能 大数据 调度
【云栖2023】林伟:大数据AI一体化的解读
本文根据2023云栖大会阿里云研究员,阿里云计算平台事业部首席架构师,阿里云人工智能平台PAI和大数据开发治理平台DataWorks负责人---林伟演讲实录整理而成,演讲主题:”大数据AI一体化的解读“。
|
存储 人工智能 分布式计算
【云栖2023】张治国:MaxCompute架构升级及开放性解读
本文根据2023云栖大会演讲实录整理而成,演讲信息如下 演讲人:张治国|阿里云智能计算平台研究员、阿里云MaxCompute负责人 演讲主题:MaxCompute架构升级及开放性解读 活动:2023云栖大会
60912 16
|
11月前
|
存储 人工智能 大数据
2023云栖陈守元,阿里云开源大数据产品年度发布
阿里云计算平台事业部开源大数据产品总监陈守元围绕EMR、Flink Streaming Lakehouse、 Elasticsearch、Milvus等产品发布展开分享介绍。
451 3
|
存储 SQL 人工智能
贾扬清演讲实录:阿里云一体化大数据智能平台的演进丨2022云栖一体化大数据智能峰会
贾扬清在一体化大数据智能峰会论坛上分享立足于数据这个领域,数据和智能之间创新的火花。
贾扬清演讲实录:阿里云一体化大数据智能平台的演进丨2022云栖一体化大数据智能峰会
|
存储 运维 分布式计算
|
机器学习/深度学习 分布式计算 搜索推荐
【云栖号案例 | 互联网】驻云科技基于MaxCompute搭建社交好友推荐系统
公司需要具备海量的数据、处理数据的能力、商业变现的场景才能使用大数据。通过MaxCompute搭建数据仓库,提供分布式的系统,将好友推荐系统在阿里云上实现。
|
SQL 数据采集 运维
【云栖号案例 | 互联网】上海鸥新基于大数据平台打造分析商场实时客流分析系统
上海鸥新通过实时计算打通线下与线上,免运维、免开发,为商场提供不同维度数据支持,提高运营活动效果,效率高、门槛低、BUG少,系统重构只需一周。