基于MaxCompute、DataWorks和PAI构建企业数据中台经验分享

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
大数据开发治理平台 DataWorks,不限时长
简介: 关于数据中台的构建我在之前的文章中有过多次分享,本篇文章主要聚焦基于阿里云大数据平台构建企业数据中台的经验反馈。

结合过去5年在政府、企业和教育等多个行业落地数据中台的实际经验,多数数据中台以混合云为主(满足企业私密化数据存储和访问需求的私有云部署平台+提供高伸缩性的公有云平台),私有云平台的部署可以选择使用阿里云飞天平台专有云,也可以基于开源体系如Hadoop 3.0 (作为底层Framework+ Spark 3.2 +TensorFlow 2.0公有云平台部署一般选择阿里云云原生大数据计算服务 MaxCompute+大数据开发治理平台 DataWorks+机器学习平台PAI。以下简要概述公有云平台如何进行搭建以及基于阿里云公有云产品体系搭建有哪些好处。

  • 一、海量数据仓库构建

海量数据仓库的构建主要基于阿里云云原生大数据计算服务 MaxCompute,相比于国内其他公有云离线分布式计算引擎, 总结了一下使用MaxCompute直观的几个优势:

  1. 整体使用费用低: 相比于其他公有云厂商产品,MaxCompute数据存储的使用成本优势明显,特别是按量计费部分,其计算资源和下载服务是按照实际使用量付费,而不像其他一些厂商名义上是按量计费,实际上是将包年包月转换成了按分钟按小时收费(哪怕实际上你只使用了存储资源,没有使用计算资源和下载服务也收取相应费用)。
  2. 核心引擎自主可控,满足很多项目客户的核心诉求,隐藏的BUG比较少,后期运维巡检和性能调优部分操作简单。
  3. 支持混合型分析场景: MaxCompute支持流批一体,支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景需要。
  4. 匹配业务发展的弹性扩展:存储和计算独立扩展,动态扩缩容,按需弹性,无需提前容量规划,满足突发业务增长。

根据实际体验,MaxCompute产品本身具有以下特点:

  1. 运维全托管: 阿里云公有云上MaxCompute以全托管的 Serverless 在线服务形式对客户提供服务,开箱即用,操作和使用都比较简单,并提供深度的弹性资源扩展,可以满足企业的超大规模集群资源需求。
  2. 数据安全保护能力强: 阿里云公有云上MaxCompute为企业提供了超过20项安全功能,帮助企业实现了从基础设施(Infrastructure)、平台层(Platform)到用户权限管理、隐私保护等多层安全功能。
  3. 湖仓一体: 提供了自有的湖仓一体功能,集成了对数据湖OSS或者 HDFS的访问分析,支持外表映射、Spark直接访问方式开展数据湖分析;在一套数仓服务和用户接口下,实现湖与仓的关联分析。

关于MaxCompute的更多功能,大家可以访问阿里云官网:云原生大数据计算服务 MaxCompute

  • 二、大数据开发治理平台构建

相比于基于开源Kettle等工具构建大数据开发治理平台,直接使用阿里云DataWorks功能更全,操作也更简单,具体包括:

  1. 图形化支持:DataWorks提供100%的图形化操作支持,这一点对系统集成商来说很重要,可以极大的降低操作难度和实施成本,这是开源产品所不能比拟的。
  2. 支持的异构数据源比较多:  DataWorks目前大约支持50种以上的异构数据源,比如传统的关系型数据库Oracle、DB2、MySQL、PostgreSQL、SQL Server, 开源产品如HDFS、Hive、HBase、Elasticsearch、Kafka、MongoDB、Redis等。
  3. 支持离线和实时数据同步场景
  4. 提供敏感数据智能识别,为存储环节的静态脱敏和使用环节的动态脱敏,内置数据水印算法,支持数据泄露后溯源可能的泄露源,并提供用户异常操作风险监控和审计。
  • 三、机器学习平台构建

通过阿里云机器学习平台PAI进行各种机器学习和深度学习建模,比使用开源平台如TensorFlow等具有以下优势:

  1. 图形化支持力度强: 相比于开源机器学习平台更多的使用命令行和开发API的的使用方式,PAI提供完整的图形化操作支持, 极大的降低了操作使用难度。通过使用PAI-Studio可视化建模平台,用户可以进行各种分布式的大规模传统机器学习计算,也可以进行各种大规模分布式深度学习、强化学习训练, 并支持流批一体训练和计算。
  2. 提供了PAI-DSW云原生交互式建模平台,满足了用户灵活的交互式机器学习开发需求:内置JupyterLab、WebIDE及Terminal,适合不同业务场景及客户需求。
  3. 机器学习算法丰富: PAI内部封装了100多种机器学习算法,支持一键部署。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
11天前
|
分布式计算 DataWorks Java
DataWorks操作报错合集之在使用MaxCompute的Java SDK创建函数时,出现找不到文件资源的情况,是BUG吗
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
30 0
|
11天前
|
分布式计算 DataWorks Oracle
DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
33 0
|
11天前
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
29 0
|
11天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
27 0
|
11天前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之在DataWorks数据集成中,但是预览ODPS源数据库为空,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
32 0
|
11天前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之在DataWorks中使用ODPS SQL时遇到"该文件对应引擎实例已失效,请重新选择可用的引擎实例"的错误提示”,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
40 0
|
11天前
|
SQL JSON 分布式计算
DataWorks产品使用合集之DataWorks一键maxcompute数据同步的操作步骤是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
27 0
|
11天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
33 1
|
11天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之在 MaxCompute 中,有LEAST 的内置函数如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
17 0
|
11天前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之DataWorks maxcompute的自定义资源增加如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
27 0

热门文章

最新文章