基于MaxCompute、DataWorks和PAI构建企业数据中台经验分享

简介: 关于数据中台的构建我在之前的文章中有过多次分享,本篇文章主要聚焦基于阿里云大数据平台构建企业数据中台的经验反馈。

结合过去5年在政府、企业和教育等多个行业落地数据中台的实际经验,多数数据中台以混合云为主(满足企业私密化数据存储和访问需求的私有云部署平台+提供高伸缩性的公有云平台),私有云平台的部署可以选择使用阿里云飞天平台专有云,也可以基于开源体系如Hadoop 3.0 (作为底层Framework+ Spark 3.2 +TensorFlow 2.0公有云平台部署一般选择阿里云云原生大数据计算服务 MaxCompute+大数据开发治理平台 DataWorks+机器学习平台PAI。以下简要概述公有云平台如何进行搭建以及基于阿里云公有云产品体系搭建有哪些好处。

  • 一、海量数据仓库构建

海量数据仓库的构建主要基于阿里云云原生大数据计算服务 MaxCompute,相比于国内其他公有云离线分布式计算引擎, 总结了一下使用MaxCompute直观的几个优势:

  1. 整体使用费用低: 相比于其他公有云厂商产品,MaxCompute数据存储的使用成本优势明显,特别是按量计费部分,其计算资源和下载服务是按照实际使用量付费,而不像其他一些厂商名义上是按量计费,实际上是将包年包月转换成了按分钟按小时收费(哪怕实际上你只使用了存储资源,没有使用计算资源和下载服务也收取相应费用)。
  2. 核心引擎自主可控,满足很多项目客户的核心诉求,隐藏的BUG比较少,后期运维巡检和性能调优部分操作简单。
  3. 支持混合型分析场景: MaxCompute支持流批一体,支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景需要。
  4. 匹配业务发展的弹性扩展:存储和计算独立扩展,动态扩缩容,按需弹性,无需提前容量规划,满足突发业务增长。

根据实际体验,MaxCompute产品本身具有以下特点:

  1. 运维全托管: 阿里云公有云上MaxCompute以全托管的 Serverless 在线服务形式对客户提供服务,开箱即用,操作和使用都比较简单,并提供深度的弹性资源扩展,可以满足企业的超大规模集群资源需求。
  2. 数据安全保护能力强: 阿里云公有云上MaxCompute为企业提供了超过20项安全功能,帮助企业实现了从基础设施(Infrastructure)、平台层(Platform)到用户权限管理、隐私保护等多层安全功能。
  3. 湖仓一体: 提供了自有的湖仓一体功能,集成了对数据湖OSS或者 HDFS的访问分析,支持外表映射、Spark直接访问方式开展数据湖分析;在一套数仓服务和用户接口下,实现湖与仓的关联分析。

关于MaxCompute的更多功能,大家可以访问阿里云官网:云原生大数据计算服务 MaxCompute

  • 二、大数据开发治理平台构建

相比于基于开源Kettle等工具构建大数据开发治理平台,直接使用阿里云DataWorks功能更全,操作也更简单,具体包括:

  1. 图形化支持:DataWorks提供100%的图形化操作支持,这一点对系统集成商来说很重要,可以极大的降低操作难度和实施成本,这是开源产品所不能比拟的。
  2. 支持的异构数据源比较多:  DataWorks目前大约支持50种以上的异构数据源,比如传统的关系型数据库Oracle、DB2、MySQL、PostgreSQL、SQL Server, 开源产品如HDFS、Hive、HBase、Elasticsearch、Kafka、MongoDB、Redis等。
  3. 支持离线和实时数据同步场景
  4. 提供敏感数据智能识别,为存储环节的静态脱敏和使用环节的动态脱敏,内置数据水印算法,支持数据泄露后溯源可能的泄露源,并提供用户异常操作风险监控和审计。
  • 三、机器学习平台构建

通过阿里云机器学习平台PAI进行各种机器学习和深度学习建模,比使用开源平台如TensorFlow等具有以下优势:

  1. 图形化支持力度强: 相比于开源机器学习平台更多的使用命令行和开发API的的使用方式,PAI提供完整的图形化操作支持, 极大的降低了操作使用难度。通过使用PAI-Studio可视化建模平台,用户可以进行各种分布式的大规模传统机器学习计算,也可以进行各种大规模分布式深度学习、强化学习训练, 并支持流批一体训练和计算。
  2. 提供了PAI-DSW云原生交互式建模平台,满足了用户灵活的交互式机器学习开发需求:内置JupyterLab、WebIDE及Terminal,适合不同业务场景及客户需求。
  3. 机器学习算法丰富: PAI内部封装了100多种机器学习算法,支持一键部署。
相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
目录
相关文章
|
9月前
|
存储 分布式计算 DataWorks
从MaxCompute到Milvus:通过DataWorks进行数据同步,实现海量数据高效相似性检索
如果您需要将存储在MaxCompute中的大规模结构化数据导入Milvus,以支持高效的向量检索和相似性分析,可以通过DataWorks的数据集成服务实现无缝同步。本文介绍如何利用DataWorks,快速完成从MaxCompute到Milvus的离线数据同步。
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
733 53
|
DataWorks 关系型数据库 MySQL
DataWorks产品使用合集之RDS和ADB的区别是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
688 2
|
分布式计算 运维 DataWorks
MaxCompute操作报错合集之用户已在DataWorks项目中,并有项目的开发和运维权限,下载数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
262 8
|
消息中间件 分布式计算 DataWorks
MaxCompute产品使用合集之如何在DataWorks中引用MC资源
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
260 6
|
存储 分布式计算 DataWorks
DataWorks产品使用合集之在本地客户端一直无法连接ADB MySQL,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
264 0
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之如何在DataWorks中实现离线同步多个分表到MC的多级分区表
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
293 0
|
分布式计算 DataWorks 大数据
MaxCompute产品使用合集之DataWorks中如何根据MC数据源做成api
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
144 0
|
6月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
425 14

热门文章

最新文章