基于MaxCompute、DataWorks和PAI构建企业数据中台经验分享

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 关于数据中台的构建我在之前的文章中有过多次分享,本篇文章主要聚焦基于阿里云大数据平台构建企业数据中台的经验反馈。

结合过去5年在政府、企业和教育等多个行业落地数据中台的实际经验,多数数据中台以混合云为主(满足企业私密化数据存储和访问需求的私有云部署平台+提供高伸缩性的公有云平台),私有云平台的部署可以选择使用阿里云飞天平台专有云,也可以基于开源体系如Hadoop 3.0 (作为底层Framework+ Spark 3.2 +TensorFlow 2.0公有云平台部署一般选择阿里云云原生大数据计算服务 MaxCompute+大数据开发治理平台 DataWorks+机器学习平台PAI。以下简要概述公有云平台如何进行搭建以及基于阿里云公有云产品体系搭建有哪些好处。

  • 一、海量数据仓库构建

海量数据仓库的构建主要基于阿里云云原生大数据计算服务 MaxCompute,相比于国内其他公有云离线分布式计算引擎, 总结了一下使用MaxCompute直观的几个优势:

  1. 整体使用费用低: 相比于其他公有云厂商产品,MaxCompute数据存储的使用成本优势明显,特别是按量计费部分,其计算资源和下载服务是按照实际使用量付费,而不像其他一些厂商名义上是按量计费,实际上是将包年包月转换成了按分钟按小时收费(哪怕实际上你只使用了存储资源,没有使用计算资源和下载服务也收取相应费用)。
  2. 核心引擎自主可控,满足很多项目客户的核心诉求,隐藏的BUG比较少,后期运维巡检和性能调优部分操作简单。
  3. 支持混合型分析场景: MaxCompute支持流批一体,支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景需要。
  4. 匹配业务发展的弹性扩展:存储和计算独立扩展,动态扩缩容,按需弹性,无需提前容量规划,满足突发业务增长。

根据实际体验,MaxCompute产品本身具有以下特点:

  1. 运维全托管: 阿里云公有云上MaxCompute以全托管的 Serverless 在线服务形式对客户提供服务,开箱即用,操作和使用都比较简单,并提供深度的弹性资源扩展,可以满足企业的超大规模集群资源需求。
  2. 数据安全保护能力强: 阿里云公有云上MaxCompute为企业提供了超过20项安全功能,帮助企业实现了从基础设施(Infrastructure)、平台层(Platform)到用户权限管理、隐私保护等多层安全功能。
  3. 湖仓一体: 提供了自有的湖仓一体功能,集成了对数据湖OSS或者 HDFS的访问分析,支持外表映射、Spark直接访问方式开展数据湖分析;在一套数仓服务和用户接口下,实现湖与仓的关联分析。

关于MaxCompute的更多功能,大家可以访问阿里云官网:云原生大数据计算服务 MaxCompute

  • 二、大数据开发治理平台构建

相比于基于开源Kettle等工具构建大数据开发治理平台,直接使用阿里云DataWorks功能更全,操作也更简单,具体包括:

  1. 图形化支持:DataWorks提供100%的图形化操作支持,这一点对系统集成商来说很重要,可以极大的降低操作难度和实施成本,这是开源产品所不能比拟的。
  2. 支持的异构数据源比较多:  DataWorks目前大约支持50种以上的异构数据源,比如传统的关系型数据库Oracle、DB2、MySQL、PostgreSQL、SQL Server, 开源产品如HDFS、Hive、HBase、Elasticsearch、Kafka、MongoDB、Redis等。
  3. 支持离线和实时数据同步场景
  4. 提供敏感数据智能识别,为存储环节的静态脱敏和使用环节的动态脱敏,内置数据水印算法,支持数据泄露后溯源可能的泄露源,并提供用户异常操作风险监控和审计。
  • 三、机器学习平台构建

通过阿里云机器学习平台PAI进行各种机器学习和深度学习建模,比使用开源平台如TensorFlow等具有以下优势:

  1. 图形化支持力度强: 相比于开源机器学习平台更多的使用命令行和开发API的的使用方式,PAI提供完整的图形化操作支持, 极大的降低了操作使用难度。通过使用PAI-Studio可视化建模平台,用户可以进行各种分布式的大规模传统机器学习计算,也可以进行各种大规模分布式深度学习、强化学习训练, 并支持流批一体训练和计算。
  2. 提供了PAI-DSW云原生交互式建模平台,满足了用户灵活的交互式机器学习开发需求:内置JupyterLab、WebIDE及Terminal,适合不同业务场景及客户需求。
  3. 机器学习算法丰富: PAI内部封装了100多种机器学习算法,支持一键部署。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 产品官网 https://www.aliyun.com/product/bigdata/ide 大数据&AI体验馆 https://workbench.data.aliyun.com/experience.htm#/ 帮助文档https://help.aliyun.com/zh/dataworks 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
9月前
|
机器学习/深度学习 数据采集 人工智能
构建高效机器学习模型的五大技巧
【4月更文挑战第7天】 在数据科学迅猛发展的今天,机器学习已成为解决复杂问题的重要工具。然而,构建一个既精确又高效的机器学习模型并非易事。本文将分享五种提升机器学习模型性能的有效技巧,包括数据预处理、特征工程、模型选择、超参数调优以及交叉验证。这些方法不仅能帮助初学者快速提高模型准确度,也为经验丰富的数据科学家提供了进一步提升模型性能的思路。
|
2月前
|
人工智能 Cloud Native 大数据
DataWorks深度技术解读:构建开放的云原生数据开发平台
Dateworks是一款阿里云推出的云原生数据处理产品,旨在解决数据治理和数仓管理中的挑战。它强调数据的准确性与一致性,确保商业决策的有效性。然而,严格的治理模式限制了开发者的灵活性,尤其是在面对多模态数据和AI应用时。为应对这些挑战,Dateworks进行了重大革新,包括云原生化、开放性增强及面向开发者的改进。通过Kubernetes作为资源底座,Dateworks实现了更灵活的任务调度和容器化支持,连接更多云产品,并提供开源Flowspec和Open API,提升用户体验。
|
2月前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
6月前
|
SQL 分布式计算 DataWorks
利用DataWorks构建高效数据管道
【8月更文第25天】本文将详细介绍如何使用阿里云 DataWorks 的数据集成服务来高效地收集、清洗、转换和加载数据。我们将通过实际的代码示例和最佳实践来展示如何快速构建 ETL 流程,并确保数据管道的稳定性和可靠性。
263 56
|
6月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
435 53
|
8月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
|
8月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
|
8月前
|
数据采集 分布式计算 大数据
森马基于MaxCompute+Hologres+DataWorks构建数据中台
本次案例主要分享森马集团面对多年自建的多套数仓产品体系,通过阿里云MaxCompute+Hologres+DataWorks统一数仓平台,保障数据生产稳定性与数据质量,减少ETL链路及计算时间,每年数仓整体费用从300多万降到180万。
|
7月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何在MaxCompute上使用Protobuf处理数据
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
7月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何实现数据在MaxCompute中是永久的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

热门文章

最新文章