基于MaxCompute、DataWorks和PAI构建企业数据中台经验分享

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 关于数据中台的构建我在之前的文章中有过多次分享,本篇文章主要聚焦基于阿里云大数据平台构建企业数据中台的经验反馈。

结合过去5年在政府、企业和教育等多个行业落地数据中台的实际经验,多数数据中台以混合云为主(满足企业私密化数据存储和访问需求的私有云部署平台+提供高伸缩性的公有云平台),私有云平台的部署可以选择使用阿里云飞天平台专有云,也可以基于开源体系如Hadoop 3.0 (作为底层Framework+ Spark 3.2 +TensorFlow 2.0公有云平台部署一般选择阿里云云原生大数据计算服务 MaxCompute+大数据开发治理平台 DataWorks+机器学习平台PAI。以下简要概述公有云平台如何进行搭建以及基于阿里云公有云产品体系搭建有哪些好处。

  • 一、海量数据仓库构建

海量数据仓库的构建主要基于阿里云云原生大数据计算服务 MaxCompute,相比于国内其他公有云离线分布式计算引擎, 总结了一下使用MaxCompute直观的几个优势:

  1. 整体使用费用低: 相比于其他公有云厂商产品,MaxCompute数据存储的使用成本优势明显,特别是按量计费部分,其计算资源和下载服务是按照实际使用量付费,而不像其他一些厂商名义上是按量计费,实际上是将包年包月转换成了按分钟按小时收费(哪怕实际上你只使用了存储资源,没有使用计算资源和下载服务也收取相应费用)。
  2. 核心引擎自主可控,满足很多项目客户的核心诉求,隐藏的BUG比较少,后期运维巡检和性能调优部分操作简单。
  3. 支持混合型分析场景: MaxCompute支持流批一体,支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景需要。
  4. 匹配业务发展的弹性扩展:存储和计算独立扩展,动态扩缩容,按需弹性,无需提前容量规划,满足突发业务增长。

根据实际体验,MaxCompute产品本身具有以下特点:

  1. 运维全托管: 阿里云公有云上MaxCompute以全托管的 Serverless 在线服务形式对客户提供服务,开箱即用,操作和使用都比较简单,并提供深度的弹性资源扩展,可以满足企业的超大规模集群资源需求。
  2. 数据安全保护能力强: 阿里云公有云上MaxCompute为企业提供了超过20项安全功能,帮助企业实现了从基础设施(Infrastructure)、平台层(Platform)到用户权限管理、隐私保护等多层安全功能。
  3. 湖仓一体: 提供了自有的湖仓一体功能,集成了对数据湖OSS或者 HDFS的访问分析,支持外表映射、Spark直接访问方式开展数据湖分析;在一套数仓服务和用户接口下,实现湖与仓的关联分析。

关于MaxCompute的更多功能,大家可以访问阿里云官网:云原生大数据计算服务 MaxCompute

  • 二、大数据开发治理平台构建

相比于基于开源Kettle等工具构建大数据开发治理平台,直接使用阿里云DataWorks功能更全,操作也更简单,具体包括:

  1. 图形化支持:DataWorks提供100%的图形化操作支持,这一点对系统集成商来说很重要,可以极大的降低操作难度和实施成本,这是开源产品所不能比拟的。
  2. 支持的异构数据源比较多:  DataWorks目前大约支持50种以上的异构数据源,比如传统的关系型数据库Oracle、DB2、MySQL、PostgreSQL、SQL Server, 开源产品如HDFS、Hive、HBase、Elasticsearch、Kafka、MongoDB、Redis等。
  3. 支持离线和实时数据同步场景
  4. 提供敏感数据智能识别,为存储环节的静态脱敏和使用环节的动态脱敏,内置数据水印算法,支持数据泄露后溯源可能的泄露源,并提供用户异常操作风险监控和审计。
  • 三、机器学习平台构建

通过阿里云机器学习平台PAI进行各种机器学习和深度学习建模,比使用开源平台如TensorFlow等具有以下优势:

  1. 图形化支持力度强: 相比于开源机器学习平台更多的使用命令行和开发API的的使用方式,PAI提供完整的图形化操作支持, 极大的降低了操作使用难度。通过使用PAI-Studio可视化建模平台,用户可以进行各种分布式的大规模传统机器学习计算,也可以进行各种大规模分布式深度学习、强化学习训练, 并支持流批一体训练和计算。
  2. 提供了PAI-DSW云原生交互式建模平台,满足了用户灵活的交互式机器学习开发需求:内置JupyterLab、WebIDE及Terminal,适合不同业务场景及客户需求。
  3. 机器学习算法丰富: PAI内部封装了100多种机器学习算法,支持一键部署。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
14天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
17天前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
1月前
|
机器学习/深度学习 数据采集 数据处理
Scikit-learn Pipeline完全指南:高效构建机器学习工作流
Scikit-learn管道是构建高效、鲁棒、可复用的机器学习工作流程的利器。通过掌握管道的使用,我们可以轻松地完成从数据预处理到模型训练、评估和部署的全流程,极大地提高工作效率。
42 2
Scikit-learn Pipeline完全指南:高效构建机器学习工作流
|
25天前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
45 12
|
1月前
|
机器学习/深度学习 数据采集 算法
从零到一:构建高效机器学习模型的旅程####
在探索技术深度与广度的征途中,我深刻体会到技术创新既在于理论的飞跃,更在于实践的积累。本文将通过一个具体案例,分享我在构建高效机器学习模型过程中的实战经验,包括数据预处理、特征工程、模型选择与优化等关键环节,旨在为读者提供一个从零开始构建并优化机器学习模型的实用指南。 ####
|
1月前
|
机器学习/深度学习 数据采集
机器学习入门——使用Scikit-Learn构建分类器
机器学习入门——使用Scikit-Learn构建分类器
|
1月前
|
机器学习/深度学习 数据采集 搜索推荐
利用Python和机器学习构建电影推荐系统
利用Python和机器学习构建电影推荐系统
95 1
|
4月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
330 53
|
2月前
|
机器学习/深度学习 算法 数据挖掘
机器学习入门(二):如何构建机器学习模型,机器学习的三要素,欠拟合,过拟合
机器学习入门(二):如何构建机器学习模型,机器学习的三要素,欠拟合,过拟合
|
2月前
|
机器学习/深度学习 算法 数据可视化
【机器学习】决策树------迅速了解其基本思想,Sklearn的决策树API及构建决策树的步骤!!!
【机器学习】决策树------迅速了解其基本思想,Sklearn的决策树API及构建决策树的步骤!!!

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    126
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    123
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    117
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    101
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    110
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    120
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    128
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    169
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    93
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    133