3.基于 DataWorks 的大数据&AI解决方案|学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习3.基于 DataWorks 的大数据&AI解决方案

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程3.基于 DataWorks 的大数据&AI解决方案】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1224


3.基于 DataWorks 的大数据&AI解决方案

内容介绍:

一、企业技术资源的增长往往赶不上业务和数据的增长

二、企业大数据技术以简化架构为核心

三、大数据解决方案矩阵

四、数据上云解决方案

五、离线实时一体化数据仓库解决方案

六、数掘湖分析解决方案

七、数据综合治理解决方案

八、湖仓体解决方案

九、智能推荐解决方案

内容简介:

基于 DataWorks 的大数据和AI的解决方案,之前对于 DataWorks 产品本身的功能以及底层引擎的功能有了一定的了解,但是对于很多企业,到底选择什么样的产品组合更加适合企业有更好的优势,是一个问题,那么在这一节的内容中会介绍一下和 DataWorks 组合的各个引擎产品,形成大数据和Al的解决方案是什么?

一、企业技术资源的增长往往赶不上业务和数据的增长

image.png

这个三角可以比较好的形容企业目前不管是技术业务还是数据的现状,从数据端会发现数据的种类类型越越多,不仅仅是量变得越越大,从技术端会发现不管是老的技术还是新的技术层出不穷,企业要开始去研究各种各样的相关的技术满足业务的需要,从业务上说,又会给技术和数据提出更多的要求,不管是实时的场景,还是分析的场景,还是智能推荐的一些场景,甚至现在的一些直播的场景,都会给的数据和技术提出更高的要求对于企业现状,往往技术资源或者技术能力的增长逐渐的赶不上业务和数据增长的要求。


二、企业大数据技术以简化架构为核心

image.png避免头痛医头脚痛医脚,简化纷繁复杂的技术架构从企业的it角度看,大数据相关的技术到底应该从什么样的角度满足企业的数据和业务不断增长的要求,总结一共有4个点,其中最为核心的就是要简化大数据的架构。因为对于企业要避免问题,引入一个新的开源组件,或者引入一个新的技术体系解决这样的问题,就是头痛医头脚痛医脚,然后需要通过一个简单的技术架构,然后去解决多样化的一个问题。

简化架构

1、快速迭代

云原生架构,开箱即用的大数据技术让企业不用具备非常多的技术人员,就能够比较好的使用一些大数据的体系。

2、成本控制

份存储多种计算,大幅降低成本不需要在云上时或在实时场景把一些数据实时的导入到另一份存储系统当中做查询,这个是对于成本的控制。

3、性能突破

以业务为导向,满足业务持续进化需求持续的能够做一些性能的突破,不管是离线的还是实时的,都需要有非常强的性能

4、持续稳定

SLA 稳定性保障弹性伸缩能力


三、大数据解决方案矩阵

image.png

以简化的技术架构满足企业不同阶段/不同需求/不同业务的需求

1、数据上云

(1)数据源

开源数据平台实时数据源云厂商

(2)工具+服务

DataWorks数据集成MMA闪电立方DataX专家服务

首先是整体的数据上云的解决方案,就是对于企业有不同的数据源,会提供不同的工具和服务,不管是数据集成,还是一些牵相关的专家服务,能够让企业把数据非常好的上云

2离线实时一体化数据仓库

MaxCompute+MC-Hologres+实时计算 Flink 版+DataWorks 实现离线实时一体化仓库

同时有一些企业可能没有要做这种流pe仓,也给企业提供选择,比如可以单独搭建离线的数仓,还有实时的数仓,并且对于企业,它的技术引擎不一样。

(1)离线数据仓库

自研引擎: MaxCompute+DataWorks阿里云

开源引擎: EMR (Hive, Spark)+DataWorks

(2)实时数据仓库

自研引擎:实时计算Flink版+MC-Hologres+DataWorks

开源引擎: EMR ( kudu+Presto; Delta Lake + Spark) +DataWorks

相当对企业,

3、日志分析检索

Elasticsearch

4、数据湖

EMR+OSS,以及其他的数据湖的能力

5、湖仓一体

在2020年推出,能够把数据湖的优势和数据仓的优势相结合,实现数据湖和数据仓的打通。

6、数据综合治理

当的数据通过数仓处理完后,会需要做一个数据的综综合治理,在这个数据治理里面,通过这个 DataWorks 产品很多的能力去沉淀阿里巴巴这么多年的数据综合治理的最佳实践,然后以产品化的形式输出给大家

7、业务能力输出

(1)人工智能

AI平台AI产品AI专家服务推荐解决方案

(2)数据交换

数据共享平台数据开放平台数据市场

(3)数据中台

金融新零售政府国企

这些都可以基于大数据的解决方案举证做搭建,这个是整体的解决方案举证。


四、数据上云解决方案

image.png

DataWorks 数据集成( 离线同步/实时同步)

1、支持丰富的数据源

开源生态RDBMS + NoSQL数据库其它云厂商

2、支持复杂场景迁移

有专线/无专线迁移方案

3、成本降低+性能提升

TCO成本下降对比Hive性能提升2~5倍

4、专家服务保障

专业的迁移服务团队

不仅仅能够支持非常丰富的各种各样的数据源,同时也支持复杂场景的迁移,不管是企业是有专线的还是没有专线的,同时在上面的时候也能够对企业实行成本的降低和性能的提升,最后会有专家服务保证数据平稳的迁移上云。数据源通过各种工具和服务专家服务的形式,可以把数据导入希望存储的大数据平台,不管是自研还是开源的平台

五、离线实时一体化数据仓库解决方案

image.png

架构非常清晰,不需要去搭建非常多的开源的组件实现功能,只需要简单通过几个产品DataWorks+MaxCompute+MC-Hologres+实时计算实现即可,都是经历了双11级别的大考,世界级场景的这种信任的检验

1、架构清晰

离线实时一体化数仓最简单大数据分析架构

2、性能强大

EB 级离线计算PB级数据亚秒级分析

3、成本下降

TCO 下降30%

企业也可以根据自己的情况单独的选择离线和实时数据仓库的搭建。

数据湖分析解决方案

image.png

DataWorks+EMR开源大数据计算平台

1、数据整合

多源数据整合,数据可靠性达99.9999999999%

2弹性伸缩

存储与计算分离计算弹性伸缩自定义

3、加速分析

JindoFS 加速文件系统高效读取OSS数据

基于oss加上emr里面有JindoFS的功能,再加上DataWorks的对接开源的emr,进行大数据开发和治理,可以实现在数据场景下的分析的解决方案。


六、数据综合治理解决方案

image.png

DataWorks 数据综合治理

1、阿里巴巴最佳实践

基于10年打磨的阿里智能云数仓之上的大数据综合治理最佳实践

2、一站式数据治理平台

包含数据资产管理,数据质量,安全管控,多引擎任务调度,数据血缘等多种数据治理能力

3、成本最佳解决方案品

数据存储+数据计算+数据治理三者结合的最佳性价比方案

覆盖数据汇聚、加工、使用的全链路,面向数据管理、生产和消费多视角,提供站式体系化的治理能力


七、湖仓一体解决方案

image.png

DataWorks+MaxCompute+EMR

1、快速接入

线下IDC或云上 Hadoop 自建均可快速开通与智能数仓 MaxCompute资源相连通。

2、统一数据/元数据管理

Hadoop 集群中的 Hive Database 直接映射为 MaxCompute Project,享受数仓配套工具链。

3、开发体验

基于 DataWorks 统一湖仓开发体验

4、自动数仓

极大降低数据迁移和作业迁移的难度。混合计算架构,合理的数据分层,同时享受数据湖带来的灵活性以及 MaxCompute 带来的企业级

数仓能力。

湖仓一体的方案是2020年下半年新推出的方案,它可以实现数据与数据仓的打通,如果现在企业它自己搭建了一套数据体系,又一套数据仓库的体系,可以通过这种方案,通过湖仓一体的解决方案实现两者的打通。

八、智能推荐解决方案

image.png

DataWorks+MaxCompute+PAI 底层的数据更多的存储在 MaxCompute ,然后数据的加工和存储都可以通过 DataWorks。处理完成后,可以在PAI上面基于Al的训练和推理,然后服务一些推荐相关的业务,在很多的客户那边也能够很明显的提升客户的一些模型的缺点,同时行业场景也非常的通用,在这个行业里面都有推荐相关的场景,这个是基于 DataWorks+MaxCompute+PAI 智能推荐解决方案。

1、效果提升

平均模型准确率提升2个点

2、场景通用

电商/资讯/广告/互娱/直播/社交/音视频等所有互联网推荐业务相关场景

3、开箱即用

支持全托管/半托管免运维/轻运维

4、降本提效

模型训练,模型服务弹性伸缩速度提升

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
2月前
|
人工智能 安全 数据中心
|
3月前
|
运维 监控 关系型数据库
AI 时代的 MySQL 数据库运维解决方案
本文探讨了大模型与MySQL数据库运维结合所带来的变革,介绍了构建结构化运维知识库、选择合适的大模型、设计Prompt调用策略、开发MCP Server以及建立监控优化闭环等关键步骤。通过将自然语言处理能力与数据库运维相结合,实现了故障智能诊断、SQL自动优化等功能,显著提升了MySQL运维效率和准确性。
353 18
|
3月前
|
人工智能 自然语言处理 运维
阿里云 X 瓴羊:AI Stack一体机上新解决方案,重构企业问数与客服交互
简介:瓴羊基于阿里云AI Stack推出智能问数与智能客服一体机,以“低成本、零门槛”实现数据分析与客服效率的显著提升,助力企业智能化升级。
275 0
|
3月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
235 0
|
3月前
|
人工智能 大数据 开发者
让AI时代的卓越架构触手可及,阿里云技术解决方案开放免费试用
阿里云推出基于场景的解决方案免费试用活动,新老用户均可领取100点试用点,完成部署还可再领最高100点,相当于一年可获得最高200元云资源。覆盖AI、大数据、互联网应用开发等多个领域,支持热门场景如DeepSeek部署、模型微调等,助力企业和开发者快速验证方案并上云。
4424 150
让AI时代的卓越架构触手可及,阿里云技术解决方案开放免费试用
|
13天前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
28天前
|
机器学习/深度学习 人工智能 边缘计算
AI 奶茶店吸管监测识别解决方案技术开发说明
本方案针对奶茶店打包环节中吸管与奶茶数量不匹配问题,采用AI视觉识别技术,实现自动化精准监测。
55 0
|
18天前
|
人工智能 监控 算法
AI解决方案的决策工具
企业正借助AI实现精细化“微观决策”,需在自动化与人工干预间找到平衡。本文提出HITL、HITLFE、HOTL、HOOTL四种管理模型,指导如何设计人机协同机制,确保决策高效、可控,并随业务动态演进。
|
3月前
|
人工智能 自然语言处理 算法
基于 3D+AI 的商场导航软件核心技术解决方案
本文通过解析商场室内导航系统 3D+AI 三大核心技术模块,提供可直接复用的工程解决方案
85 0
基于 3D+AI 的商场导航软件核心技术解决方案

热门文章

最新文章