2.阿里云各大数据引擎能力介绍|学习笔记

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 快速学习2.阿里云各大数据引擎能力介绍

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:2.阿里云各大数据引擎能力介绍】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1223


2.阿里云各大数据引擎能力介绍

内容介绍

一、阿里云大数据&AI产品体系

二、MaxCompute 大数据计算服务

三、E-MapReduce 开源大数据计算平台

四、实时计算 Flink 中国唯一进入 Forrester 象限的流计算产品

五、Elasticsearch 全链路云上ELK

六、PAl:组合的Al产品体系

一、阿里云大数据&AI产品体系

image.png

datawords 下面是基于底层引擎的一站式的开发和治理的平台,那么对于用户,它可以基于自己不同的需求,选择不同的大数据计算引擎,就像大数据Al产品体系上的架构一样,能够实现阿里云免运维的能力。计算平台有两个,一个是MaxCompute,能够提供 severless 的大数据计算以及企业级的一些能力,另外一个是 E-MapReduce 基于开源体系搭建的大数据计算引擎还有一些比如实时计算Flink,交互式分析 Hologres图计算引擎,搜索推荐的一些各种各样相关的不同场景情况下使用的引擎,通过 DataWorks 进行一站式的开发治理后,可以对接各种各样的数据应用,不管是BI系统还是datav的大屏,右侧有一些AI相关的平台,也是可以通过DataWorks做AI相关数据处理,这就是阿里云的大数据和Al的产品体系

二、MaxCompute 大数据计算服务

离线、实时、分析、服务一体化

1、架构清晰

离线实时一体化数仓最简单大数据分析架构

2、性能强大

飞天10年累积,国内规模最大,单系统超10万台连续3年 TPCx-BigBench 性能世界冠军PB级数据亚秒级分析

3、使用门槛低

Serverless 开箱即用企业级安全能力存储加密、异地容灾备份、自动恢复、多租户权限管控

和 DataWorks 一起在阿里巴巴集团内支撑11年数据中台建设的 maxcompute 大数据计算服务,可以跟的 hologres 搭配在一起,实现离线实时分析服务体化的,也是现在经常说的流批一体的数据仓库的架构,首先它的架构是非常清晰的,不需要基于各种需求搭建各种各样的开源组件。第二它的性能也是非常的强大,不管是单系统的超过10万台机器的能力,以及参加各个世界榜单的一个打榜,以及通过 hologres 实现pb级数据样表分析的这种能力。整体的引擎能力是 maxcompute和DataWorks 结合非常好的一个场景。


三、E-MapReduce 开源大数据计算平台

1、存储集中化

支持超过EB级别OSS数据湖数据湖,存储成本低至0.033元/ GB/月,比高效云盘下降10倍

2、元数据共享化

支持超过10万DB,1亿Table, 10亿Partition,每天元数据服务请求量超过30亿

3、计算多样化/容器化

支持Hive /Spark /Presto /Flink/MaxCompute/Hologes等10+计算引擎,半分钟内启动1000个计算引擎Pod

MaxCompute 阿里巴巴集团自研的引擎E-MapReduce 是基于各类的开源的组件,不管是spark,Flink还是hdfs或者各类的开源组件构建的大数据平台,因为部分的客户他可能本身就已经选择了开源的技术架构和体系,通过开源的E-MapReduce 也能够对接 DataWorks 做站式的开发和治理。emr的引擎它首先存储集中

化,它的很多数据可以存储在阿里云的oss上,所以它的存储成本相对而言非常低廉。另外它的原数据共享化以及计算支持的各类引擎的多样化相对而言也是更加丰富,这个是 E-MapReduce 引擎的特性。


四、实时计算 Flink 中国唯一进入 Forrester 象限的流计算产品

1全国最受欢迎的流计算引擎

阿里巴巴出品,Apache Flink 创始团队出品,提供丰富的企业级增值功能

2、全球领先的技术

拥有全球最大的Flink集群和业务每秒处理消息事件25.5亿条

不管是国内还是国外Apache Flink 社区的热度相对而言非常高,整个阿里巴巴的流计算团队也是 Apache Flink 的创始团队,在云上也有商业化的产品和版本,不管是每年双11的各种大屏,还是实时的数据仓库,都有Flink和各种产品的组合搭配,能够实现。


五、Elasticsearch 全链路云上ELK

1Elasticsearch 官方合作

X-Pack商业插件Beats、Logstash. Kibana 的ELK全托管

2、优化增强,AI加持

日志分析增强,冷热数据节点,NLP

分词插件等自研功能

阿里云的 Elasticsearch 和官方的 Elastic 合作,云上的版本会提供商业化的插件原厂的商业版本是付费的,在阿里云有云上的 Elasticsearch,可以把这些商业化的插件进行免费开放同时也会结合Al的能力,对于日志分析能力具有增强,也有NLP分词插件源的功提供给大家,方便大家更好的使用 Elasticsearch 引擎


六、PAl:灵活组合的Al产品体系

PAI是做机器学习相关的一个AI的平台,PAI的很多用于机器学习,或者训练推理的数据同样也可以通过 DataWorks 做处理,处理后给到PAI学习使用,PAI里面各种各样的一站式AI开发平台的功能,也可以基于企业自己的需求做灵活的组合和使用。

image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
215
分享
相关文章
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
阿里云 MaxCompute MaxQA 开启公测,解锁近实时高效查询体验
阿里云云原生大数据计算服务 MaxCompute 推出 MaxQA(原 MCQA2.0)查询加速功能,在独享的查询加速资源池的基础上,对管控链路、查询优化器、执行引擎、存储引擎以及缓存机制等多个环节进行全面优化,显著减少了查询响应时间,适用于 BI 场景、交互式分析以及近实时数仓等对延迟要求高且稳定的场景。现正式开启公测,欢迎广大开发者及企业用户参与,解锁高效查询体验!
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
Flink 基础详解:大数据处理的强大引擎
Apache Flink 是一个分布式流批一体化的开源平台,专为大规模数据处理设计。它支持实时流处理和批处理,具有高吞吐量、低延迟特性。Flink 提供统一的编程抽象,简化大数据应用开发,并在流处理方面表现卓越,广泛应用于实时监控、金融交易分析等场景。其架构包括 JobManager、TaskManager 和 Client,支持并行度、水位线、时间语义等基础属性。Flink 还提供了丰富的算子、状态管理和容错机制,如检查点和 Savepoint,确保作业的可靠性和一致性。此外,Flink 支持 SQL 查询和 CDC 功能,实现实时数据捕获与同步,广泛应用于数据仓库和实时数据分析领域。
253 32
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
127 35
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【3月重点功能发布】阿里云大数据+ AI 一体化平台
【3月重点功能发布】阿里云大数据+ AI 一体化平台

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等