2.阿里云各大数据引擎能力介绍|学习笔记-阿里云开发者社区

2.阿里云各大数据引擎能力介绍|学习笔记

2022-11-13 1179

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习2.阿里云各大数据引擎能力介绍

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程：2.阿里云各大数据引擎能力介绍】与课程紧密联系，让用户快速学习知识

课程地址：https://developer.aliyun.com/learning/course/81/detail/1223

2.阿里云各大数据引擎能力介绍

内容介绍

一、阿里云大数据&AI产品体系

二、MaxCompute 大数据计算服务

三、E-MapReduce 开源大数据计算平台

四、实时计算 Flink 中国唯一进入 Forrester 象限的流计算产品

五、Elasticsearch 全链路云上ELK

六、PAl:灵活组合的Al产品体系

一、阿里云大数据&AI产品体系

datawords 下面是基于底层引擎的一站式的开发和治理的平台，那么对于用户，它可以基于自己不同的需求，选择不同的大数据计算引擎，就像大数据Al产品体系上的架构一样，能够实现阿里云中免运维的能力。计算平台有两个，一个是MaxCompute，能够提供 severless 的大数据计算以及企业级的一些能力，另外一个是 E-MapReduce 基于开源体系搭建的大数据计算引擎，还有一些比如实时计算Flink，交互式分析 Hologres，图计算引擎，搜索推荐的一些各种各样相关的不同场景情况下使用的引擎，通过 DataWorks 进行一站式的开发治理后，可以对接各种各样的数据应用，不管是BI系统还是datav的大屏，右侧有一些AI相关的平台，也是可以通过DataWorks做AI相关数据处理，这就是阿里云的大数据和Al的产品体系。

二、MaxCompute 大数据计算服务

离线、实时、分析、服务一体化

1、架构清晰

离线实时一体化数仓，最简单大数据分析架构。

2、性能强大

飞天10年累积，国内规模最大，单系统超10万台，连续3年 TPCx-BigBench 性能世界冠军，PB级数据亚秒级分析。

3、使用门槛低

Serverless 开箱即用，企业级安全能力，存储加密、异地容灾备份、自动恢复、多租户，权限管控。

和 DataWorks 一起在阿里巴巴集团内支撑11年数据中台建设的 maxcompute 大数据计算服务，它可以跟的 hologres 搭配在一起，实现离线实时分析服务一体化的，也是现在经常说的流批一体的数据仓库的架构，首先它的架构是非常清晰的，不需要基于各种需求搭建各种各样的开源组件。第二它的性能也是非常的强大，不管是单系统的超过10万台机器的能力，以及参加各个世界榜单的一个打榜，以及通过 hologres 实现pb级数据样表分析的这种能力。整体的引擎能力是 maxcompute和DataWorks 结合非常好的一个场景。

三、E-MapReduce 开源大数据计算平台

1、存储集中化

支持超过EB级别OSS数据湖数据湖，存储成本低至0.033元/ GB/月，比高效云盘下降10倍。

2、元数据共享化

支持超过10万DB，1亿Table, 10亿Partition,每天元数据服务请求量超过30亿。

3、计算多样化/容器化

支持Hive /Spark /Presto /Flink/MaxCompute/Hologes等10+计算引擎,半分钟内启动1000个计算引擎Pod。

MaxCompute 是阿里巴巴集团自研的引擎，E-MapReduce 是基于各类的开源的组件，不管是spark，Flink，还是hdfs或者各类的开源组件构建的大数据平台，因为部分的客户他可能本身就已经选择了开源的技术架构和体系，通过开源的E-MapReduce 也能够对接 DataWorks 做一站式的开发和治理。emr的引擎，它首先存储集中

化，它的很多数据可以存储在阿里云的oss上，所以它的存储成本相对而言非常低廉。另外它的原数据共享化以及计算支持的各类引擎的多样化相对而言也是更加丰富，这个是 E-MapReduce 引擎的特性。

四、实时计算 Flink 中国唯一进入 Forrester 象限的流计算产品

1、全国最受欢迎的流计算引擎

阿里巴巴出品，Apache Flink 创始团队、出品，提供丰富的企业级增值功能。

2、全球领先的技术

拥有全球最大的Flink集群和业务、每秒处理消息事件25.5亿条。

不管是国内还是国外，Apache Flink 社区的热度相对而言非常高，整个阿里巴巴的流计算团队也是 Apache Flink 的创始团队，在云上也有商业化的产品和版本，不管是每年双11的各种大屏，还是实时的数据仓库，都有Flink和各种产品的组合搭配，能够实现。

五、Elasticsearch 全链路云上ELK

1、Elasticsearch 官方合作

X-Pack商业插件、Beats、Logstash. Kibana 的ELK全托管

2、优化增强，AI加持

日志分析增强，冷热数据节点，NLP

分词插件等自研功能

阿里云的 Elasticsearch 和官方的 Elastic 合作，云上的版本会提供商业化的插件，原厂的商业版本是付费的，在阿里云有云上的 Elasticsearch，可以把这些商业化的插件进行免费开放，同时也会结合Al的能力，对于日志分析能力具有增强，也有NLP分词插件资源的功提供给大家，方便大家更好的使用 Elasticsearch 引擎。

六、PAl:灵活组合的Al产品体系

PAI是做机器学习相关的一个AI的平台，PAI的很多用于机器学习，或者训练推理的数据同样也可以通过 DataWorks 做处理，处理后给到PAI学习使用，PAI里面各种各样的一站式AI开发平台的功能，也可以基于企业自己的需求做灵活的组合和使用。