阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊

简介: 开源大数据平台 EMR 产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。

开源大数据平台E-MapReduce 上新啦

一、EMR 新平台功能发布

1、EMR 新平台新增 Terraform 管理能力

适用客户:所有 EMR 发布地域用户


发布功能:新增 Terraform Resource :alicloud_emrv2_cluster。用户可以通过 Terraform 创建和管理 DataLake、OLAP、Dataflow、DataServing、Custom 等 EMR2.0 集群


相关文档:https://registry.terraform.io/providers/aliyun/alicloud/latest/docs/resources/emrv2_cluster


2、EMR 集群支持数据盘加密

适用客户:所有 EMR 发布地域用户


发布功能:用户可以在创建集群时选择开启数据盘加密,支持加密的数据盘类型有 ESSD 云盘、SSD 云盘和高效云盘。加密数据盘后,数据盘上的动态数据传输以及静态数据都会被加密,可以满足用户安全合规要求。


相关文档:https://help.aliyun.com/document_detail/450560.html


3、新增应用配置导出功能

适用客户:所有 EMR 发布地域用户


发布功能:支持将当前集群应用配置通过 xml 或 JSON 格式进行导出。用户可以使用该功能导出旧集群配置并在新建集群时使用,从而加速集群的升级和重建工作。


相关文档:https://help.aliyun.com/document_detail/607697.html?spm=a2c4g.11186623.0.0.1abf48a5vWrlQf


4、事件中心新增系统事件

适用客户:所有 EMR 发布地域用户


发布功能:事件中心新增系统事件 System:PreemptibleInstanceReplace:Successful(抢占式实例自动补偿通知)。用户可以在开启抢占式实例补偿功能时,使用该事件跟踪抢占式实例补偿过程。


相关文档:https://help.aliyun.com/document_detail/465463.html


5、访问链接与端口功能升级

适用客户:所有 EMR 发布地域用户


发布功能:访问链接与端口新增服务原生 UI 地址,并在原 Knox 地址新增支持外网/内网多种链接形式,用户在不同集群环境下均可通过该模块访问服务 UI。


相关文档:https://help.aliyun.com/document_detail/389055.html


6、日志管理新增支持投递服务

适用客户:所有 EMR 发布地域用户


发布功能:新增 yarn-application 日志投递功能,支持用户将 YARN 任务运行日志投递至 SLS 进行后续分析。


相关文档:https://help.aliyun.com/document_detail/465660.html


7、弹性伸缩规则新增配置参数

适用客户:所有 EMR 发布地域用户


发布功能:弹性伸缩按负载伸缩规则新增时间约束参数。用户可以配置该参数控制台按负载弹性伸缩规则生效时间,适用于同时使用按时间和按负载两种规则的弹性伸缩场景。


相关文档:https://help.aliyun.com/document_detail/445658.html



二、E-MapReduce 国际站

1、EMR 新平台在马来西亚(吉隆坡)正式开服

适用客户:吉隆坡地区用户


发布功能:EMR 新平台在马来西亚(吉隆坡)正式开服,用户可以在该 region 创建和管理 DataLake、OLAP、Dataflow、Dataserving、Custom 等 新集群。


2、EMR Doctor 在德国(法兰克福)正式开服

适用客户:德国(法兰克福)用户


发布功能:EMR Doctor  开服法兰克福 region。


3、集群监控新增国际化英文版本

适用客户:所有 EMR 发布地域用户


发布功能:集群监控模块(事件中心、指标监控)新增英文版本支持。支持国际用户英文环境下使用 EMR 集群监控功能。


相关文档:https://www.alibabacloud.com/help/en/e-mapreduce/latest/new-evenment


三、EMR Doctor 智能运维系统

1、EMR Doctor 日报内容更新

适用客户:北京/上海/杭州/深圳 Region 用户


发布功能:

HDFS/Hive 日报更新:

  • 新增冷热数据占比趋势图:反映近七天 HDFS/Hive 存储的冷热数据量占比各自的变化趋势,帮助您更好的了解集群冷热数据走向。
  • 新增大小文件占比趋势图:反映近七天 HDFS/Hive 存储的大小文件数量占比各自的变化趋势,帮助您及时发现小文件增长趋势以及直观感受优化效果。


Compute 日报更新:

  • 新增基础信息展示:包括计算任务数量,Failed/Killed 任务数量,Mapreduce 任务数量,Spark 任务数量,Tez 任务数量,内存时,CPU 时。
  • 新增任务分数分布图:展示各分数区间(0-60,60-70,70-80,80-90,90-100)的任务数量分布。
  • 新增队列分析:与用户信息分析合并为用户和队列信息分析,新增以下图表信息。
  • 新增提交任务队列算力内存时分布:展示各队列上每日提交运行的任务的算力内存时占比。
  • 新增提交任务队列算力 CPU 时分布:展示各队列上每日提交运行的任务的算力 CPU 时占比。
  • 新增提交任务队列评分排名:展示健康度评分最差的10个队列以及评分。
  • 新增提交任务队列任务数量分布:展示各队列的任务数量。
  • 新增队列内存时 Top 详细信息:展示内存时最大的20个队列的详细信息,包括评分,内存时,CPU 时以及日环比。
  • 新增任务的队列信息:计算任务各 Top 表中任务的详细信息增加任务的队列。
  • 新增任务当前配置信息:计算任务各 Top 表中的任务的详细信息增加任务的当前配置展示。


相关文档:https://help.aliyun.com/document_detail/430095.html


2、EMR Doctor 实时检测内容更新

适用客户:北京/上海/杭州/深圳 Region 用户


发布功能:

● 新增任务的队列信息:Spark,MapReduce,Tez 任务各 Top 表中任务的详细信息增加任务的队列。

● 新增任务当前配置信息:Spark,MapReduce,Tez 任务各 Top 表中的任务的详细信息增加任务的当前配置展示。


相关文档:https://help.aliyun.com/document_detail/464156.html



EMR 产品活动

1、阿里云 E-MapReduce Serverless StarRocks 免费测试申请

EMR Serverless StarRocks 是由阿里云 EMR 全新推出的 Serverless StarRocks 服务,StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。可广泛应用于 BI 报表分析、OLAP 报表、数据湖分析、实时数据接入及分析等场景。      


EMR Serverless StarRocks 相较于开源 StarRocks 产品特性包括:  

  • 提供免运维,全托管的 StarRocks 实例管理服务,提升服务的稳定性,可运维性,降低您的运维成本。
  • 提供可视化,高效率的实例管理,监控告警,配置管理能力。        
  • 专业的 StarRocks Manager,为 StarRocks 管理提供便捷的,可视化的元数据管理,诊断与优化,以及用户管理和授权能力。  


邀请测试期间 EMR Serverless StarRocks 均为免费(注意:会额外开通 SLB/ARMS,会产生少量费用,会随实例释放)    


邀测申请: https://survey.aliyun.com/apps/zhiliao/EEb00jXa7


2、阿里云 E-MapReduce Notebook 免费试用邀请

EMR Notebook 是云原生的大数据开发环境,为数据工程师、数据分析师和数据科学家提供了可视化的协同应用程序开发环境。基于Jupyter 的 EMR Notebook 可自动适配 EMR 的计算引擎,支持 Python、Scala、PySpark 和 R 等多种语言。


参与本次试用活动,您将获得:

  • 100% 兼容 Jupyter 的免费 Notebook 服务,体验更优 。
  • 可自动适配连接 EMR 集群,编辑和运行代码。


试用资格申请:https://survey.aliyun.com/apps/zhiliao/SGC7QcG6e?spm=a2cug.25127996.0.0.75f81060WMyLnc


3、阿里云 E-MapReduce Workflow 免费试用邀请

阿里云EMR Workflow 是基于 Apache Dolphinscheduler 的全托管 Serverless 的工作流调度服务,是 EMR 2.0 数据开发解决方案的重要组成部分。


EMR WorkFlow 具有以下特点:

  1. 安全稳定

托管的 Workflow 服务,极大地降低了用户的运维成本,为任务运行提供了安全稳定的环境


  1. 操作便捷

延续了 Apache Dolphinscheduler 可视化 DAG 操作方式,可以通过拖拽的方式轻松定义工作流


  1. 生态丰富

支持 Shell、Hive、Spark、Sqoop 等多种任务类型,自动适配 EMR 多种集群类型。


参与本次活动,您将获得:

1.  免费试用 EMR Workflow 服务的资格

2.  自动适配您的 EMR 集群,开箱即用


试用资格申请:https://survey.aliyun.com/apps/zhiliao/AMO_oRU8D?accounttraceid=4118c5ca19d54f69a5a836193c682437cpzg


最佳技术实践

1、基于数据湖格式构建流式增量数仓—CDC

本文整理自阿里云开源大数据平台技术专家毕岩(寻径)在 Apache Con ASIA 的分享。本篇内容主要分为四个部分:

1. 湖格式& Hudi & CDC

2. 湖格式设计实现 CDC 的思考

3. Hudi CDC 实现

4. 湖格式 Streaming 的优化


文章详情:https://developer.aliyun.com/article/1164177?spm=a2c6h.13148508.setting.16.549c4f0ezN5x4B


2、开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

在本篇文章中,我们将介绍大数据集群领域所需的可观测性,实践大数据集群可观测所需要的条件和面临的挑战,以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。


文章详情:https://developer.aliyun.com/article/1167786?spm=a2c6h.13148508.setting.14.549c4f0ezN5x4B


3、阿里云EMR 2.0:重新定义新一代开源大数据平台

本次分享主要介绍了阿里云E-MapReduce 的开发历程,EMR 2.0 的新特性、产品架构,以及EMR 2.0 在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新,重新定义新一代开源大数据平台。


文章详情:https://developer.aliyun.com/article/1150890?spm=a2c6h.13148508.setting.20.549c4f0ezN5x4B


4、阿里云EMR 2.0 平台:让大数据更简单

作为国内开源大数据领域的引领者,EMR2.0 在平台体验、数据开发、产品形态及数据分析等方面做了全面突破与创新,重新定义了新一代开源大数据平台。本文介绍如何利用EMR新平台实现更加低成本、高效率、智能化的大数据集群管控和应用开发。


文章详情:https://developer.aliyun.com/article/1150890?spm=a2c6h.13148508.setting.20.549c4f0ezN5x4B


5、阿里云EMR 2.0:兼容开源,贡献开源,超越开源

本文整理自阿里云资深技术专家吴威(无谓)在 阿里云EMR2.0 线上发布会的分享。本文从开源的角度出发,分享了阿里云EMR 团队的工作。


文章详情:https://developer.aliyun.com/article/1166381?spm=a2c6h.13148508.setting.15.549c4f0ezN5x4B


开源技术前沿动态

1、StarRocks 2.5 LTS 版本新特性介绍

StarRocks 2.5 LTS 版本于近期发布,阿里云 EMR Serverless StarRocks 也在火热邀测中。本文将重点介绍 StarRocks 2.5版本核心功能以及阿里云 EMR Serverless StarRocks 特性。


文章详情:https://developer.aliyun.com/article/1153610?spm=a2c6h.13148508.setting.18.549c4f0ezN5x4B


2、Spark+Celeborn:更快,更稳,更弹性

本文整理自阿里云 EMR Spark 团队的周克勇(一锤),在 Spark&DS Meetup 的分享。本篇内容主要分为三个部分:

1. 传统 Shuffle 的问题

2. Apache Celeborn (Incubating)简介

3. Celeborn 在性能、稳定性、弹性上的设计


文章详情:https://developer.aliyun.com/article/1153123?spm=a2c6h.13148508.setting.19.549c4f0ezN5x4B



钉钉扫码进群,欢迎咨询与交流前沿开源大数据

image.png

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
3天前
|
分布式计算 资源调度 Hadoop
java与大数据:Hadoop与MapReduce
java与大数据:Hadoop与MapReduce
22 0
|
11天前
|
SQL JSON 分布式计算
DataWorks产品使用合集之DataWorks一键maxcompute数据同步的操作步骤是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
20 0
|
11天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
26 1
|
11天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之在 MaxCompute 中,有LEAST 的内置函数如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
16 0
|
11天前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之DataWorks maxcompute的自定义资源增加如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
21 0
|
11天前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之DataWorks maxcompute的自定义资源增加如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
20 0
|
11天前
|
分布式计算 DataWorks 大数据
DataWorks产品使用合集之在DataWorks中,在MaxCompute中使用解压缩功能如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
32 0
|
11天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之DataWorks中,填写ODPS SQL任务中的参数和分区信息如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0
|
11天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之在DataWorks中,查看ODPS表的OSS对象如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
27 1
|
11天前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0

相关产品

  • 开源大数据平台 E-MapReduce