开源大数据平台E-MapReduce 上新啦
一、EMR 新平台功能发布
1、EMR 新平台新增 Terraform 管理能力
适用客户:所有 EMR 发布地域用户
发布功能:新增 Terraform Resource :alicloud_emrv2_cluster。用户可以通过 Terraform 创建和管理 DataLake、OLAP、Dataflow、DataServing、Custom 等 EMR2.0 集群
相关文档:https://registry.terraform.io/providers/aliyun/alicloud/latest/docs/resources/emrv2_cluster
2、EMR 集群支持数据盘加密
适用客户:所有 EMR 发布地域用户
发布功能:用户可以在创建集群时选择开启数据盘加密,支持加密的数据盘类型有 ESSD 云盘、SSD 云盘和高效云盘。加密数据盘后,数据盘上的动态数据传输以及静态数据都会被加密,可以满足用户安全合规要求。
相关文档:https://help.aliyun.com/document_detail/450560.html
3、新增应用配置导出功能
适用客户:所有 EMR 发布地域用户
发布功能:支持将当前集群应用配置通过 xml 或 JSON 格式进行导出。用户可以使用该功能导出旧集群配置并在新建集群时使用,从而加速集群的升级和重建工作。
相关文档:https://help.aliyun.com/document_detail/607697.html?spm=a2c4g.11186623.0.0.1abf48a5vWrlQf
4、事件中心新增系统事件
适用客户:所有 EMR 发布地域用户
发布功能:事件中心新增系统事件 System:PreemptibleInstanceReplace:Successful(抢占式实例自动补偿通知)。用户可以在开启抢占式实例补偿功能时,使用该事件跟踪抢占式实例补偿过程。
相关文档:https://help.aliyun.com/document_detail/465463.html
5、访问链接与端口功能升级
适用客户:所有 EMR 发布地域用户
发布功能:访问链接与端口新增服务原生 UI 地址,并在原 Knox 地址新增支持外网/内网多种链接形式,用户在不同集群环境下均可通过该模块访问服务 UI。
相关文档:https://help.aliyun.com/document_detail/389055.html
6、日志管理新增支持投递服务
适用客户:所有 EMR 发布地域用户
发布功能:新增 yarn-application 日志投递功能,支持用户将 YARN 任务运行日志投递至 SLS 进行后续分析。
相关文档:https://help.aliyun.com/document_detail/465660.html
7、弹性伸缩规则新增配置参数
适用客户:所有 EMR 发布地域用户
发布功能:弹性伸缩按负载伸缩规则新增时间约束参数。用户可以配置该参数控制台按负载弹性伸缩规则生效时间,适用于同时使用按时间和按负载两种规则的弹性伸缩场景。
相关文档:https://help.aliyun.com/document_detail/445658.html
二、E-MapReduce 国际站
1、EMR 新平台在马来西亚(吉隆坡)正式开服
适用客户:吉隆坡地区用户
发布功能:EMR 新平台在马来西亚(吉隆坡)正式开服,用户可以在该 region 创建和管理 DataLake、OLAP、Dataflow、Dataserving、Custom 等 新集群。
2、EMR Doctor 在德国(法兰克福)正式开服
适用客户:德国(法兰克福)用户
发布功能:EMR Doctor 开服法兰克福 region。
3、集群监控新增国际化英文版本
适用客户:所有 EMR 发布地域用户
发布功能:集群监控模块(事件中心、指标监控)新增英文版本支持。支持国际用户英文环境下使用 EMR 集群监控功能。
相关文档:https://www.alibabacloud.com/help/en/e-mapreduce/latest/new-evenment
三、EMR Doctor 智能运维系统
1、EMR Doctor 日报内容更新
适用客户:北京/上海/杭州/深圳 Region 用户
发布功能:
HDFS/Hive 日报更新:
- 新增冷热数据占比趋势图:反映近七天 HDFS/Hive 存储的冷热数据量占比各自的变化趋势,帮助您更好的了解集群冷热数据走向。
- 新增大小文件占比趋势图:反映近七天 HDFS/Hive 存储的大小文件数量占比各自的变化趋势,帮助您及时发现小文件增长趋势以及直观感受优化效果。
Compute 日报更新:
- 新增基础信息展示:包括计算任务数量,Failed/Killed 任务数量,Mapreduce 任务数量,Spark 任务数量,Tez 任务数量,内存时,CPU 时。
- 新增任务分数分布图:展示各分数区间(0-60,60-70,70-80,80-90,90-100)的任务数量分布。
- 新增队列分析:与用户信息分析合并为用户和队列信息分析,新增以下图表信息。
- 新增提交任务队列算力内存时分布:展示各队列上每日提交运行的任务的算力内存时占比。
- 新增提交任务队列算力 CPU 时分布:展示各队列上每日提交运行的任务的算力 CPU 时占比。
- 新增提交任务队列评分排名:展示健康度评分最差的10个队列以及评分。
- 新增提交任务队列任务数量分布:展示各队列的任务数量。
- 新增队列内存时 Top 详细信息:展示内存时最大的20个队列的详细信息,包括评分,内存时,CPU 时以及日环比。
- 新增任务的队列信息:计算任务各 Top 表中任务的详细信息增加任务的队列。
- 新增任务当前配置信息:计算任务各 Top 表中的任务的详细信息增加任务的当前配置展示。
相关文档:https://help.aliyun.com/document_detail/430095.html
2、EMR Doctor 实时检测内容更新
适用客户:北京/上海/杭州/深圳 Region 用户
发布功能:
● 新增任务的队列信息:Spark,MapReduce,Tez 任务各 Top 表中任务的详细信息增加任务的队列。
● 新增任务当前配置信息:Spark,MapReduce,Tez 任务各 Top 表中的任务的详细信息增加任务的当前配置展示。
相关文档:https://help.aliyun.com/document_detail/464156.html
EMR 产品活动
1、阿里云 E-MapReduce Serverless StarRocks 免费测试申请
EMR Serverless StarRocks 是由阿里云 EMR 全新推出的 Serverless StarRocks 服务,StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。可广泛应用于 BI 报表分析、OLAP 报表、数据湖分析、实时数据接入及分析等场景。
EMR Serverless StarRocks 相较于开源 StarRocks 产品特性包括:
- 提供免运维,全托管的 StarRocks 实例管理服务,提升服务的稳定性,可运维性,降低您的运维成本。
- 提供可视化,高效率的实例管理,监控告警,配置管理能力。
- 专业的 StarRocks Manager,为 StarRocks 管理提供便捷的,可视化的元数据管理,诊断与优化,以及用户管理和授权能力。
邀请测试期间 EMR Serverless StarRocks 均为免费(注意:会额外开通 SLB/ARMS,会产生少量费用,会随实例释放)
邀测申请: https://survey.aliyun.com/apps/zhiliao/EEb00jXa7
2、阿里云 E-MapReduce Notebook 免费试用邀请
EMR Notebook 是云原生的大数据开发环境,为数据工程师、数据分析师和数据科学家提供了可视化的协同应用程序开发环境。基于Jupyter 的 EMR Notebook 可自动适配 EMR 的计算引擎,支持 Python、Scala、PySpark 和 R 等多种语言。
参与本次试用活动,您将获得:
- 100% 兼容 Jupyter 的免费 Notebook 服务,体验更优 。
- 可自动适配连接 EMR 集群,编辑和运行代码。
试用资格申请:https://survey.aliyun.com/apps/zhiliao/SGC7QcG6e?spm=a2cug.25127996.0.0.75f81060WMyLnc
3、阿里云 E-MapReduce Workflow 免费试用邀请
阿里云EMR Workflow 是基于 Apache Dolphinscheduler 的全托管 Serverless 的工作流调度服务,是 EMR 2.0 数据开发解决方案的重要组成部分。
EMR WorkFlow 具有以下特点:
- 安全稳定
托管的 Workflow 服务,极大地降低了用户的运维成本,为任务运行提供了安全稳定的环境
- 操作便捷
延续了 Apache Dolphinscheduler 可视化 DAG 操作方式,可以通过拖拽的方式轻松定义工作流
- 生态丰富
支持 Shell、Hive、Spark、Sqoop 等多种任务类型,自动适配 EMR 多种集群类型。
参与本次活动,您将获得:
1. 免费试用 EMR Workflow 服务的资格
2. 自动适配您的 EMR 集群,开箱即用
试用资格申请:https://survey.aliyun.com/apps/zhiliao/AMO_oRU8D?accounttraceid=4118c5ca19d54f69a5a836193c682437cpzg
最佳技术实践
1、基于数据湖格式构建流式增量数仓—CDC
本文整理自阿里云开源大数据平台技术专家毕岩(寻径)在 Apache Con ASIA 的分享。本篇内容主要分为四个部分:
1. 湖格式& Hudi & CDC
2. 湖格式设计实现 CDC 的思考
3. Hudi CDC 实现
4. 湖格式 Streaming 的优化
文章详情:https://developer.aliyun.com/article/1164177?spm=a2c6h.13148508.setting.16.549c4f0ezN5x4B
2、开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化
在本篇文章中,我们将介绍大数据集群领域所需的可观测性,实践大数据集群可观测所需要的条件和面临的挑战,以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。
文章详情:https://developer.aliyun.com/article/1167786?spm=a2c6h.13148508.setting.14.549c4f0ezN5x4B
3、阿里云EMR 2.0:重新定义新一代开源大数据平台
本次分享主要介绍了阿里云E-MapReduce 的开发历程,EMR 2.0 的新特性、产品架构,以及EMR 2.0 在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新,重新定义新一代开源大数据平台。
文章详情:https://developer.aliyun.com/article/1150890?spm=a2c6h.13148508.setting.20.549c4f0ezN5x4B
4、阿里云EMR 2.0 平台:让大数据更简单
作为国内开源大数据领域的引领者,EMR2.0 在平台体验、数据开发、产品形态及数据分析等方面做了全面突破与创新,重新定义了新一代开源大数据平台。本文介绍如何利用EMR新平台实现更加低成本、高效率、智能化的大数据集群管控和应用开发。
文章详情:https://developer.aliyun.com/article/1150890?spm=a2c6h.13148508.setting.20.549c4f0ezN5x4B
5、阿里云EMR 2.0:兼容开源,贡献开源,超越开源
本文整理自阿里云资深技术专家吴威(无谓)在 阿里云EMR2.0 线上发布会的分享。本文从开源的角度出发,分享了阿里云EMR 团队的工作。
文章详情:https://developer.aliyun.com/article/1166381?spm=a2c6h.13148508.setting.15.549c4f0ezN5x4B
开源技术前沿动态
1、StarRocks 2.5 LTS 版本新特性介绍
StarRocks 2.5 LTS 版本于近期发布,阿里云 EMR Serverless StarRocks 也在火热邀测中。本文将重点介绍 StarRocks 2.5版本核心功能以及阿里云 EMR Serverless StarRocks 特性。
文章详情:https://developer.aliyun.com/article/1153610?spm=a2c6h.13148508.setting.18.549c4f0ezN5x4B
2、Spark+Celeborn:更快,更稳,更弹性
本文整理自阿里云 EMR Spark 团队的周克勇(一锤),在 Spark&DS Meetup 的分享。本篇内容主要分为三个部分:
1. 传统 Shuffle 的问题
2. Apache Celeborn (Incubating)简介
3. Celeborn 在性能、稳定性、弹性上的设计
文章详情:https://developer.aliyun.com/article/1153123?spm=a2c6h.13148508.setting.19.549c4f0ezN5x4B
钉钉扫码进群,欢迎咨询与交流前沿开源大数据