阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 开源大数据平台 EMR 产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。

开源大数据平台E-MapReduce 上新啦

一、EMR 新平台功能发布

1、EMR 新平台新增 Terraform 管理能力

适用客户:所有 EMR 发布地域用户


发布功能:新增 Terraform Resource :alicloud_emrv2_cluster。用户可以通过 Terraform 创建和管理 DataLake、OLAP、Dataflow、DataServing、Custom 等 EMR2.0 集群


相关文档:https://registry.terraform.io/providers/aliyun/alicloud/latest/docs/resources/emrv2_cluster


2、EMR 集群支持数据盘加密

适用客户:所有 EMR 发布地域用户


发布功能:用户可以在创建集群时选择开启数据盘加密,支持加密的数据盘类型有 ESSD 云盘、SSD 云盘和高效云盘。加密数据盘后,数据盘上的动态数据传输以及静态数据都会被加密,可以满足用户安全合规要求。


相关文档:https://help.aliyun.com/document_detail/450560.html


3、新增应用配置导出功能

适用客户:所有 EMR 发布地域用户


发布功能:支持将当前集群应用配置通过 xml 或 JSON 格式进行导出。用户可以使用该功能导出旧集群配置并在新建集群时使用,从而加速集群的升级和重建工作。


相关文档:https://help.aliyun.com/document_detail/607697.html?spm=a2c4g.11186623.0.0.1abf48a5vWrlQf


4、事件中心新增系统事件

适用客户:所有 EMR 发布地域用户


发布功能:事件中心新增系统事件 System:PreemptibleInstanceReplace:Successful(抢占式实例自动补偿通知)。用户可以在开启抢占式实例补偿功能时,使用该事件跟踪抢占式实例补偿过程。


相关文档:https://help.aliyun.com/document_detail/465463.html


5、访问链接与端口功能升级

适用客户:所有 EMR 发布地域用户


发布功能:访问链接与端口新增服务原生 UI 地址,并在原 Knox 地址新增支持外网/内网多种链接形式,用户在不同集群环境下均可通过该模块访问服务 UI。


相关文档:https://help.aliyun.com/document_detail/389055.html


6、日志管理新增支持投递服务

适用客户:所有 EMR 发布地域用户


发布功能:新增 yarn-application 日志投递功能,支持用户将 YARN 任务运行日志投递至 SLS 进行后续分析。


相关文档:https://help.aliyun.com/document_detail/465660.html


7、弹性伸缩规则新增配置参数

适用客户:所有 EMR 发布地域用户


发布功能:弹性伸缩按负载伸缩规则新增时间约束参数。用户可以配置该参数控制台按负载弹性伸缩规则生效时间,适用于同时使用按时间和按负载两种规则的弹性伸缩场景。


相关文档:https://help.aliyun.com/document_detail/445658.html



二、E-MapReduce 国际站

1、EMR 新平台在马来西亚(吉隆坡)正式开服

适用客户:吉隆坡地区用户


发布功能:EMR 新平台在马来西亚(吉隆坡)正式开服,用户可以在该 region 创建和管理 DataLake、OLAP、Dataflow、Dataserving、Custom 等 新集群。


2、EMR Doctor 在德国(法兰克福)正式开服

适用客户:德国(法兰克福)用户


发布功能:EMR Doctor  开服法兰克福 region。


3、集群监控新增国际化英文版本

适用客户:所有 EMR 发布地域用户


发布功能:集群监控模块(事件中心、指标监控)新增英文版本支持。支持国际用户英文环境下使用 EMR 集群监控功能。


相关文档:https://www.alibabacloud.com/help/en/e-mapreduce/latest/new-evenment


三、EMR Doctor 智能运维系统

1、EMR Doctor 日报内容更新

适用客户:北京/上海/杭州/深圳 Region 用户


发布功能:

HDFS/Hive 日报更新:

  • 新增冷热数据占比趋势图:反映近七天 HDFS/Hive 存储的冷热数据量占比各自的变化趋势,帮助您更好的了解集群冷热数据走向。
  • 新增大小文件占比趋势图:反映近七天 HDFS/Hive 存储的大小文件数量占比各自的变化趋势,帮助您及时发现小文件增长趋势以及直观感受优化效果。


Compute 日报更新:

  • 新增基础信息展示:包括计算任务数量,Failed/Killed 任务数量,Mapreduce 任务数量,Spark 任务数量,Tez 任务数量,内存时,CPU 时。
  • 新增任务分数分布图:展示各分数区间(0-60,60-70,70-80,80-90,90-100)的任务数量分布。
  • 新增队列分析:与用户信息分析合并为用户和队列信息分析,新增以下图表信息。
  • 新增提交任务队列算力内存时分布:展示各队列上每日提交运行的任务的算力内存时占比。
  • 新增提交任务队列算力 CPU 时分布:展示各队列上每日提交运行的任务的算力 CPU 时占比。
  • 新增提交任务队列评分排名:展示健康度评分最差的10个队列以及评分。
  • 新增提交任务队列任务数量分布:展示各队列的任务数量。
  • 新增队列内存时 Top 详细信息:展示内存时最大的20个队列的详细信息,包括评分,内存时,CPU 时以及日环比。
  • 新增任务的队列信息:计算任务各 Top 表中任务的详细信息增加任务的队列。
  • 新增任务当前配置信息:计算任务各 Top 表中的任务的详细信息增加任务的当前配置展示。


相关文档:https://help.aliyun.com/document_detail/430095.html


2、EMR Doctor 实时检测内容更新

适用客户:北京/上海/杭州/深圳 Region 用户


发布功能:

● 新增任务的队列信息:Spark,MapReduce,Tez 任务各 Top 表中任务的详细信息增加任务的队列。

● 新增任务当前配置信息:Spark,MapReduce,Tez 任务各 Top 表中的任务的详细信息增加任务的当前配置展示。


相关文档:https://help.aliyun.com/document_detail/464156.html



EMR 产品活动

1、阿里云 E-MapReduce Serverless StarRocks 免费测试申请

EMR Serverless StarRocks 是由阿里云 EMR 全新推出的 Serverless StarRocks 服务,StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。可广泛应用于 BI 报表分析、OLAP 报表、数据湖分析、实时数据接入及分析等场景。      


EMR Serverless StarRocks 相较于开源 StarRocks 产品特性包括:  

  • 提供免运维,全托管的 StarRocks 实例管理服务,提升服务的稳定性,可运维性,降低您的运维成本。
  • 提供可视化,高效率的实例管理,监控告警,配置管理能力。        
  • 专业的 StarRocks Manager,为 StarRocks 管理提供便捷的,可视化的元数据管理,诊断与优化,以及用户管理和授权能力。  


邀请测试期间 EMR Serverless StarRocks 均为免费(注意:会额外开通 SLB/ARMS,会产生少量费用,会随实例释放)    


邀测申请: https://survey.aliyun.com/apps/zhiliao/EEb00jXa7


2、阿里云 E-MapReduce Notebook 免费试用邀请

EMR Notebook 是云原生的大数据开发环境,为数据工程师、数据分析师和数据科学家提供了可视化的协同应用程序开发环境。基于Jupyter 的 EMR Notebook 可自动适配 EMR 的计算引擎,支持 Python、Scala、PySpark 和 R 等多种语言。


参与本次试用活动,您将获得:

  • 100% 兼容 Jupyter 的免费 Notebook 服务,体验更优 。
  • 可自动适配连接 EMR 集群,编辑和运行代码。


试用资格申请:https://survey.aliyun.com/apps/zhiliao/SGC7QcG6e?spm=a2cug.25127996.0.0.75f81060WMyLnc


3、阿里云 E-MapReduce Workflow 免费试用邀请

阿里云EMR Workflow 是基于 Apache Dolphinscheduler 的全托管 Serverless 的工作流调度服务,是 EMR 2.0 数据开发解决方案的重要组成部分。


EMR WorkFlow 具有以下特点:

  1. 安全稳定

托管的 Workflow 服务,极大地降低了用户的运维成本,为任务运行提供了安全稳定的环境


  1. 操作便捷

延续了 Apache Dolphinscheduler 可视化 DAG 操作方式,可以通过拖拽的方式轻松定义工作流


  1. 生态丰富

支持 Shell、Hive、Spark、Sqoop 等多种任务类型,自动适配 EMR 多种集群类型。


参与本次活动,您将获得:

1.  免费试用 EMR Workflow 服务的资格

2.  自动适配您的 EMR 集群,开箱即用


试用资格申请:https://survey.aliyun.com/apps/zhiliao/AMO_oRU8D?accounttraceid=4118c5ca19d54f69a5a836193c682437cpzg


最佳技术实践

1、基于数据湖格式构建流式增量数仓—CDC

本文整理自阿里云开源大数据平台技术专家毕岩(寻径)在 Apache Con ASIA 的分享。本篇内容主要分为四个部分:

1. 湖格式& Hudi & CDC

2. 湖格式设计实现 CDC 的思考

3. Hudi CDC 实现

4. 湖格式 Streaming 的优化


文章详情:https://developer.aliyun.com/article/1164177?spm=a2c6h.13148508.setting.16.549c4f0ezN5x4B


2、开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

在本篇文章中,我们将介绍大数据集群领域所需的可观测性,实践大数据集群可观测所需要的条件和面临的挑战,以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。


文章详情:https://developer.aliyun.com/article/1167786?spm=a2c6h.13148508.setting.14.549c4f0ezN5x4B


3、阿里云EMR 2.0:重新定义新一代开源大数据平台

本次分享主要介绍了阿里云E-MapReduce 的开发历程,EMR 2.0 的新特性、产品架构,以及EMR 2.0 在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新,重新定义新一代开源大数据平台。


文章详情:https://developer.aliyun.com/article/1150890?spm=a2c6h.13148508.setting.20.549c4f0ezN5x4B


4、阿里云EMR 2.0 平台:让大数据更简单

作为国内开源大数据领域的引领者,EMR2.0 在平台体验、数据开发、产品形态及数据分析等方面做了全面突破与创新,重新定义了新一代开源大数据平台。本文介绍如何利用EMR新平台实现更加低成本、高效率、智能化的大数据集群管控和应用开发。


文章详情:https://developer.aliyun.com/article/1150890?spm=a2c6h.13148508.setting.20.549c4f0ezN5x4B


5、阿里云EMR 2.0:兼容开源,贡献开源,超越开源

本文整理自阿里云资深技术专家吴威(无谓)在 阿里云EMR2.0 线上发布会的分享。本文从开源的角度出发,分享了阿里云EMR 团队的工作。


文章详情:https://developer.aliyun.com/article/1166381?spm=a2c6h.13148508.setting.15.549c4f0ezN5x4B


开源技术前沿动态

1、StarRocks 2.5 LTS 版本新特性介绍

StarRocks 2.5 LTS 版本于近期发布,阿里云 EMR Serverless StarRocks 也在火热邀测中。本文将重点介绍 StarRocks 2.5版本核心功能以及阿里云 EMR Serverless StarRocks 特性。


文章详情:https://developer.aliyun.com/article/1153610?spm=a2c6h.13148508.setting.18.549c4f0ezN5x4B


2、Spark+Celeborn:更快,更稳,更弹性

本文整理自阿里云 EMR Spark 团队的周克勇(一锤),在 Spark&DS Meetup 的分享。本篇内容主要分为三个部分:

1. 传统 Shuffle 的问题

2. Apache Celeborn (Incubating)简介

3. Celeborn 在性能、稳定性、弹性上的设计


文章详情:https://developer.aliyun.com/article/1153123?spm=a2c6h.13148508.setting.19.549c4f0ezN5x4B



钉钉扫码进群,欢迎咨询与交流前沿开源大数据

image.png

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
zdl
|
29天前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
147 56
|
3天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
1月前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
11天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
59 0
|
7月前
|
分布式计算 Hadoop
Hadoop系列 mapreduce 原理分析
Hadoop系列 mapreduce 原理分析
84 1
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
100 3
|
6月前
|
分布式计算 Hadoop Java
Hadoop MapReduce编程
该教程指导编写Hadoop MapReduce程序处理天气数据。任务包括计算每个城市ID的最高、最低气温、气温出现次数和平均气温。在读取数据时需忽略表头,且数据应为整数。教程中提供了环境变量设置、Java编译、jar包创建及MapReduce执行的步骤说明,但假设读者已具备基础操作技能。此外,还提到一个扩展练习,通过分区功能将具有相同尾数的数字分组到不同文件。
65 1
|
6月前
|
数据采集 SQL 分布式计算
|
7月前
|
分布式计算 Hadoop Java
Hadoop MapReduce 调优参数
对于 Hadoop v3.1.3,针对三台4核4G服务器的MapReduce调优参数包括:`mapreduce.reduce.shuffle.parallelcopies`设为10以加速Shuffle,`mapreduce.reduce.shuffle.input.buffer.percent`和`mapreduce.reduce.shuffle.merge.percent`分别设为0.8以减少磁盘IO。
76 1

相关产品

  • 开源大数据平台 E-MapReduce