阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 开源大数据平台 EMR 产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。

开源大数据平台E-MapReduce 上新啦

一、EMR 新平台功能发布

1、EMR 新平台新增 Terraform 管理能力

适用客户:所有 EMR 发布地域用户


发布功能:新增 Terraform Resource :alicloud_emrv2_cluster。用户可以通过 Terraform 创建和管理 DataLake、OLAP、Dataflow、DataServing、Custom 等 EMR2.0 集群


相关文档:https://registry.terraform.io/providers/aliyun/alicloud/latest/docs/resources/emrv2_cluster


2、EMR 集群支持数据盘加密

适用客户:所有 EMR 发布地域用户


发布功能:用户可以在创建集群时选择开启数据盘加密,支持加密的数据盘类型有 ESSD 云盘、SSD 云盘和高效云盘。加密数据盘后,数据盘上的动态数据传输以及静态数据都会被加密,可以满足用户安全合规要求。


相关文档:https://help.aliyun.com/document_detail/450560.html


3、新增应用配置导出功能

适用客户:所有 EMR 发布地域用户


发布功能:支持将当前集群应用配置通过 xml 或 JSON 格式进行导出。用户可以使用该功能导出旧集群配置并在新建集群时使用,从而加速集群的升级和重建工作。


相关文档:https://help.aliyun.com/document_detail/607697.html?spm=a2c4g.11186623.0.0.1abf48a5vWrlQf


4、事件中心新增系统事件

适用客户:所有 EMR 发布地域用户


发布功能:事件中心新增系统事件 System:PreemptibleInstanceReplace:Successful(抢占式实例自动补偿通知)。用户可以在开启抢占式实例补偿功能时,使用该事件跟踪抢占式实例补偿过程。


相关文档:https://help.aliyun.com/document_detail/465463.html


5、访问链接与端口功能升级

适用客户:所有 EMR 发布地域用户


发布功能:访问链接与端口新增服务原生 UI 地址,并在原 Knox 地址新增支持外网/内网多种链接形式,用户在不同集群环境下均可通过该模块访问服务 UI。


相关文档:https://help.aliyun.com/document_detail/389055.html


6、日志管理新增支持投递服务

适用客户:所有 EMR 发布地域用户


发布功能:新增 yarn-application 日志投递功能,支持用户将 YARN 任务运行日志投递至 SLS 进行后续分析。


相关文档:https://help.aliyun.com/document_detail/465660.html


7、弹性伸缩规则新增配置参数

适用客户:所有 EMR 发布地域用户


发布功能:弹性伸缩按负载伸缩规则新增时间约束参数。用户可以配置该参数控制台按负载弹性伸缩规则生效时间,适用于同时使用按时间和按负载两种规则的弹性伸缩场景。


相关文档:https://help.aliyun.com/document_detail/445658.html



二、E-MapReduce 国际站

1、EMR 新平台在马来西亚(吉隆坡)正式开服

适用客户:吉隆坡地区用户


发布功能:EMR 新平台在马来西亚(吉隆坡)正式开服,用户可以在该 region 创建和管理 DataLake、OLAP、Dataflow、Dataserving、Custom 等 新集群。


2、EMR Doctor 在德国(法兰克福)正式开服

适用客户:德国(法兰克福)用户


发布功能:EMR Doctor  开服法兰克福 region。


3、集群监控新增国际化英文版本

适用客户:所有 EMR 发布地域用户


发布功能:集群监控模块(事件中心、指标监控)新增英文版本支持。支持国际用户英文环境下使用 EMR 集群监控功能。


相关文档:https://www.alibabacloud.com/help/en/e-mapreduce/latest/new-evenment


三、EMR Doctor 智能运维系统

1、EMR Doctor 日报内容更新

适用客户:北京/上海/杭州/深圳 Region 用户


发布功能:

HDFS/Hive 日报更新:

  • 新增冷热数据占比趋势图:反映近七天 HDFS/Hive 存储的冷热数据量占比各自的变化趋势,帮助您更好的了解集群冷热数据走向。
  • 新增大小文件占比趋势图:反映近七天 HDFS/Hive 存储的大小文件数量占比各自的变化趋势,帮助您及时发现小文件增长趋势以及直观感受优化效果。


Compute 日报更新:

  • 新增基础信息展示:包括计算任务数量,Failed/Killed 任务数量,Mapreduce 任务数量,Spark 任务数量,Tez 任务数量,内存时,CPU 时。
  • 新增任务分数分布图:展示各分数区间(0-60,60-70,70-80,80-90,90-100)的任务数量分布。
  • 新增队列分析:与用户信息分析合并为用户和队列信息分析,新增以下图表信息。
  • 新增提交任务队列算力内存时分布:展示各队列上每日提交运行的任务的算力内存时占比。
  • 新增提交任务队列算力 CPU 时分布:展示各队列上每日提交运行的任务的算力 CPU 时占比。
  • 新增提交任务队列评分排名:展示健康度评分最差的10个队列以及评分。
  • 新增提交任务队列任务数量分布:展示各队列的任务数量。
  • 新增队列内存时 Top 详细信息:展示内存时最大的20个队列的详细信息,包括评分,内存时,CPU 时以及日环比。
  • 新增任务的队列信息:计算任务各 Top 表中任务的详细信息增加任务的队列。
  • 新增任务当前配置信息:计算任务各 Top 表中的任务的详细信息增加任务的当前配置展示。


相关文档:https://help.aliyun.com/document_detail/430095.html


2、EMR Doctor 实时检测内容更新

适用客户:北京/上海/杭州/深圳 Region 用户


发布功能:

● 新增任务的队列信息:Spark,MapReduce,Tez 任务各 Top 表中任务的详细信息增加任务的队列。

● 新增任务当前配置信息:Spark,MapReduce,Tez 任务各 Top 表中的任务的详细信息增加任务的当前配置展示。


相关文档:https://help.aliyun.com/document_detail/464156.html



EMR 产品活动

1、阿里云 E-MapReduce Serverless StarRocks 免费测试申请

EMR Serverless StarRocks 是由阿里云 EMR 全新推出的 Serverless StarRocks 服务,StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。可广泛应用于 BI 报表分析、OLAP 报表、数据湖分析、实时数据接入及分析等场景。      


EMR Serverless StarRocks 相较于开源 StarRocks 产品特性包括:  

  • 提供免运维,全托管的 StarRocks 实例管理服务,提升服务的稳定性,可运维性,降低您的运维成本。
  • 提供可视化,高效率的实例管理,监控告警,配置管理能力。        
  • 专业的 StarRocks Manager,为 StarRocks 管理提供便捷的,可视化的元数据管理,诊断与优化,以及用户管理和授权能力。  


邀请测试期间 EMR Serverless StarRocks 均为免费(注意:会额外开通 SLB/ARMS,会产生少量费用,会随实例释放)    


邀测申请: https://survey.aliyun.com/apps/zhiliao/EEb00jXa7


2、阿里云 E-MapReduce Notebook 免费试用邀请

EMR Notebook 是云原生的大数据开发环境,为数据工程师、数据分析师和数据科学家提供了可视化的协同应用程序开发环境。基于Jupyter 的 EMR Notebook 可自动适配 EMR 的计算引擎,支持 Python、Scala、PySpark 和 R 等多种语言。


参与本次试用活动,您将获得:

  • 100% 兼容 Jupyter 的免费 Notebook 服务,体验更优 。
  • 可自动适配连接 EMR 集群,编辑和运行代码。


试用资格申请:https://survey.aliyun.com/apps/zhiliao/SGC7QcG6e?spm=a2cug.25127996.0.0.75f81060WMyLnc


3、阿里云 E-MapReduce Workflow 免费试用邀请

阿里云EMR Workflow 是基于 Apache Dolphinscheduler 的全托管 Serverless 的工作流调度服务,是 EMR 2.0 数据开发解决方案的重要组成部分。


EMR WorkFlow 具有以下特点:

  1. 安全稳定

托管的 Workflow 服务,极大地降低了用户的运维成本,为任务运行提供了安全稳定的环境


  1. 操作便捷

延续了 Apache Dolphinscheduler 可视化 DAG 操作方式,可以通过拖拽的方式轻松定义工作流


  1. 生态丰富

支持 Shell、Hive、Spark、Sqoop 等多种任务类型,自动适配 EMR 多种集群类型。


参与本次活动,您将获得:

1.  免费试用 EMR Workflow 服务的资格

2.  自动适配您的 EMR 集群,开箱即用


试用资格申请:https://survey.aliyun.com/apps/zhiliao/AMO_oRU8D?accounttraceid=4118c5ca19d54f69a5a836193c682437cpzg


最佳技术实践

1、基于数据湖格式构建流式增量数仓—CDC

本文整理自阿里云开源大数据平台技术专家毕岩(寻径)在 Apache Con ASIA 的分享。本篇内容主要分为四个部分:

1. 湖格式& Hudi & CDC

2. 湖格式设计实现 CDC 的思考

3. Hudi CDC 实现

4. 湖格式 Streaming 的优化


文章详情:https://developer.aliyun.com/article/1164177?spm=a2c6h.13148508.setting.16.549c4f0ezN5x4B


2、开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

在本篇文章中,我们将介绍大数据集群领域所需的可观测性,实践大数据集群可观测所需要的条件和面临的挑战,以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。


文章详情:https://developer.aliyun.com/article/1167786?spm=a2c6h.13148508.setting.14.549c4f0ezN5x4B


3、阿里云EMR 2.0:重新定义新一代开源大数据平台

本次分享主要介绍了阿里云E-MapReduce 的开发历程,EMR 2.0 的新特性、产品架构,以及EMR 2.0 在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新,重新定义新一代开源大数据平台。


文章详情:https://developer.aliyun.com/article/1150890?spm=a2c6h.13148508.setting.20.549c4f0ezN5x4B


4、阿里云EMR 2.0 平台:让大数据更简单

作为国内开源大数据领域的引领者,EMR2.0 在平台体验、数据开发、产品形态及数据分析等方面做了全面突破与创新,重新定义了新一代开源大数据平台。本文介绍如何利用EMR新平台实现更加低成本、高效率、智能化的大数据集群管控和应用开发。


文章详情:https://developer.aliyun.com/article/1150890?spm=a2c6h.13148508.setting.20.549c4f0ezN5x4B


5、阿里云EMR 2.0:兼容开源,贡献开源,超越开源

本文整理自阿里云资深技术专家吴威(无谓)在 阿里云EMR2.0 线上发布会的分享。本文从开源的角度出发,分享了阿里云EMR 团队的工作。


文章详情:https://developer.aliyun.com/article/1166381?spm=a2c6h.13148508.setting.15.549c4f0ezN5x4B


开源技术前沿动态

1、StarRocks 2.5 LTS 版本新特性介绍

StarRocks 2.5 LTS 版本于近期发布,阿里云 EMR Serverless StarRocks 也在火热邀测中。本文将重点介绍 StarRocks 2.5版本核心功能以及阿里云 EMR Serverless StarRocks 特性。


文章详情:https://developer.aliyun.com/article/1153610?spm=a2c6h.13148508.setting.18.549c4f0ezN5x4B


2、Spark+Celeborn:更快,更稳,更弹性

本文整理自阿里云 EMR Spark 团队的周克勇(一锤),在 Spark&DS Meetup 的分享。本篇内容主要分为三个部分:

1. 传统 Shuffle 的问题

2. Apache Celeborn (Incubating)简介

3. Celeborn 在性能、稳定性、弹性上的设计


文章详情:https://developer.aliyun.com/article/1153123?spm=a2c6h.13148508.setting.19.549c4f0ezN5x4B



钉钉扫码进群,欢迎咨询与交流前沿开源大数据

image.png

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
2月前
|
SQL 缓存 大数据
【秋招面试】分享一则大数据面经:货拉拉大数据平台实习岗
【秋招面试】分享一则大数据面经:货拉拉大数据平台实习岗
77 0
|
2月前
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云向量检索服务:重塑大数据检索的未来
阿里云向量检索服务是一款强大且易于使用的云服务产品,专为大数据检索而设计。通过深度学习模型和高效的索引结构,该服务提供了快速、准确的检索能力,适用于多种业务场景。在评测中,我们对其功能、性能和业务场景适配性进行了全面评估,认为其具有出色的性能和良好的业务场景适配性。未来,阿里云向量检索服务有望持续发展和创新,拓展更多应用领域,为用户带来更加卓越的体验。
1609 5
|
15天前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
17366 24
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
13天前
|
分布式计算 数据可视化 大数据
阿里云大牛熬夜整理的Python大数据小抄,GitHub星标125K!
Python 是一种流行的编程语言,在大数据领域有广泛的应用。Python 拥有丰富的库和工具,可用于数据处理、分析和可视化。 在大数据处理方面,Python 可以与 Hadoop、Spark 等大数据框架集成,实现大规模数据的处理和分析。它也适用于数据清洗、数据转换、数据挖掘等任务。 此外,Python 的数据分析库如 Pandas、NumPy 和 Matplotlib 等,提供了强大的数据处理和可视化功能,使得数据分析变得更加简单和高效。
|
19天前
|
分布式计算 数据可视化 大数据
阿里云大牛熬夜整理的Python大数据小抄,GitHub星标125K!
Python 是一种流行的编程语言,在大数据领域有广泛的应用。Python 拥有丰富的库和工具,可用于数据处理、分析和可视化。 在大数据处理方面,Python 可以与 Hadoop、Spark 等大数据框架集成,实现大规模数据的处理和分析。它也适用于数据清洗、数据转换、数据挖掘等任务。 此外,Python 的数据分析库如 Pandas、NumPy 和 Matplotlib 等,提供了强大的数据处理和可视化功能,使得数据分析变得更加简单和高效。
|
21天前
|
存储 弹性计算 大数据
阿里云ECS以其强大的弹性计算与存储能力,为大数据处理提供了灵活、高效、成本优化的解决方案
阿里云ECS在大数据处理中发挥关键作用,提供多样化实例规格适应不同需求,如大数据型实例适合离线计算。ECS与OSS集成实现大规模存储,通过Auto Scaling动态调整资源,确保高效运算。案例显示,使用ECS处理TB级数据,速度提升3倍,成本降低40%,展现其在弹性、效率和成本优化方面的优势。结合阿里云生态系统,ECS助力企业数据驱动创新。
34 1
|
21天前
|
存储 弹性计算 大数据
阿里云ECS在大数据处理中展现高效存储与计算实力,提供多样化实例规格适应不同需求
【7月更文挑战第3天】阿里云ECS在大数据处理中展现高效存储与计算实力,提供多样化实例规格适应不同需求,如大数据型实例配备高吞吐硬盘。与OSS集成实现大规模存储,通过Auto Scaling动态调整资源,确保任务高效运行。案例显示,使用ECS能提升处理速度、降低成本,为企业数据驱动创新提供有力支持。
34 1
|
25天前
|
分布式计算 Cloud Native 大数据
《阿里云产品四月刊》—云原生大数据计算服务 MaxCompute 新功能
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
2月前
|
分布式计算 运维 DataWorks
松柏之志,下聚百川-松下中国阿里云大数据实践
松下集团在中国及东北亚地区拥有有64家法人公司,员工人数约4万人,业务范围涉及研究开发,养老、铸件、汽车、车载、能源、电池等多个方面,这些多元化的业务组合为松下常年可持续性发展提供坚实保障。中国地区的松下已有30多年的历史,集合了研发、生产、制造、流通、销售、服务于一体。 互联网浪潮下,松下作为百年传统制造业企业,在务实的坚实基础上进行创新,本文将围绕数字化改革中所遇挑战,松下数据治理实践及未来期待三部分进行说明。
101589 13
松柏之志,下聚百川-松下中国阿里云大数据实践
|
7天前
|
机器学习/深度学习 运维 算法

相关产品

  • 开源大数据平台 E-MapReduce