阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-4月刊

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 开源大数据EMR产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。

重磅:阿里云智能数据湖入选第六届数字中国建设峰会“十大硬核科技”

4月27日,第六届数字中国建设峰会在福建福州举办,阿里云首创并推动的智能数据湖方案因“引领业界技术上创新”入选本届峰会的“十大硬核科技",这也是历届峰会中首次有数据湖产品入选。阿里云在2019年推出了云原生智能数据湖方案,融合了E-MapReduce、DLF、OSS、Flink、PAI等产品,致力于帮助客户提升单位数据的智能化价值。

1683704807439-4d860e12-fb9d-4dd4-8b0f-9e2151086b97.jpg


阿里云智能数据湖打破过多项世界纪录。在CloudSort 100TB竞赛和 TPC-DS 10TB竞赛中,阿里云分别打破世界纪录,TCO成本远低于第二名,降低近100%。在中国信通院的专项评测中,拿下“云原生数据湖基础能力专项评测证书”满分评测,国内第一。

1683705127723-3e115338-eb87-4d1c-a65f-d35767876193.png

2020年至今有上万家客户在阿里云上构建数据湖,覆盖智能汽车、在线教育、互联网广告、新媒体、网络游戏等行业。例如基于智能数据湖方案,小鹏汽车实现了大批量自动驾驶采集数据快速入湖、处理、标注和存储高效对接智能算力,多种模型同步训练。



E-MapReduce&DLF产品新进展

1、支持控制台可视化管理YARN分区

适用客户:EMR全量用户


发布功能:EMR支持在控制台上通过可视化UI管理YARN分区,同时可以批量建立节点组与分区的映射,方便操作。您可以直接在节点组上配置分区属性,扩容和弹性伸缩后,EMR会自动为新增节点打上Node Label,无需重新配置新节点。


相关文档:https://help.aliyun.com/document_detail/613506.html


2、EMR Doctor智能运维系统

  • 集群日报计算部分增加任务长尾检测
  • 集群日报计算部分数据倾斜诊断到Stage更细粒度的分析
  • 集群日报计算部分任务明细增加作业IO和Shuffle信息
  • 集群日报存储部分优化内存使用和分析时间
  • 实时分析增加Spark任务异常分析


相关文档:https://help.aliyun.com/document_detail/442435.html



EMR产品活动

1、阿里云EMR Serverless StarRocks免费公测版发布

EMR Serverless StarRocks是由阿里云EMR全新推出的Serverless StarRocks服务,StarRocks是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。可广泛应用于BI报表分析、OLAP 报表、数据湖分析、实时数据接入及分析等场景。      


EMR Serverless StarRocks 相较于开源StarRocks产品特性包括:

  • 提供免运维,全托管的StarRocks实例管理服务,提升服务的稳定性,可运维性,降低您的运维成本。        
  • 提供可视化,高效率的实例管理,监控告警,配置管理能力。        
  • 专业的StarRocks Manager,为StarRocks管理提供便捷的,可视化的元数据管理,诊断与优化,以及用户管理和授权能力。  


阿里云 EMR Serverless StarRocks免费公测入口: https://help.aliyun.com/document_detail/608380.html


2、阿里云 × StarRocks 云上StarRocks极速湖仓—北京站

数据价值是一个老生常谈的话题,随着公司技术和业务的发展,数据的种类愈发繁多,数据分析的需求愈发复杂。当公司经营中产生的数据是海量的,同时数据类型和结构复杂且多元,传统的数据仓库就无法满足分析性能的需求,湖仓一体的技术架构应需而生。

为了能够满足更多用户对于极速湖仓分析的需求,StarRocks 2.5 版本进一步增强数据湖能力,在数据源生态、查询速度、使用体验上都做了大量优化。在物化视图构建、刷新机制优化上也取得了新的进展作为合作伙伴,阿里云积极参与社区建设,深度参与到 StarRocks 数据湖分析能力的打造中。


阿里云 EMR StarRocks 产品发布已过去近一年的时间,同时随着 StarRocks 3.0 RC01 版本的面世,双方携手共同举办线下 Meetup。4月19日(周三)下午,水滴筹、猿辅导、阿里云 EMR 团队和 StarRocks 社区的技术专家,针对开源 OLAP 技术架构、 StarRocks 产品硬核技术及 EMR StarRocks 实战经验等一系列超干货内容,为大家带来诚意满满的技术盛宴。

1683705441095-8dcc9f3c-335f-47c8-8829-107211f56b74.jpeg

视频回放:https://developer.aliyun.com/live/251764



最佳技术实践

1、水滴筹基于阿里云 EMR StarRocks 实战分享

本篇文章由水滴筹大数据部门的数据开发工程师韩园园老师为大家带来水滴筹基于阿里云EMR StarRocks的实战经验分享。


文章详情:https://developer.aliyun.com/article/1207836



钉钉扫码进群,欢迎咨询与交流前沿开源大数据

image.png


相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
23小时前
|
人工智能 API
阿里云微服务引擎及 API 网关 2024 年 6 月产品动态
阿里云微服务引擎及 API 网关 2024 年 6 月产品动态
|
1天前
|
消息中间件 分布式计算 DataWorks
DataWorks产品使用合集之如何使用Python和阿里云SDK读取OSS中的文件?
摘要:DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2天前
|
SQL 人工智能 JavaScript
|
18小时前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用合集之在阿里云DataWorks中,如何关闭跨空间查询表功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
18小时前
|
持续交付 开发工具 对象存储
阿里云云效产品使用合集之构建物如何上传到阿里云OSS?
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
1天前
|
分布式计算 DataWorks NoSQL
DataWorks产品使用合集之同步Holo数据到ODPS的过程中,出现部分数据的值变为星号(),是什么原因?
摘要:DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之同步Holo数据到ODPS的过程中,出现部分数据的值变为星号(),是什么原因?
|
10天前
|
数据采集 自然语言处理 大数据
​「Python大数据」词频数据渲染词云图导出HTML
使用Python,本文展示数据聚类和办公自动化,焦点在于通过jieba分词处理VOC数据,构建词云图并以HTML保存。`wordCloud.py`脚本中,借助pyecharts生成词云,如图所示,关键词如"Python"、"词云"等。示例代码创建了词云图实例,添加词频数据,并输出到"wordCloud.html"。
35 1
​「Python大数据」词频数据渲染词云图导出HTML
|
1天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之同样的表和数据,在PolarDB执行LEFT JOIN查询可以得到结果,但在MaxCompute中却返回为空,是什么原因?
摘要:DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
1天前
|
分布式计算 DataWorks API
DataWorks产品使用合集之使用REST API Reader往ODPS写数据时,如何获取入库时间?
摘要:DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
16小时前
|
数据采集 分布式计算 大数据
MaxCompute产品使用合集之数据集成中进行数据抽取时,是否可以定义使用和源数据库一样的字符集进行抽取
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

相关产品

  • 开源大数据平台 E-MapReduce