阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-4月刊

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 开源大数据EMR产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。

重磅:阿里云智能数据湖入选第六届数字中国建设峰会“十大硬核科技”

4月27日,第六届数字中国建设峰会在福建福州举办,阿里云首创并推动的智能数据湖方案因“引领业界技术上创新”入选本届峰会的“十大硬核科技",这也是历届峰会中首次有数据湖产品入选。阿里云在2019年推出了云原生智能数据湖方案,融合了E-MapReduce、DLF、OSS、Flink、PAI等产品,致力于帮助客户提升单位数据的智能化价值。

1683704807439-4d860e12-fb9d-4dd4-8b0f-9e2151086b97.jpg


阿里云智能数据湖打破过多项世界纪录。在CloudSort 100TB竞赛和 TPC-DS 10TB竞赛中,阿里云分别打破世界纪录,TCO成本远低于第二名,降低近100%。在中国信通院的专项评测中,拿下“云原生数据湖基础能力专项评测证书”满分评测,国内第一。

1683705127723-3e115338-eb87-4d1c-a65f-d35767876193.png

2020年至今有上万家客户在阿里云上构建数据湖,覆盖智能汽车、在线教育、互联网广告、新媒体、网络游戏等行业。例如基于智能数据湖方案,小鹏汽车实现了大批量自动驾驶采集数据快速入湖、处理、标注和存储高效对接智能算力,多种模型同步训练。



E-MapReduce&DLF产品新进展

1、支持控制台可视化管理YARN分区

适用客户:EMR全量用户


发布功能:EMR支持在控制台上通过可视化UI管理YARN分区,同时可以批量建立节点组与分区的映射,方便操作。您可以直接在节点组上配置分区属性,扩容和弹性伸缩后,EMR会自动为新增节点打上Node Label,无需重新配置新节点。


相关文档:https://help.aliyun.com/document_detail/613506.html


2、EMR Doctor智能运维系统

  • 集群日报计算部分增加任务长尾检测
  • 集群日报计算部分数据倾斜诊断到Stage更细粒度的分析
  • 集群日报计算部分任务明细增加作业IO和Shuffle信息
  • 集群日报存储部分优化内存使用和分析时间
  • 实时分析增加Spark任务异常分析


相关文档:https://help.aliyun.com/document_detail/442435.html



EMR产品活动

1、阿里云EMR Serverless StarRocks免费公测版发布

EMR Serverless StarRocks是由阿里云EMR全新推出的Serverless StarRocks服务,StarRocks是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。可广泛应用于BI报表分析、OLAP 报表、数据湖分析、实时数据接入及分析等场景。      


EMR Serverless StarRocks 相较于开源StarRocks产品特性包括:

  • 提供免运维,全托管的StarRocks实例管理服务,提升服务的稳定性,可运维性,降低您的运维成本。        
  • 提供可视化,高效率的实例管理,监控告警,配置管理能力。        
  • 专业的StarRocks Manager,为StarRocks管理提供便捷的,可视化的元数据管理,诊断与优化,以及用户管理和授权能力。  


阿里云 EMR Serverless StarRocks免费公测入口: https://help.aliyun.com/document_detail/608380.html


2、阿里云 × StarRocks 云上StarRocks极速湖仓—北京站

数据价值是一个老生常谈的话题,随着公司技术和业务的发展,数据的种类愈发繁多,数据分析的需求愈发复杂。当公司经营中产生的数据是海量的,同时数据类型和结构复杂且多元,传统的数据仓库就无法满足分析性能的需求,湖仓一体的技术架构应需而生。

为了能够满足更多用户对于极速湖仓分析的需求,StarRocks 2.5 版本进一步增强数据湖能力,在数据源生态、查询速度、使用体验上都做了大量优化。在物化视图构建、刷新机制优化上也取得了新的进展作为合作伙伴,阿里云积极参与社区建设,深度参与到 StarRocks 数据湖分析能力的打造中。


阿里云 EMR StarRocks 产品发布已过去近一年的时间,同时随着 StarRocks 3.0 RC01 版本的面世,双方携手共同举办线下 Meetup。4月19日(周三)下午,水滴筹、猿辅导、阿里云 EMR 团队和 StarRocks 社区的技术专家,针对开源 OLAP 技术架构、 StarRocks 产品硬核技术及 EMR StarRocks 实战经验等一系列超干货内容,为大家带来诚意满满的技术盛宴。

1683705441095-8dcc9f3c-335f-47c8-8829-107211f56b74.jpeg

视频回放:https://developer.aliyun.com/live/251764



最佳技术实践

1、水滴筹基于阿里云 EMR StarRocks 实战分享

本篇文章由水滴筹大数据部门的数据开发工程师韩园园老师为大家带来水滴筹基于阿里云EMR StarRocks的实战经验分享。


文章详情:https://developer.aliyun.com/article/1207836



钉钉扫码进群,欢迎咨询与交流前沿开源大数据

image.png


相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
8天前
|
数据采集 分布式计算 大数据
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计。它支持Python接口,充分利用MaxCompute的大数据资源,提升大规模数据分析效率。本文分享了MaxFrame在分布式Pandas处理和大语言模型数据预处理中的最佳实践,展示了其在数据清洗、特征工程等方面的强大能力,并提出了改进建议。
36 13
|
6天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
7天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
30 2
|
8天前
|
机器学习/深度学习 分布式计算 数据处理
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame 产品评测报告
20 4
|
11天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
19天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
21天前
|
SQL 运维 大数据
轻量级的大数据处理技术
现代大数据应用架构中,数据中心作为核心,连接数据源与应用,承担着数据处理与服务的重要角色。然而,随着数据量的激增,数据中心面临运维复杂、体系封闭及应用间耦合性高等挑战。为缓解这些问题,一种轻量级的解决方案——esProc SPL应运而生。esProc SPL通过集成性、开放性、高性能、数据路由和敏捷性等特性,有效解决了现有架构的不足,实现了灵活高效的数据处理,特别适用于应用端的前置计算,降低了整体成本和复杂度。
|
2天前
|
SQL 存储 分布式计算
阿里云 Paimon + MaxCompute 极速体验
Paimon 和 MaxCompute 的对接经历了长期优化,解决了以往性能不足的问题。通过半年紧密合作,双方团队专门提升了 Paimon 在 MaxCompute 上的读写性能。主要改进包括:采用 Arrow 接口减少数据转换开销,内置 Paimon SDK 提升启动速度,实现原生读写能力,减少中间拷贝与转换,显著降低 CPU 开销与延迟。经过双十一实战验证,Paimon 表的读写速度已接近 MaxCompute 内表,远超传统外表。欢迎体验!
|
29天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
68 4
|
6天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
52 0

相关产品

  • 开源大数据平台 E-MapReduce