阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-4月刊

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 开源大数据EMR产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。

重磅:阿里云智能数据湖入选第六届数字中国建设峰会“十大硬核科技”

4月27日,第六届数字中国建设峰会在福建福州举办,阿里云首创并推动的智能数据湖方案因“引领业界技术上创新”入选本届峰会的“十大硬核科技",这也是历届峰会中首次有数据湖产品入选。阿里云在2019年推出了云原生智能数据湖方案,融合了E-MapReduce、DLF、OSS、Flink、PAI等产品,致力于帮助客户提升单位数据的智能化价值。

1683704807439-4d860e12-fb9d-4dd4-8b0f-9e2151086b97.jpg


阿里云智能数据湖打破过多项世界纪录。在CloudSort 100TB竞赛和 TPC-DS 10TB竞赛中,阿里云分别打破世界纪录,TCO成本远低于第二名,降低近100%。在中国信通院的专项评测中,拿下“云原生数据湖基础能力专项评测证书”满分评测,国内第一。

1683705127723-3e115338-eb87-4d1c-a65f-d35767876193.png

2020年至今有上万家客户在阿里云上构建数据湖,覆盖智能汽车、在线教育、互联网广告、新媒体、网络游戏等行业。例如基于智能数据湖方案,小鹏汽车实现了大批量自动驾驶采集数据快速入湖、处理、标注和存储高效对接智能算力,多种模型同步训练。



E-MapReduce&DLF产品新进展

1、支持控制台可视化管理YARN分区

适用客户:EMR全量用户


发布功能:EMR支持在控制台上通过可视化UI管理YARN分区,同时可以批量建立节点组与分区的映射,方便操作。您可以直接在节点组上配置分区属性,扩容和弹性伸缩后,EMR会自动为新增节点打上Node Label,无需重新配置新节点。


相关文档:https://help.aliyun.com/document_detail/613506.html


2、EMR Doctor智能运维系统

  • 集群日报计算部分增加任务长尾检测
  • 集群日报计算部分数据倾斜诊断到Stage更细粒度的分析
  • 集群日报计算部分任务明细增加作业IO和Shuffle信息
  • 集群日报存储部分优化内存使用和分析时间
  • 实时分析增加Spark任务异常分析


相关文档:https://help.aliyun.com/document_detail/442435.html



EMR产品活动

1、阿里云EMR Serverless StarRocks免费公测版发布

EMR Serverless StarRocks是由阿里云EMR全新推出的Serverless StarRocks服务,StarRocks是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。可广泛应用于BI报表分析、OLAP 报表、数据湖分析、实时数据接入及分析等场景。      


EMR Serverless StarRocks 相较于开源StarRocks产品特性包括:

  • 提供免运维,全托管的StarRocks实例管理服务,提升服务的稳定性,可运维性,降低您的运维成本。        
  • 提供可视化,高效率的实例管理,监控告警,配置管理能力。        
  • 专业的StarRocks Manager,为StarRocks管理提供便捷的,可视化的元数据管理,诊断与优化,以及用户管理和授权能力。  


阿里云 EMR Serverless StarRocks免费公测入口: https://help.aliyun.com/document_detail/608380.html


2、阿里云 × StarRocks 云上StarRocks极速湖仓—北京站

数据价值是一个老生常谈的话题,随着公司技术和业务的发展,数据的种类愈发繁多,数据分析的需求愈发复杂。当公司经营中产生的数据是海量的,同时数据类型和结构复杂且多元,传统的数据仓库就无法满足分析性能的需求,湖仓一体的技术架构应需而生。

为了能够满足更多用户对于极速湖仓分析的需求,StarRocks 2.5 版本进一步增强数据湖能力,在数据源生态、查询速度、使用体验上都做了大量优化。在物化视图构建、刷新机制优化上也取得了新的进展作为合作伙伴,阿里云积极参与社区建设,深度参与到 StarRocks 数据湖分析能力的打造中。


阿里云 EMR StarRocks 产品发布已过去近一年的时间,同时随着 StarRocks 3.0 RC01 版本的面世,双方携手共同举办线下 Meetup。4月19日(周三)下午,水滴筹、猿辅导、阿里云 EMR 团队和 StarRocks 社区的技术专家,针对开源 OLAP 技术架构、 StarRocks 产品硬核技术及 EMR StarRocks 实战经验等一系列超干货内容,为大家带来诚意满满的技术盛宴。

1683705441095-8dcc9f3c-335f-47c8-8829-107211f56b74.jpeg

视频回放:https://developer.aliyun.com/live/251764



最佳技术实践

1、水滴筹基于阿里云 EMR StarRocks 实战分享

本篇文章由水滴筹大数据部门的数据开发工程师韩园园老师为大家带来水滴筹基于阿里云EMR StarRocks的实战经验分享。


文章详情:https://developer.aliyun.com/article/1207836



钉钉扫码进群,欢迎咨询与交流前沿开源大数据

image.png


相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
65 2
|
13天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
zdl
|
5天前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
24 0
|
1月前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年9月】
大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
27天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
38 0
|
1月前
|
SQL 运维 大数据
大数据实时计算产品的对比测评
在使用多种Flink实时计算产品后,我发现Flink凭借其流批一体的优势,在实时数据处理领域表现出色。它不仅支持复杂的窗口机制与事件时间处理,还具备高效的数据吞吐能力和精准的状态管理,确保数据处理既快又准。此外,Flink提供了多样化的编程接口和运维工具,简化了开发流程,但在界面友好度上还有提升空间。针对企业级应用,Flink展现了高可用性和安全性,不过价格因素可能影响小型企业的采纳决策。未来可进一步优化文档和自动化调优工具,以提升用户体验。
117 0
|
1月前
|
SQL 存储 监控
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
49 0
|
2月前
|
人工智能 分布式计算 DataWorks
大数据&AI产品月刊【2024年8月】
大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
91 3
|
5月前
|
分布式计算 Hadoop Java
Hadoop MapReduce编程
该教程指导编写Hadoop MapReduce程序处理天气数据。任务包括计算每个城市ID的最高、最低气温、气温出现次数和平均气温。在读取数据时需忽略表头,且数据应为整数。教程中提供了环境变量设置、Java编译、jar包创建及MapReduce执行的步骤说明,但假设读者已具备基础操作技能。此外,还提到一个扩展练习,通过分区功能将具有相同尾数的数字分组到不同文件。
63 1

相关产品

  • 开源大数据平台 E-MapReduce