开发者社区精选直播合集(十九)|走进开源大数据平台 EMR

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 主要介绍EMR产品历史、选择理由、产品形态介绍,核心组件简介和使用、常用引擎使用示例、数据开发等

往期精选合集包(戳我前往)

囊括了:AI、架构师、 Serverless 、AIoT、DevOps、容器化、机器学习、云计算、K8s、微服务、云原生、视觉AI、大数据、小程序、物联网等各种主题直播合集。



走进开源大数据平台 EMR第一讲

image.png

>>戳我去观看


直播简介

主要介绍EMR产品历史、选择理由、产品形态介绍

讲师介绍

夏俊鸾,花名亦龙,阿里云智能资深技术专家

王晓平,花名子关,阿里巴巴 EMR 产品专家


EMR 产品入门

image.png

>>戳我去观看


直播简介

本节主要内容有 EMR 核心组件简介和使用、常用引擎使用示例、数据开发等

讲师介绍

孙大鹏,花名诚历,阿里巴巴 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。


EMR 的存储解决方案

image.png

>>戳我去观看


直播介绍

本节主要介绍EMR针对云上大数据的存储解决方案,如何为计算提供灵活高效的存储基础

讲师介绍

姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作


EMR 开通与演示

image.png

>>戳我去观看


直播介绍

本节主要介绍开通EMR的环境准备、账号准备、付费情况、实操演示

讲师介绍

魏巍,花名念民,阿里巴巴 EMR 产品经理


阿里云EMR系列直播 - 精讲 Databricks数据洞察(介绍及案例分析)

image.png

>>戳我去观看


直播简介

Databricks数据洞察是企业级全托管的Spark高性能大数据分析平台,来自Apache Spark创始公司Databricks。引擎采用Databricks Runtime,性能与社区版相比,最高可达50倍提升,高效而稳定。本次直播将重点展开介绍该产品,并针对代表性案例进行分析。

讲师介绍

韩宗泽(棕泽),阿里云技术专家,计算平台事业部开放平台-生态企业团队负责人


阿里云EMR系列直播-EMR spark on ACK产品演示及最佳实践

image.png

>>戳我去观看


直播简介

EMR on ACK是企业级半托管的开源大数据平台,为阿里云E-MapReduce(EMR)提供了一个部署选项,允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。 目前支持Spark引擎的部署,结合自研的Remote shuffle service服务组件,提供用户高稳定、高性价比、灵活的弹性计算服务。本次直播重点展开了该产品介绍和使用演示。

讲师介绍

石磊(砳岩),阿里云技术专家



EMR弹性低成本离线大数据分析 最佳实践

image.png

>>戳我去观看


直播简介

EMR弹性低成本离线大数据分析 最佳实践

讲师介绍

明誉  阿里云智能


EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

image.png

>>戳我去观看


直播简介

EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳,本次直播将详细介绍Native Codegen框架。

讲师介绍

周克勇,花名一锤,阿里巴巴计算平台事业部EMR团队技术专家,大数据领域技术爱好者,对Spark有浓厚兴趣和一定的了解,目前主要专注于EMR产品中开源计算引擎的优化工作。



欢迎持续关注!将持续更新开发者社区精品直播内容!

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
5月前
|
人工智能 分布式计算 DataWorks
一体系数据平台的进化:基于阿里云 EMR Serverless Spark 的持续演进
本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技,一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系,解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持,显著提升数据处理性能与业务响应速度,降低运维成本,为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻,并推动AI技术深度整合,迈向智能化云原生数据平台。
220 4
|
9月前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
750 58
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
726 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
存储 分布式计算 大数据
大数据革新在即,阿里云EMR如何布局DeltaLake引领行业潮流?
【8月更文挑战第26天】大数据时代,实时处理与分析能力对企业至关重要。Delta Lake 作为高性能、可靠且支持 ACID 事务的开源存储层,已成为业界焦点。阿里云 EMR 深度布局 Delta Lake,计划深化集成、强化数据安全、优化实时性能,并加强生态建设与社区贡献。通过与 Spark 的无缝对接及持续的技术创新,阿里云 EMR 致力于提供更高效、安全的数据湖解决方案,引领大数据处理领域的发展新方向。
194 3
|
存储 分布式计算 监控
揭秘阿里云EMR:如何巧妙降低你的数据湖成本,让大数据不再昂贵?
【8月更文挑战第26天】阿里云EMR是一种高效的大数据处理服务,助力企业优化数据湖的成本效益。它提供弹性计算资源,支持根据需求调整规模;兼容并优化了Hadoop、Spark等开源工具,提升性能同时降低资源消耗。借助DataWorks及Data Lake Formation等工具,EMR简化了数据湖构建与管理流程,实现了数据的统一化治理。此外,EMR还支持OSS、Table Store等多种存储选项,并配备监控优化工具,确保数据处理流程高效稳定。通过这些措施,EMR帮助企业显著降低了数据处理和存储成本。
490 3
|
存储 大数据 数据处理
解锁时间旅行新姿势!EMR DeltaLake 如何让你在大数据海洋中畅游历史,重塑决策瞬间?
【8月更文挑战第26天】DeltaLake是由DataBricks公司开源的大数据存储框架,专为构建高效的湖仓一体架构设计。其特色功能Time-Travel查询允许用户访问数据的历史版本,极大增强了数据处理的灵活性与安全性。通过独特的文件结构和日志管理机制,DeltaLake实现了数据版本控制。用户可通过指定时间戳或版本号查询历史数据。
191 2
|
存储 大数据 数据处理
Delta Lake革新浪潮:EMR中的数据湖守护者,如何重塑大数据生态?
【8月更文挑战第26天】Delta Lake是一款开源大数据处理框架,以数据版本控制和ACID事务特性著称,在大数据领域崭露头角。在阿里云EMR平台上,它为用户提供高效可靠的数据处理方式,通过结构化的存储、事务日志实现数据版本控制和回滚。Delta Lake在EMR中实现了ACID事务,简化数据湖操作流程,支持时间旅行查询历史数据版本,优化存储格式提高读取速度,这些优势使其在开源社区和企业界获得广泛认可。
257 2
|
存储 分布式计算 大数据
阿里云 EMR 强势助力,与阿里云大数据体系共创辉煌,把握时代热点,开启生态建设之旅
【8月更文挑战第26天】阿里云EMR(Elastic MapReduce)是一种大数据处理服务,与阿里云的多个服务紧密结合,共同构建了完善的大数据生态系统。EMR与对象存储服务(OSS)集成,利用OSS提供可靠、低成本且可扩展的数据存储;与MaxCompute集成,实现深度数据分析和挖掘;还支持数据湖构建服务,加速数据湖的搭建并简化数据管理与分析过程。EMR提供多种编程接口及工具,如Hive、Spark和Flink等,帮助用户高效完成大数据处理任务。
441 2
|
分布式计算 大数据 数据处理
【大数据管理新纪元】EMR Delta Lake 与 DLF 深度集成:解锁企业级数据湖的无限潜能!
【8月更文挑战第26天】随着大数据技术的发展,Apache Spark已成为处理大规模数据集的首选工具。亚马逊的EMR服务简化了Spark集群的搭建和运行流程。结合使用Delta Lake(提供ACID事务保证和数据版本控制)与DLF(加强数据访问控制及管理),可以显著提升数据湖的可靠性和性能。本文通过一个电商公司的具体案例展示了如何在EMR上部署集成Delta Lake和DLF的环境,以及这一集成方案带来的几大优势:增强的可靠性、细粒度访问控制、性能优化以及易于管理的特性。这为数据工程师提供了一个高效且灵活的数据湖平台,简化了数据湖的建设和维护工作。
296 1
|
Java Spring 开发者
掌握Spring事务管理,打造无缝数据交互——实用技巧大公开!
【8月更文挑战第31天】在企业应用开发中,确保数据一致性和完整性至关重要。Spring框架提供了强大的事务管理机制,包括`@Transactional`注解和编程式事务管理,简化了事务处理。本文深入探讨Spring事务管理的基础知识与高级技巧,涵盖隔离级别、传播行为、超时时间等设置,并介绍如何使用`TransactionTemplate`和`PlatformTransactionManager`进行编程式事务管理。通过合理设计事务范围和选择合适的隔离级别,可以显著提高应用的稳定性和性能。掌握这些技巧,有助于开发者更好地应对复杂业务需求,提升应用质量和可靠性。
182 0

热门文章

最新文章