开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1617
内容
12
活动
5396
关注
|
存储 缓存 算法
|

数据湖存储的安全写入之道

本文以 Hadoop 社区中的 S3A Connector 的实现为切入,分析了数据湖写入路径的安全性。

11512 5
|
SQL 消息中间件 分布式计算
|

基于阿里云 CloudMonitor云监控自定义监控大盘对 EMR 自定义监控实践

本文旨在分享 EMR 平台大数据服务基于阿里云 CloudMonitor 的监控实践,给客户提供除了 EMR 平台默认监控以外,自建监控方式,适用于统一多个阿里云服务的监控监控场景。

818 2
|
存储 SQL 缓存
|

阿里云EMR 2.0:定义下一代云原生智能数据湖

本次分享主要介绍了阿里云云原生数据湖分析解决方案的三个核心要素:全托管,湖存储;一站式,湖管理;多模态,湖计算。

29757 1
|
存储 分布式计算 Cloud Native
|

阿里云 EMR 基于 Apache DolphinScheduler 产品技术实践和社区贡献

本文整理自阿里云 EMR 数据开发团队负责人孙一凡(Evans 忆梵),在 Apache Spark & DS Meetup 的分享

1301 1
|
SQL 弹性计算 分布式计算
|

阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊

开源大数据平台 EMR 产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。

10199 8
|
SQL 运维 资源调度
|

开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

在本篇文章中,我们将介绍大数据集群领域所需的可观测性,实践大数据集群可观测所需要的条件和面临的挑战,以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。

17317 4
|
SQL 存储 分布式计算
|

阿里云EMR 2.0:兼容开源,贡献开源,超越开源

本文整理自阿里云资深技术专家吴威(无谓)在 阿里云EMR2.0线上发布会 的分享。本文从开源的角度出发,分享了阿里云EMR团队的工作。

1074 0
|
SQL 消息中间件 分布式计算
|

基于数据湖格式构建流式增量数仓—CDC

该文章内容源于 Apache Con ASIA 2022上的分享,整理归纳成文章。

15141 5
|
存储 SQL 弹性计算
|

阿里云EMR2.0平台:让大数据更简单

作为国内开源大数据领域的引领者,EMR2.0在平台体验、数据开发、产品形态及数据分析等方面做了全面突破与创新,重新定义了新一代开源大数据平台。本文介绍如何利用EMR新平台实现更加低成本、高效率、智能化的大数据集群管控和应用开发。

1259 0
|
存储 SQL 分布式计算
|

StarRocks 2.5 LTS 版本新特性介绍及阿里云EMR Serverless StarRocks火热邀测中

StarRocks 2.5 LTS 版本于近期发布,阿里云EMR Serverless StarRocks也在火热邀测中。本文将重点介绍StarRocks 2.5版本核心功能以及阿里云EMR Serverless StarRocks特性。

979 0
|
存储 分布式计算 Kubernetes
|

Spark+Celeborn:更快,更稳,更弹性

本文整理自阿里云 EMR Spark 团队的周克勇(一锤),在 Spark&DS Meetup 的分享。

69013 0
|
存储 分布式计算 Kubernetes
|

Spark+Celeborn:更快,更稳,更弹性

本文整理自阿里云 EMR Spark 团队的周克勇(一锤),在 Spark&DS Meetup 的分享。

755 0
|
SQL 存储 弹性计算
|

阿里云EMR 2.0:重新定义新一代开源大数据平台

本次分享主要介绍了阿里云E-MapReduce的开发历程,EMR 2.0的新特性、产品架构,以及EMR 2.0在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新,重新定义新一代开源大数据平台。

2883 0
|
分布式计算 大数据 Apache
|

直播预约|Apache Spark + DolphinScheduler Meetup 1月11日正式上线

洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler Meetup 将于 1 月 11 日在线上举办

216 1
|
存储 人工智能 运维
|

阿里云开源大数据平台升级EMR2.0发布 性能最高可提升6倍

阿里云EMR2.0为用户提供了全新的平台、开发、资源形态、分析场景等更优的产品体验,通过EMR Doctor健康检查、全面的服务巡检和事件通知、节点故障补偿等运维能力的升级,预估运维成本可降低20%-30%。新平台致力于为客户快速构建高性价比、安全可靠、兼容生态的开源大数据平台。

721 0
|
分布式计算 大数据 Java
|

Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!

545 0
|
分布式计算 大数据 Java
|

Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!

660 0
|
存储 运维 大数据
|

大数据上云存算分离演进思考与探讨-2022

当前大数据上云与存算分离的技术趋势越来越成为行业标准与发展方向。作为大数据商业化的践行者,从存算分离的演进/定义/价值/架构应用/实践/对比等多个维度来分析与探讨其发展历程与组成体系。为大数据存算分离技术整体发展添砖加瓦。

2983 2
|
存储 运维 分布式计算
|

阿里云开源大数据平台EMR全面升级 性能最高可提升6倍

12月27日,阿里云正式发布云原生开源大数据平台EMR 2.0,升级后的开源大数据平台在成本持平的情况下,扩缩容性能最高可提升6倍。

739 0
|
分布式计算 Cloud Native 数据可视化
|

直播预约|阿里云EMR 2.0 重磅发布

面向未来,构建新一代开源大数据基础设施!阿里云EMR 2.0 发布会 将于12月27日14点在线上举办。

395 0
|
存储 SQL 缓存
|

技术内幕 | 阿里云EMR StarRocks 极速数据湖分析

本文为作者在 StarRocks Summit Asia 2022 上的分享

1065 0
|
存储 弹性计算 数据管理
|

直播预告|数据仓库?数据湖?停止纠结,流批融合的极速 Lakehouse来了!

无需数据导入,即可体验性能堪比数仓的数据湖分析!2022年12月8日19点,StarRocks Lakehouse Meetup - 极速湖仓分析技术专场线上直播重磅开启,精彩不容错过!

442 0
|
SQL 存储 运维
|

EMR-StarRocks 与 Flink 在汇量实时写入场景的最佳实践

本文详细介绍了 EMR-StarRocks 与 Flink 在汇量实时写入场景的最佳实践。

2268 1
|
存储 分布式计算 资源调度
|

Spark on k8s 在阿里云 EMR 的优化实践

本文整理自阿里云技术专家范佚伦在7月17日阿里云数据湖技术专场交流会的分享。

1525 0
|
SQL 存储 JSON
|

基于 Delta Lake 构建数据湖仓体系

本文整理自阿里云开源大数据平台技术专家毕岩在7月17日阿里云数据湖技术专场交流会的分享。

967 0
|
存储 缓存 运维
|

基于EMR的新一代数据湖存储加速技术详解

本文整理自阿里云开源大数据平台数据湖存储团队孙大鹏在7月17日阿里云数据湖技术专场交流会的分享。

669 0
|
存储 SQL 分布式计算
|

数据湖管理及优化

本文整理自阿里云开源大数据高级开发工程师杨庆苇在7月17日阿里云数据湖技术专场交流会的分享。

1081 0
|
SQL 存储 弹性计算
|

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器

E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor,有效提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。

3529 0
|
SQL 存储 分布式计算
|

数据湖统一元数据与权限

本文整理自阿里云数据湖构建与分析研发熊佳树在7月17日阿里云数据湖技术专场交流会的分享。

1812 0
|
存储 SQL 分布式计算
|

数据湖架构及概念简介

本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。

2855 0
|
人工智能 达摩院 算法
|

2022世界人工智能大会大模型主题论坛星光云集,共话大模型的创新与生态发展!

本次“大规模预训练模型”主题论坛由阿里巴巴集团主办,世界人工智能大会组委会指导,整体围绕“大规模预训练模型的创新、落地和开源开放”展开,将探讨的边界延伸至算法模型、大数据及训练框架等方向,邀请到来自阿里巴巴,澜舟科技,清华大学,粤港澳大湾区数字经济研究院,深势科技,复旦大学等机构,在大规模预训练模型领域深耕多年的领军人物,通过keynote演讲和圆桌论坛两个环节,展示国产大模型多元生态下的技术成果和思考。

1710 0
|
数据采集 SQL 弹性计算
|

重磅发布!阿里云全链路数据湖开发治理解决方案

阿里云重磅发布全链路数据湖解决方案,主要包含开源大数据平台E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks + 数据湖构建DLF + 对象存储OSS等核心产品。

2572 4
|
机器学习/深度学习 存储 数据采集
|

免费下载!《Databricks数据洞察:从入门到实践》

本书从技术基础介绍到场景应用实践,帮助读者入门数据湖Lakehouse以及部分spark相关应用。

458 0
|
存储 弹性计算 运维
|

国内首批!阿里云云原生数据湖产品通过信通院评测认证

国内首批!得分排名第一!

779 0
|
消息中间件 存储 SQL
|

使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

本文介绍网约车模拟数据从产生,发布到流数据服务 Confluent,通过Databricks Structured Streaming进行实时数据处理,存储到LakeHouse,并使用spark和spark sql进行分析的应用实践。

693 0
|
机器学习/深度学习 存储 数据采集
|

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

本文介绍如何使用Databricks进行广告效果归因分析,完成一站式的部署机器学习,包括数据ETL、数据校验、模型训练/评测/应用等全流程。

747 0
|
存储 数据采集 运维
|

关于 Data Lake 的概念、架构与应用场景介绍

本文详细介绍了 Data Lake 的概念、架构与应用场景介绍。

2797 2
|
存储 消息中间件 数据采集
|

StarRocks X Flink CDC,打造端到端实时链路

作为一款全平台极速 MPP 架构,StarRocks 提供了多种性能优化手段与灵活的建模方式,在预聚合、宽表和星型/雪花等多种模型上,都可以获得极致的性能体验。通过 StarRocks 结合 Flink 构建开源实时数仓的方案,可以同时提供秒级数据同步和极速分析查询的能力。同时,通过 StarRocks 主键模型,也可以更好地支持实时和频繁更新等场景。

3517 0
|
机器学习/深度学习 存储 弹性计算
|

使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】

介绍如何使用Databricks和MLflow搭建机器学习生命周期管理平台,实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。

1064 0
|
BI OLAP 流计算
|

EMR-StarRocks 白皮书来啦!

EMR StarRocks 白皮书免费下载,架构、功能、解决方案,全方位解读!

86223 29
|
SQL 弹性计算 分布式计算
|

数据湖构建—如何构建湖上统一的数据权限

阿里云数据湖构建产品(DLF)提供的统一元数据服务,通过完善各种引擎/表格式生态解决了数据湖场景下多引擎面临的数据孤岛和元数据一致性问题,实现了开源大数据引擎及数据湖格式元数据的统一视图,避免了各引擎访问湖上数据其中额外的ETL成本并降低了业务处理链路的延时。

1557 0
|
存储 SQL JSON
|

Delta Lake基础介绍(开源版)【Databricks 数据洞察公开课】

针对社区版本Delta Lake提供的几大核心特性进行讲解,并通过示例演示如何使用这些特性。

878 0
|
存储 数据采集 机器学习/深度学习
|

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

1250 0
|
SQL 存储 人工智能
|

Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问

本文介绍了Databricks企业版Delta Lake的性能优势,借助这些特性能够大幅提升Spark SQL的查询性能,加快Delta表的查询速度。

356 0
|
SQL 存储 分布式计算
|

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面,介绍Delta Lake的演进和优势。

876 0
|
SQL 分布式计算 资源调度
|

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。

536 0
|
消息中间件 机器学习/深度学习 存储
|

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse,并介绍了如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建您的机器学习模型。

264 0
|
存储 SQL 人工智能
|

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

Delta Lake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上,并且与Apache Spark API完全兼容。希望本篇能让大家更深入了解Delta Lake,最终可以实践到工作当中。

470 0
|
存储 SQL 缓存
|

Delta Lake基础介绍(商业版)【Databricks 数据洞察公开课】

介绍 Lakehouse 搜索引擎的设计思想,探讨其如何使用缓存,辅助数据结构,存储格式,动态文件剪枝,以及 vectorized execution 达到优越的处理性能。

377 0
|
SQL 存储 分布式计算
|

数据湖揭秘—Delta Lake

Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。

4075 7
我要发布