开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1629
内容
13
活动
5419
关注
|
存储 消息中间件 SQL
|

如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践

随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。

877 0
|
存储 消息中间件 分布式计算
|

如何构建云原生的开源大数据平台 | 云原生开源大数据应用实战

随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。

1209 0
|
存储 SQL 分布式计算
|

百草味基于“ EMR+Databricks+DLF ”构建云上数据湖的最佳实践

本文介绍了百草味大数据平台从 IDC 自建 Hadoop 到阿里云数据湖架构的迁移方案和落地过程。重点从 IDC 自建集群的痛点分析,云上大数据方案的选型以及核心模块的建设过程几个方面做了详细的介绍,希望给想了解和实践数据湖架构的企业和朋友一个参考。

4270 2
|
存储 SQL 弹性计算
|

数据湖构建与计算

2021云栖大会云原生企业级数据湖专场,阿里云智能高级产品专家李冰为我们带来《数据湖构建与计算》的分享。本文主要从数据的入湖和管理、引擎的选择展开介绍了数据湖方案降本增效的特性。

976 0
|
存储 人工智能 运维
|

云湖共生-释放企业数据价值

摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能资深技术专家、对象存储 OSS 负责人罗庆超为我们带来《云湖共生-释放企业数据价值》的分享。本文主要从数据湖存储演进之路、数据湖存储3.0 进化亮点等方面分享了云湖共生带来的企业价值。

457 0
|
存储 人工智能 运维
|

贾扬清:云原生让数据湖加速迈入3.0时代

摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级研究员贾扬清为我们带来《云原生让数据湖加速迈入3.0时代》的分享。

2753 1
|
SQL 弹性计算 运维
|

【月刊】E-MapReduce 2021-09 产品月刊

9月 E-MapReduce 产品月刊为您带来 1.相关活动:E-MapReduce 海量日志分析 实操体验 ;2.产品功能更新:G-SCD的具体解决方案及如何通过G-SCD处理维度的数据介绍;3.最佳实践:SparkSQL自适应执行 4.新增视频专区 。欢迎持续关注更多精彩内容!

352 0
|
机器学习/深度学习 弹性计算 人工智能
|

【月刊】E-MapReduce 2021-08 产品月刊

8月 E-MapReduce 产品月刊为您带来 1.相关活动:大数据开发平台用户调研问卷 ;2.产品功能更新:EMR ClickHouse 独立集群公测发布 ;3.最佳实践 E-MapReduce 本地盘实例大规模数据集测试 。欢迎持续关注更多精彩内容!

486 0
|
存储 SQL 运维
|

阿里云 E-MapReduce ClickHouse 操作指南 05 期 — 常见问题

阿里云 E-MapReduce(简称 EMR )是运行在阿里云平台上的一种大数据处理的系统解决方案。ClickHouse 作为开源的列式存储数据库,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。而阿里云 EMR ClickHouse 则提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。

729 0
|
消息中间件 分布式计算 关系型数据库
|

阿里云 E-MapReduce ClickHouse 操作指南 04 期 — 数据导入

阿里云 E-MapReduce(简称 EMR )是运行在阿里云平台上的一种大数据处理的系统解决方案。ClickHouse 作为开源的列式存储数据库,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。而阿里云 EMR ClickHouse 则提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。

672 0
|
存储 SQL XML
|

阿里云 E-MapReduce ClickHouse 操作指南 03 期 — ClickHouse 运维

阿里云 E-MapReduce(简称 EMR )是运行在阿里云平台上的一种大数据处理的系统解决方案。ClickHouse 作为开源的列式存储数据库,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。而阿里云 EMR ClickHouse 则提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。

967 0
|
存储 分布式计算 网络协议
|

阿里云 E-MapReduce ClickHouse 操作指南 02期 — 快速入门

阿里云 E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理的系统解决方案。ClickHouse 作为开源的列式存储数据库,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。而阿里云 EMR ClickHouse 则提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。

794 0
|
存储 SQL 运维
|

阿里云 E-MapReduce ClickHouse 操作指南 01期 — ClickHouse 概述

阿里云 E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理的系统解决方案。ClickHouse 作为开源的列式存储数据库,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。而阿里云 EMR ClickHouse 则提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。

683 0

2021大数据开发平台用户调研问卷,填写问卷有机会领取EMR定制礼品!

为了给您提供更加优质的大数据开发平台服务,同时帮助我们更好地优化和提升大数据开发平台,现进行阿里云 EMR 大数据开发平台有奖调研。参与调研,就有机会领取阿里云 EMR 定制礼品,EMR 定制背包、太阳伞、定制T恤~~我们期待您最真实的反馈!感谢您对阿里云 EMR 产品的大力支持!!

431 0
|
存储 SQL 分布式计算
|

EMR on ACK 全新发布,助力企业高效构建大数据平台

阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势,用户只需要专注在大数据作业本身。用户可以便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100%兼容开源,性能优于开源。

736 0
|
存储 JSON 分布式计算
|

如何快速搭建云原生企业级数据湖架构及实践分享

众所周知,数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。如何快搭建数据湖架构被越来越多的企业探讨。本文主要分享快速搭建云原生企业级数据湖架构及实践分享。

843 0
|
SQL 存储 机器学习/深度学习
|

基于英特尔® 优化分析包(OAP)的 Spark 性能优化方案

Spark SQL 作为 Spark 用来处理结构化数据的一个基本模块,已经成为多数企业构建大数据应用的重要选择。但是,在大规模连接(Join)、聚合(Aggregate)等工作负载下,Spark 性能会面临稳定性和性能方面的挑战。

1266 0
|
机器学习/深度学习 分布式计算 Cloud Native
|

26万奖金 | 第一届 E-MapReduce 极客挑战赛 诚邀英才前来挑战!

日前,“ 第一届 E-MapReduce 极客挑战赛 ”在阿里云天池官网正式开赛。据悉,本次大赛由阿里云、英特尔联合举办,聚焦 SparkSQL 执行效率,探索 TPC-DS 测试集最优性能,助力海量数据轻松上云,全程将有资深技术专家提供技术指导。

635 0
|
SQL 弹性计算 人工智能
|

【月刊】E-MapReduce 2021-06/07 产品月刊

6-7月 E-MapReduce 上线EMR-3.36.x版本、EMR-5.2.x版本,同步对SmartData 3.6.x版本进行更新;最佳实践案例发表《云原生数据湖构建、分析与开发治理最佳实践及案例分享》、《StarLake:汇量科技云原生数据湖的探索和实践》、《DLF +DDI 一站式数据湖构建与分析最佳实践》;首届 E-MapReduce 极客挑战赛正式启动。欢迎持续关注更多精彩内容!

585 0
|
存储 分布式计算 资源调度
|

赛题解析 | E-MapReduce 极客挑战赛

首届 E-MapReduce 极客挑战赛已开启,奖金高达26万,欢迎大家踊跃报名!本文主要讲解自测工具的使用以及代码的提交和评测,帮助选手更高效的解题。

907 0
|
SQL 分布式计算 搜索推荐
|

《 Delta Lake 数据湖专题系列5讲》文章回顾

《Delta Lake 数据湖专题系列5讲》由阿里云 DDI 团队翻译整理自大数据技术公司 Databricks 针对数据湖 Delta Lake 系列技术文章。阅读完此系列文章可以帮助您达到入门级,对数据湖 Lakehouse 有整体上的认识和应用,掌握理论知识体系。

1213 0

E-MapReduce 数据湖 Meetup 8.7上海站延期

由于疫情防控的原因,原定 8 月 7 日的 E-MapReduce 数据湖 Meetup 延期。

335 0
|
存储 消息中间件 分布式计算
|

DLF +DDI 一站式数据湖构建与分析最佳实践

本文由阿里云数据湖构建 DLF 团队和 Databricks 数据洞察团队联合撰写,旨在帮助您更深入地了解阿里云数据湖构建(DLF)+Databricks 数据洞察(DDI)构建一站式云上数据入湖。

2028 0
|
SQL 存储 分布式计算
|

数据湖实操讲解【 JindoTable 计算加速】第二十二讲:对 Hive 数仓表进行高效小文件合并

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

1167 0
|
SQL 存储 缓存
|

数据湖实操讲解【 JindoTable 计算加速】第二十一讲:分层更高效,对 Hive 数仓进行热度/冷度统计

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

453 0
|
存储 SQL Cloud Native
|

高能预警! E-MapReduce 数据湖 Meetup · 上海站重磅来袭

8月7日,阿里云 E-MapReduce 数据湖首场 Meetup 重磅上线。来自 Intel、Cloudera、阿里巴巴的七位技术专家齐聚上海,为你带来超多数据湖干货和行业新动态~

528 0
|
分布式计算 Cloud Native 大数据
|

首届!E-MapReduce 极客挑战赛强势来袭,重磅奖项等你拿,快来组队报名啦

首届 E-MapReduce 极客挑战赛发布,聚焦.SparkSQL执行效率。结合阿里云 EMR和英特尔® 傲腾™ 数据中心级持久内存(以及Intel OAP软件包),优化软件系统和利用硬件的特征,追求TPC-DS测试集的最优性能。帮助参赛队伍实现Spark 代码优化和参数调优,完成性能的优化挑战。

481 0
|
机器学习/深度学习 存储 人工智能
|

Flink on Zeppelin 流计算处理最佳实践

欢迎钉钉扫描文章底部二维码进入 EMR Studio 用户交流群 直接和讲师交流讨论~ 点击以下链接直接观看直播回放:https://developer.aliyun.com/live/247106

833 0
|
SQL 存储 缓存
|

数据湖实操讲解【 JindoTable 计算加速】第二十讲:Spark 对 OSS 上的 ORC 数据进行查询加速

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

656 0
|
存储 SQL 分布式计算
|

数据湖实操讲解【 JindoTable 计算加速】第十九讲:Spark 对 OSS 上的 Parquet 数据进行查询加速

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

618 0
|
SQL 机器学习/深度学习 存储
|

Spark 大数据处理最佳实践

欢迎钉钉扫描文章底部二维码进入 EMR Studio 用户交流群 直接和讲师讨论交流~ 点击该链接直接观看直播回放:https://developer.aliyun.com/live/247072

3306 0
|
机器学习/深度学习 存储 缓存
|

数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

743 0
|
存储 机器学习/深度学习 人工智能
|

数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

816 0
|
机器学习/深度学习 存储 分布式计算
|

【详谈 Delta Lake 】系列技术专题 之 客户用例( Customer Use Case)

本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。本系列技术文章,将详细展开介绍 Delta Lake。

679 0
|
存储 缓存 人工智能
|

数据湖实操讲解【AI 训练加速】第十六讲:Fluid + JindoFS 对 OSS 上数据进行训练加速

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

1147 0
|
存储 机器学习/深度学习 JSON
|

【详谈 Delta Lake 】系列技术专题 之 Streaming(流式计算)

本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。本系列技术文章,将详细展开介绍 Delta Lake。

1524 0
|
SQL 缓存 分布式计算
|

数据湖实操讲解【JindoFS 缓存加速】第十五讲:云上计算云下数据:HDFS 缓存加速

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

5413 0
|
存储 缓存 分布式计算
|

数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

5210 0
|
存储 机器学习/深度学习 SQL
|

【详谈 Delta Lake 】系列技术专题 之 湖仓一体( Lakehouse )

本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。本系列技术文章,将详细展开介绍 Delta Lake。

2293 0
|
SQL 存储 分布式计算
|

【详谈 Delta Lake 】系列技术专题 之 特性(Features)

本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。本系列技术文章,将详细展开介绍 Delta Lake。

1808 0
|
SQL 存储 缓存
|

数据湖实操讲解【JindoFS 缓存加速】第十三讲:Presto 访问 OSS 透明缓存加速

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

11360 0
|
存储 SQL 缓存
|

数据湖实操讲解【JindoFS 缓存加速】第十二讲:Spark 访问 OSS 透明缓存加速

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

1914 0
|
存储 SQL 分布式计算
|

数据湖实操讲解【OSS 访问加速】第十一讲:打开 OSS 多版本-合规和分析两不误

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

1998 0
|
SQL 存储 数据采集
|

【详谈 Delta Lake 】系列技术专题 之 基础和性能(Fundamentals and Performance)

本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。本系列技术文章,将详细展开介绍 Delta Lake。

2989 0
|
存储 SQL 分布式计算
|

数据湖实操讲解【OSS 访问加速】第十讲:Impala 如何高效查询 OSS 数据

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

3410 0
|
SQL 存储 Java
|

数据湖实操讲解【OSS 访问加速】第九讲:Presto 如何高效查询 OSS 数据

数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

2574 0
|
SQL 分布式计算 DataWorks
|

【月刊】E-MapReduce 2021-04/05 产品月刊

4-5月 E-MapReduce 上线EMR-3.35.x版本、EMR-4.9.x版本,同步对SmartData 3.5.x版本进行更新;客户实践案例发表《Databricks 数据洞察 Delta Lake 在基智科技(STEPONE)的应用实践》与《Databricks数据洞察在美的暖通与楼宇的应用实践》;【数据湖 JindoFS+OSS 实操干货36讲】 公开课重磅上线。欢迎持续关注更多精彩内容!

1571 0
|
存储 SQL 人工智能
|

StarLake:汇量科技云原生数据湖的探索和实践

快速了解汇量科技在云原生数据湖领域的探索和实践,详解 StarLake 的架构及业务应用案例。

1672 0
|
存储 缓存 分布式计算
|

阿里大数据云原生化实践,EMR Spark on ACK 产品介绍

欢迎钉钉扫描文章底部二维码进入 EMR钉钉交流群 直接和讲师讨论交流~ 点击该链接直接观看直播回放:https://developer.aliyun.com/live/246868

3051 0
|
存储 弹性计算 分布式计算
|

云原生数据湖构建、分析与开发治理最佳实践及案例分享

什么是数据湖?又如何对对数据湖进行分析与开发治理?本文深入浅出的介绍了云原生数据湖构建、分析与开发治理最佳实践及案例分享。

9883 0
我要发布