开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1625
内容
13
活动
5400
关注
|
SQL 存储 人工智能
|

Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问

本文介绍了Databricks企业版Delta Lake的性能优势,借助这些特性能够大幅提升Spark SQL的查询性能,加快Delta表的查询速度。

367 0
|
SQL 存储 分布式计算
|

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面,介绍Delta Lake的演进和优势。

920 0
|
SQL 分布式计算 资源调度
|

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。

558 0
|
消息中间件 机器学习/深度学习 存储
|

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse,并介绍了如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建您的机器学习模型。

276 0
|
存储 SQL 人工智能
|

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

Delta Lake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上,并且与Apache Spark API完全兼容。希望本篇能让大家更深入了解Delta Lake,最终可以实践到工作当中。

498 0
|
存储 SQL 缓存
|

Delta Lake基础介绍(商业版)【Databricks 数据洞察公开课】

介绍 Lakehouse 搜索引擎的设计思想,探讨其如何使用缓存,辅助数据结构,存储格式,动态文件剪枝,以及 vectorized execution 达到优越的处理性能。

395 0
|
SQL 存储 分布式计算
|

数据湖揭秘—Delta Lake

Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。

4119 7
|
数据挖掘 OLAP BI
|

技术揭秘 | 阿里云EMR StarRocks 线上发布会预约开启!

2022年5月11日14:00,阿里云EMR StarRocks 产品线上发布会重磅开启,精彩不容错过!

1766 1
|
SQL 分布式计算 资源调度
|

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。

694 0
|
SQL 分布式计算 负载均衡
|

阿里云RemoteShuffleService 新功能:AQE 和流控

阿里云EMR 自2020年推出 Remote Shuffle Service(RSS)以来,帮助了诸多客户解决 Spark 作业的性能、稳定性问题,并使得存算分离架构得以实施。为了更方便大家使用和扩展,RSS 在2022年初开源(https://github.com/alibaba/RemoteShuffleService),欢迎各路开发者共建: )

1313 0
|
Cloud Native 大数据 开发者
|

阿里云发布中国云原生数据湖应用洞察白皮书

近日,阿里云发布《中国云原生数据湖应用洞察白皮书》。云原生数据湖主要应用于泛互联网行业(40.7%)及传统行业的互联网场景(泛政务、金融、工业、医疗、汽车等),未来将向更多具有大数据和高价值属性的行业拓展。

475 0
|
消息中间件 机器学习/深度学习 存储
|

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse,并介绍了如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建您的机器学习模型。

547 0
|
存储 SQL 人工智能
|

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

Delta Lake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上,并且与Apache Spark API完全兼容。希望本篇能让大家更深入了解Delta Lake,最终可以实践到工作当中。

956 0
|
存储 SQL 缓存
|

Delta Lake基础介绍(商业版)【Databricks 数据洞察公开课】

介绍 Lakehouse 搜索引擎的设计思想,探讨其如何使用缓存,辅助数据结构,存储格式,动态文件剪枝,以及 vectorized execution 达到优越的处理性能。

572 0
|
弹性计算 数据挖掘 网络安全
|

EMR StarRocks 测试指南

日前,阿里云 E-MapReduce 与 StarRocks 社区合作,推出了首款 StarRocks 云上产品。同时,面向新老用户提供了99元指定机型(ecs.c6.xlarge)首月试用的优惠活动,欢迎感兴趣的用户前来测试。

2459 0
|
消息中间件 SQL 搜索推荐
|

基于Confluent+Flink的实时数据分析最佳实践

在实际业务使用中,需要经常实时做一些数据分析,包括实时PV和UV展示,实时销售数据,实时店铺UV以及实时推荐系统等,基于此类需求,Confluent+实时计算Flink版是一个高效的方案。

889 0
|
存储 SQL JSON
|

Delta Lake基础介绍(开源版)【Databricks 数据洞察公开课】

针对社区版本Delta Lake提供的几大核心特性进行讲解,并通过示例演示如何使用这些特性。

1926 0
|
SQL 存储 数据挖掘
|

EMR StarRocks 极速数据湖分析原理解析

数据湖概念日益火热,本文由阿里云开源大数据 OLAP 团队和 StarRocks 数据湖分析团队共同为大家介绍“ StarRocks 极速数据湖分析 ”背后的原理。 【首月99元】EMR StarRocks 数据湖极速分析体验,试用火热进行中,快来申请吧 -> https://survey.aliyun.com/apps/zhiliao/Yns9d9Xxz

1847 1
|
存储 SQL 搜索推荐
|

【首月99元】EMR StarRocks 数据湖极速分析体验,试用活动火热进行中

日前,阿里云与 StarRocks 社区合作,推出了首款 StarRocks 云上产品。此外,面向新老用户还提供了99元指定机型(ecs.c6.xlarge)首月试用的优惠活动。

809 0
|
SQL 存储 人工智能
|

Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问

本文介绍了Databricks企业版Delta Lake的性能优势,借助这些特性能够大幅提升Spark SQL的查询性能,加快Delta表的查询速度。

780 2
|
存储 数据采集 机器学习/深度学习
|

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

2510 1
|
SQL 存储 分布式计算
|

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面,介绍Delta Lake的演进和优势。

1126 4
|
数据挖掘
|

初识阿里云E-MapReduce ClickHouse,到底有哪些优势?

本文将从核心能力、主要优势,及典型应用场景为大家继续介绍EMR~

988 0
|
分布式计算 Hadoop 大数据
|

自建Hadoop集群 VS 阿里云EMR,差距居然这么大?

本期将为大家带来开源大数据平台E-MapReduce与自建Hadoop集群对比,一起来看看吧~

1083 0
|
大数据
|

阿里云EMR到底是什么?一图带你深入了解!

阿里云开源大数据平台E-MapReduce是运行在阿里云平台上的一种大数据处理的系统解决方案,那么它到底有着怎样的功能及优势呢?一起来看看吧!

3492 0
|
存储 SQL 缓存
|

阿里云EMR Remote Shuffle Service在小米的实践,以及开源

阿里云EMR自2020年推出Remote Shuffle Service(RSS)以来,帮助了诸多客户解决Spark作业的性能、稳定性问题,并使得存算分离架构得以实施,与此同时RSS也在跟合作方小米的共建下不断演进。本文将介绍RSS的最新架构,在小米的实践,以及开源。

3467 0
|
SQL 分布式计算 大数据
|

作业帮基于 DeltaLake 的数据湖建设最佳实践

作业帮是一家以科技为载体的在线教育公司,其大数据中台作为基础系统中台,主要负责建设公司级数仓,向各个产品线提供面向业务主题的数据信息。本文主要分享了作业帮基于 DeltaLake 的数据湖建设最佳实践。

2798 2
|
SQL 弹性计算 分布式计算
|

【有奖调研】E-MapReduce 易用性有奖调研

为深刻理解您的需求,提升 EMR 产品与服务能力。阿里云 EMR 团队诚邀您参加 EMR 易用性调研。我们会认真评估您提出的每一条建议,并从中筛选出优质回复回赠精美礼品。

244 0
|
存储 SQL 分布式计算
|

Lakehouse 架构解析与云上实践

本文整理自 DataFunCon 2021大会上,阿里云数据湖构建云产品研发陈鑫伟的分享,主要介绍了 Lakehouse 的架构解析与云上实践。

2391 1
|
SQL 网络协议 前端开发
|

达梦DM8 MPPDB集群搭建及使用

作者:陈云亮,系深圳某数据治理厂商,有10余年IT从业经验,在数据仓库,传统数据库和大数据领域有丰富的实战经验。 基于三节点搭建DM8 MPPDB集群方案具体步骤,可操作性强。

780 0
|
存储 网络协议 Cloud Native
|

ClickHouse Keeper 源码解析

ClickHouse 社区在21.8版本中引入了 ClickHouse Keeper。ClickHouse Keeper 是完全兼容 Zookeeper 协议的分布式协调服务。本文对开源版本 ClickHouse v21.8.10.19-lts 源码进行了解析。

2214 1
|
SQL 弹性计算 分布式计算
|

【月刊】E-MapReduce 2021-11 产品月刊

11月 E-MapReduce 产品月刊为您带来 1.重要功能 2.版本发布 3.产品文档更新 4.十一月精选文章推荐。欢迎持续关注更多精彩内容!

452 0
|
SQL 弹性计算 分布式计算
|

【月刊】E-MapReduce 2021-11 产品月刊

11月 E-MapReduce 产品月刊为您带来 1.重要功能 2.版本发布 3.产品文档更新 4.十一月精选文章推荐 。欢迎持续关注更多精彩内容!

265 0
|
存储 监控 OLAP
|

【ClickHouse 技术系列】- ClickHouse 中的嵌套数据结构

本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB级的数据规模,简单的架构,被国内外公司广泛采用。本系列技术文章,将详细展开介绍 ClickHouse。

1526 0
|
存储 SQL 分布式计算
|

【ClickHouse 技术系列】- ClickHouse 聚合函数和聚合状态

本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB级的数据规模,简单的架构,被国内外公司广泛采用。本系列技术文章,将详细展开介绍 ClickHouse。

1756 0
|
存储 监控 OLAP
|

【ClickHouse 技术系列】- 在 ClickHouse 物化视图中使用 Join

本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB级的数据规模,简单的架构,被国内外公司广泛采用。本系列技术文章,将详细展开介绍 ClickHouse。

2894 0
|
存储 监控 Java
|

【ClickHouse 技术系列】- 使用新的 TTL move,将数据存储在合适的地方

本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB级的数据规模,简单的架构,被国内外公司广泛采用。本系列技术文章,将详细展开介绍 ClickHouse。

2885 0
|
存储 机器学习/深度学习 监控
|

【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新

本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB级的数据规模,简单的架构,被国内外公司广泛采用。本系列技术文章,将详细展开介绍 ClickHouse。

2664 0
|
存储 负载均衡 监控
|

基于 EMR OLAP 的开源实时数仓解决方案之 ClickHouse 事务实现

阿里云 EMR OLAP 与 Flink 团队深度合作,支持了 Flink 到 ClickHouse 的 Exactly-Once写入来保证整个实时数仓数据的准确性。本文介绍了基于 EMR OLAP 的开源实时数仓解决方案。

1571 0
|
存储 SQL 运维
|

如何构建云原生的开源大数据平台 | 产品新功能速递

云原生开源大数据的新产品和新功能「速递」:企业数据云 Cloudera CDP 正式商业化,0元免费测试火热申请中;Elasticsearch、实时计算Flink版、EMR、DLF重磅功能升级。更多优惠等您领取。

770 0
|
存储 运维 分布式计算
|

企业级数据湖最佳实践

2021云栖大会云原生企业级数据湖专场,阿里云智能高级解决方案架构师周皓为我们带来《企业级数据湖最佳实践》的分享。

1260 0
|
SQL 人工智能 弹性计算
|

【月刊】E-MapReduce 2021-10 产品月刊

10月 E-MapReduce 产品月刊为您带来 1.相关活动:云栖大会、开源主题直播回顾 2.版本发布 3.产品文档更新 4.十月精选文章推荐 。欢迎持续关注更多精彩内容!

315 0
|
存储 运维 监控
|

如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践

随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。

1627 0
|
存储 消息中间件 SQL
|

如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践

随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。

780 0
|
存储 消息中间件 分布式计算
|

如何构建云原生的开源大数据平台 | 云原生开源大数据应用实战

随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。

1094 0
|
存储 SQL 分布式计算
|

百草味基于“ EMR+Databricks+DLF ”构建云上数据湖的最佳实践

本文介绍了百草味大数据平台从 IDC 自建 Hadoop 到阿里云数据湖架构的迁移方案和落地过程。重点从 IDC 自建集群的痛点分析,云上大数据方案的选型以及核心模块的建设过程几个方面做了详细的介绍,希望给想了解和实践数据湖架构的企业和朋友一个参考。

4075 2
|
存储 SQL 弹性计算
|

数据湖构建与计算

2021云栖大会云原生企业级数据湖专场,阿里云智能高级产品专家李冰为我们带来《数据湖构建与计算》的分享。本文主要从数据的入湖和管理、引擎的选择展开介绍了数据湖方案降本增效的特性。

870 0
|
存储 人工智能 运维
|

云湖共生-释放企业数据价值

摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能资深技术专家、对象存储 OSS 负责人罗庆超为我们带来《云湖共生-释放企业数据价值》的分享。本文主要从数据湖存储演进之路、数据湖存储3.0 进化亮点等方面分享了云湖共生带来的企业价值。

405 0
|
存储 人工智能 运维
|

贾扬清:云原生让数据湖加速迈入3.0时代

摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级研究员贾扬清为我们带来《云原生让数据湖加速迈入3.0时代》的分享。

2693 1
|
SQL 弹性计算 运维
|

【月刊】E-MapReduce 2021-09 产品月刊

9月 E-MapReduce 产品月刊为您带来 1.相关活动:E-MapReduce 海量日志分析 实操体验 ;2.产品功能更新:G-SCD的具体解决方案及如何通过G-SCD处理维度的数据介绍;3.最佳实践:SparkSQL自适应执行 4.新增视频专区 。欢迎持续关注更多精彩内容!

311 0
我要发布