开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1629
内容
13
活动
5419
关注
|
分布式计算 Apache Spark
|

Apache Spark 3.0 是什么?

408 1
|
存储 SQL 缓存
|

大数据和AI | 基于Spark的高性能向量化查询引擎

由阿里云策划并成功举办的BigData和AI 见面会2020第二季在上海落下帷幕。在此次见面会上,几位业界大咖分别分享了有关大数据和AI的见解、洞察和领先技术等内容。本篇内容是由开源界知名的Databricks公司的技术主管范文臣分享的关于《基于Spark的高性能向量化查询引擎》。

2431 0
|
存储 分布式计算 资源调度
|

降本增效利器!趣头条Spark Remote Shuffle Service最佳实践

趣头条是一家依赖大数据的科技公司,在2018-2019年经历了业务的高速发展,主App和其他创新App的日活增加了10倍以上,相应的大数据系统也从最初的100台机器增加到了千台规模。面对业务和数据的日益增长,如何优化大数据平台,真正实现降本增效,技术人也面临着非常大的挑战,近半年趣头条和阿里云一起合作,通过Spark Remote Shuffle Service取得了较大的进展,在这里大家可以更加详细地了解这套方案。

11841 2
|
SQL 机器学习/深度学习 人工智能
|

2020收官行—BIGDATA + AI Meetup 2020第三站·北京站开启报名!

始于开源,精于实践,作为2020年收官之战,本次 Meetup 又将让大数据和 AI 擦出怎样的技术花火?开源届冉冉升起的新星和风光无限的老将们将会用哪些精彩案例作为年度收尾?来自阿里云、滴滴出行、微博、Databricks、汇量科技、 Zilliz 等知名企业的技术大咖将以实践案例深度解读大数据+AI的现在与未来。落地到出行、应用于医疗、服务在社交媒体,我们从声音、影像、图片、数字···交织的信息巨网中撕出一道道出口,透出属于大数据人的科技之光。

3516 0

第四节课:EMR 开通与演示

本节主要介绍开通EMR的环境准备、账号准备、付费情况、实操演示讲师:魏巍,花名念民,阿里巴巴 EMR 产品经理

903 0

第三节课:EMR 的存储解决方案

本节主要介绍EMR针对云上大数据的存储解决方案,如何为计算提供灵活高效的存储基础讲师:姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作

996 0

第二节课:EMR 产品入门

本节主要内容有 EMR 核心组件简介和使用、常用引擎使用示例、数据开发等讲师:孙大鹏,花名诚历,阿里巴巴 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

888 0

第一节课:走进开源大数据平台 EMR

本节主要介绍EMR产品历史、选择理由、产品形态介绍开营介绍:夏俊鸾,花名亦龙,阿里云智能资深技术专家讲师:王晓平,花名子关,阿里巴巴 EMR 产品专家

1153 0
|
存储 缓存 人工智能
|

数据湖存储架构选型

阿里巴巴计算平台事业部郑锴为大家带来数据湖存储架构选型的介绍

3858 0

《数据湖存储架构选型》

数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。传统的大数据平台如何基于数据湖架构进行平台升级,享受新一轮的技术发展红利?郑老师着重跟大家分享了数据湖架构和应用在存储上面临的主要挑战,以及方案选型和最佳实践。嘉宾简介:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平台和数据湖解决方案产品。

967 0
|
存储 消息中间件 分布式计算
|

DeltaLake在工业大脑的实践分享

随着2020年云栖大工业大脑3.0的发布,工业大脑已经经历了多年的发展。本文将为大家分享,在工业数据中台建设中使用DeltaLake的优秀实践,主要包括: (1) 异地异构流消息的处理 (2) 流批融合的数据分析 (3) 对事务的处理和对算法的支持

4165 0
|
Android开发
|

Android studio

1098 0
|
消息中间件 存储 人工智能
|

精彩回顾 | 大数据+AI Meetup 2020 第二季 ·上海站(附PPT下载)

开源届前浪后浪全员凶猛,合体也成为主流。此次 Meetup 分享了 Flink 和 Iceberg,Flink 和 Hologres,Flink 和 Pulsar 的深度融合探索实践、Spark 高性能向量化查询引擎解析、热度冲天的数据湖存储架构选型、bilibili 和滴滴的 kafka 平台优化方案;还 有Elasticsearch、开源流式存储系统 Pravega 的企业级实践。

4730 0
|
存储 机器学习/深度学习 分布式计算
|

10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】

介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。

4403 0

Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析

Spark Shuffle RPMem扩展提供了一个基于PMem 和RDMA 来加速Shuffle的方案,它采用PMem 作为Shuffle的存储介质,利用PMDK 用户态编程库进行数据读写,减小用户态、内核态切换与文件系统开销;用基于RDMA网络协议异构的传输层实现高性能数据传输;还将RDMA直接注册在PMem上,减少内存拷贝。本次直播介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。讲师介绍:张建,英特尔亚太研发有限公司大数据部门的软件工程经理,专注于大数据和机器学习中存储方案优化

2173 58
|
消息中间件 存储 人工智能
|

下半年你关心的行业热点都在这里,BIGDATA+AI Meetup 2020第二站·上海站开启报名!

本次活动汇集2020年下半年开发者最关心的开源主题,搜罗了数据湖、数仓架构、实时计算等热门议题,9位行业资深专家,硬核输出,用实践说话。

5214 0
|
机器学习/深度学习 分布式计算 DataWorks
|

大数据上手实战!Spark 实战训练营第三季开启

首期大数据“9营齐开”计划吸引了10000+开发者报名参与,成为今夏最火爆的大数据训练营!伴随着第一季训练营的完美落幕,大数据训练营“九营齐开”第二季,暨Spark 实战训练营第三季开启!蓄势待发!

6978 0
|
机器学习/深度学习 分布式计算 并行计算
|

10月15日社区直播【Intel MLlib:构建平台优化的Spark机器学习】

Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时,在底层利用原生算法库来实现在CPU和GPU上的最优化算法,同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明,该软件包在最小化应用改动的基础上,可以极大地提升MLlib算法的性能。

2967 0

Intel MLlib:构建平台优化的Spark机器学习

Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时,在底层利用原生算法库来实现在CPU和GPU上的最优化算法,同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明,该软件包在最小化应用改动的基础上,可以极大地提升MLlib算法的性能。讲师介绍吴晓昶英特尔亚太研发有限公司大数据部门的高级软件工程师,主要研究方向为并行计算,大数据系统和机器学习,CPU和GPU的性能优化。目前关注Spark和机器学习的系统性能优化。

1240 0
|
SQL 弹性计算 分布式计算
|

E-MapReduce客户端安装和卸载工具,实现Gateway功能

E-MapReduce客户端安装和卸载工具,主要用于集群外的ECS(已经存在)中需要使用hadoop,hive等客户端命令工具。 目前云平台提供的gateway只能重新创建ECS进行部署,而不支持在已经创建的Ecs中部署。

3230 0
我要发布