开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1629
内容
13
活动
5419
关注
|
存储 分布式计算 安全
|

基于OSS的EB级数据湖

数据湖无缝对接多种计算分析平台,对Hadoop生态支持良好,存储在数据湖中的数据可以直接对其进行数据分析、处理、查询,通过对数据深入挖掘与分析,洞察数据中蕴含的价值。

9812 0
|
大数据 视频直播
|

阿里巴巴数据湖技术对外公布

数据湖构建·Data Lake Formation是阿里巴巴数据湖团队带来的最新一站式入湖解决方案,助力企业无缝对接多种计算引擎,打破孤岛,洞察业务价值。本技术圈会持续发布最新产品动向和技术解读,更有不定期视频直播,与您一起完成企业大数据架构转型。敬请关注

5426 0
|
人工智能 大数据 BI
|

阿里云 EMR 产品内部培训课程首次免费对外公开!

EMR产品技术团队将在这四节课中,循序渐进的为大家介绍一个开源大数据平台的产品产生背景、使用场景、操作规则等,更多的是面对企业实际需求时,阿里云大数据团队的一些思考方式。

2459 0
|
存储 SQL 分布式计算
|

9月10日 Spark 社区直播【利用持久内存提速Spark】

主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。

3319 0
|
SQL 存储 缓存
|

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳。来自阿里云EMR团队的周克勇将详细介绍Native Codegen框架。

3985 0
|
SQL 存储 缓存
|

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化,使用索引和缓存来解决交互式查询性能挑战。

1836 0
|
存储 机器学习/深度学习 SQL
|

使用 E-MapReduce 构建云上数据湖

本篇来自于阿里巴巴E-MapReduce(简称为EMR)产品经理子关,分享云上使用E-MapReduce快速构建企业数据湖的落地方案以及客户最佳实践。

3388 0
|
分布式计算 大数据 Apache
|

文末有福利!Spark 实战训练营新增1000名额,8月24日正式开课

Spark 实战训练营新增1000名额,8月24日正式开课

2873 0
|
消息中间件 SQL 分布式计算
|

Apache Spark™ 3.0中全新的Structured Streaming UI

Spark 3.0中新的Structured Streaming UI会提供一些有用的信息和统计数据,以此来监视所有流作业,便于在开发调试过程中排除故障。同时,开发者还能够获得实时的监测数据,这能使生产流程更直观。

3632 0
|
机器学习/深度学习 分布式计算 DataWorks
|

9大训练营免费开营!阿里云大数据团队的独门绝学全在这了

阿里云智能高级研究员贾扬清出品,实时计算 Flink、Hologres、EMR、机器学习 PAI、MaxCompute、DataWorks、ElasticSearch 等多个技术/产品一线专家齐上阵,核心开发阵容在线直播教学。

3197 0
|
分布式计算 Spark Apache
|

限免首发 | Spark 企业级实战集锦,国内Spark开发者的进阶指南!

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。

15179 0
|
SQL 分布式计算 Spark
|

国内Spark开发者的免费入门宝典!首发作者阵容高手云集!

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。

43405 0
|
SQL 存储 分布式计算
|

Spark 3.0 对于 DATE 和 TIMESTAMP 的改进

本文将会深入介绍DATE和TIMESTAMP

7790 0
|
SQL 数据采集 分布式计算
|

深入研究Apache Spark 3.0的新功能

分享嘉宾 Apache Spark PMC李潇,就职于 Databricks,Spark 研发部主管,领导 Spark,Koalas,Databricks runtime,OEM 的研发团队,在直播中为大家深入讲解了Apache Spark 3.0的新功能。

3189 0
|
分布式计算 大数据 Apache
|

稳赚不赔~Spark社区招募志愿者!

可能是21世纪唯一不看颜值只看人品的招募

939 0
|
机器学习/深度学习 人工智能 分布式计算
|

使用Ray将可扩展的自动化机器学习(AutoML)用于时序预测

机器学习和深度学习在时序预测上有更好的表现,前提是生成好的模型。但训练出好的模型并不是那么容易的,尤其是那些新手,这也就说明了为什么AutoML越来越火。在Analytics Zoo当中用户可以使用AutoML,在很短的时间内得到满足准确度要求的模型.在2020 Spark+AI峰会直播中,由Intel高级架构师黄晟盛为您介绍时序应用典型场景,基于AutoML的时序解决方案,同时结合实际案例与大家分享与客户的合作经验和反馈。

1360 0
|
分布式计算 大数据 Spark
|

7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】

EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳,本次直播将详细介绍Native Codegen框架。

1410 0
|
机器学习/深度学习 人工智能 分布式计算
|

Analytics Zoo 入门 | Spark“数字人体”AI挑战赛赛题解析一

首届Spark“数字人体”AI挑战赛已开启,奖金高达46万,欢迎大家踊跃报名!本次直播将由英特尔高级软件工程师邱鑫为大家介绍如何使用Spark, Big DL及Analytics Zoo平台,分别从Analytics Zoo & BigDL简介、Analytics Zoo入门以及Analytics Zoo提供的End-to-End Pipelines和ML Workflow等方面详细展开讲解。

1407 0
|
SQL 消息中间件 分布式计算
|

领英如何应对Apache Spark的Scalability挑战

在集群计算引擎使用率快速增长的过程当中,会面对多维度的计算基础架构规模扩展性的挑战。同时由于Spark团队直接与Spark用户打交道,如何提升Spark用户生产力,避免“用户支持陷阱”,一直是较为头疼的问题。本次直播将由领英Spark团队软件工程师沈旻和林致远为您介绍,领英Spark 生态系统,构建多元化Spark 生态系统过程中遇到的挑战,如何提升Spark用户生成力以及如何优化Spark基础计算架构。

1050 0
|
机器学习/深度学习 人工智能 分布式计算
|

EMR-DataScience介绍 | Spark“数字人体”AI挑战赛赛题解析二

首届Spark“数字人体”AI挑战赛已开启,奖金高达46万,欢迎大家踊跃报名!本次直播将由阿里云人工智能产品专家李博为大家介绍,Data Science节点概述,Data Science节点深度学习框架,PAI-Alink流批一体化机器学习算法平台,AutoML,FaissServer以及PAI-EMS等Data Science原子化组件。

877 0
|
机器学习/深度学习 人工智能 分布式计算
|

使用RayOnSpark在大数据平台上运行新兴的人工智能应用

RayOnSpark 能够让Ray的分布式应用直接无缝地集成到Apache Spark的数据处理流水线中,省去集群间数据传输的overhead,支持用户使用Spark处理的数据做新兴人工智能应用的开发。本次直播将由Intel大数据团队软件工程师黄凯为您介绍Ray和Intel的开源项目Analytics Zoo,开发RayOnSpark的动机和初衷,同时结合实际案例分享RayOnSpark的落地实践。

1439 0
|
SQL 机器学习/深度学习 分布式计算
|

Apache Spark 3.0:十年回顾,展望未来

今年是Spark发布的第十年,回顾Spark如何一步步发展到今天,其发展过程所积累的经验,以及这些经验对Spark未来发展的启发,对Spark大有脾益。在7月4日的Spark+AI SUMMIT 2020中文精华版线上峰会上,Databricks Spark研发部主管李潇带来了《Apache Spark 3.0简介:回顾过去的十年,并展望未来》的全面解析,为大家介绍了Spark的起源、发展过程及最新进展,同时展望了Spark的未来。

8813 0
|
机器学习/深度学习 人工智能 分布式计算
|

Databricks数据洞察 限时免费开启公测!

企业级批流一体的Spark大数据分析平台,无论是数据分析师、数据开发工程师还是数据科学家,均可以通过Databricks数据洞察(DDI)分析平台,实现协同合作和数据共享,满足在大数据下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。

682 0
|
分布式计算 Java 大数据
|

自适应查询执行AQE:在运行时加速SparkSQL

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践,技术上取得了哪些突破,以及周边的生态发展。本文是阿里巴巴云智能平台事业部王道远关于Spark3.0中自适应查询执行(AQE)的相关介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

3270 1
|
存储 分布式计算 资源调度
|

在kubernetes上运行apache spark:最佳实践和陷阱

阿里云高级技术专家范振为大家带来在kubernetes上运行apache spark的介绍。内容包括Data Mechanic平台介绍,Spark on k8s,以及EMR团队云原生的思考和实践。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

4499 0
|
SQL JSON 分布式计算
|

数据工程师眼中的 Delta lake(Delta by example)

SPARK+AI SUMMIT 2020中文精华版线上峰会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践,技术上取得了哪些突破,以及周边的生态发展。本文中Databricks开源组技术主管范文臣从数据工程师的角度出发向大家介绍Delta Lake。以下是视频内容精华整理。

2270 0
|
存储 JSON 分布式计算
|

使用Databricks作为分析平台

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践,技术上取得了哪些突破,以及周边的生态发展。本文是阿里巴巴高级技术专家章剑锋做的相关分享,介绍了YipitData公司基于Databricks平台搭建的分析平台。

2522 0
|
Prometheus 分布式计算 监控
|

Apache Spark 3.0对Prometheus监控的原生支持

阿里云EMR技术专家周康为大家带来Apache Spark 3.0对Prometheus监控的原生支持的介绍。内容包括spark 3.0以前是怎么用Prometheus进行监控的,以及spark 3.0是如何实现对Prometheus更好的本地化的支持。

3529 0
|
存储 缓存 分布式计算
|

利用闪存优化在Cosco基础上的Spark Shuffle

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践,技术上取得了哪些突破,以及周边的生态发展。本文中,来自Databricks开源项目组的软件工程师吴一介绍了利用Flash闪存优化在Cosco基础上的Spark Shuffle。原标题:Flash for Spark Shuffle with Cosco

1077 0
|
弹性计算 分布式计算 流计算
|

Structured Streaming生产化实践及调优

Databricks软件工程师李元健为大家带来structured streaming生产化实践及调优的介绍。内容包括输入参数,状态参数,输出参数的调优,以及部署。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

1698 0
|
SQL 分布式计算 Java
|

Apache Spark 3.0中的SQL性能改进概览

阿里巴巴高级技术专家李呈祥为大家带来Apache Spark 3.0中的SQL性能改进概览的介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

3723 0
|
SQL 分布式计算 Java
|

Apache Spark 3.0 中的向量化 IO

在 Apache Spark 3.0 中,SparkR 中引入了一种新的向量化(vectorized)实现,它利用 Apache Arrow 直接在 JVM 和 R 之间交换数据,且(反)序列化成本非常小

2409 58
|
机器学习/深度学习 人工智能 分布式计算
|

7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】

TFPark是开源AI平台Analytics Zoo中一个模块,它的可以很方便让用户在Spark集群中分布式地进行TensorFlow模型的训练和推断。一方面,TFPark利用Spark将TensorFlow 定义的AI训练或推理任务无缝的嵌入到用户的大数据流水线中,而无需对现有集群做任何修改;另一方面TFPark屏蔽了复杂的分布式系统逻辑,可以将单机开发的AI应用轻松扩展到几十甚至上百节点上。本次分享将介绍TFPark的使用,内部实现以及在生产环境中的实际案例。

779 57
|
SQL 人工智能 分布式计算
|

大神带练, 0基础Spark训练营限时免费抢报!

Spark5天训练营由Spark 中文社区联合阿里云开发者社区联合打造,持续定期更新。第一期训练营邀请到了全 Apache Spark contributer 阵容,经过半个月对课程的精心打磨今天正式上线!限时免费抢报

1595 57
|
SQL 分布式计算 大数据
|

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

本文介绍都有哪些情况会产生笛卡尔积,以及如何事前"预测"写的SQL会产生笛卡尔积从而避免

5017 57
|
存储 SQL 分布式计算
|

再出王牌:阿里云 Jindo DistCp 全面开放使用,成为阿里云数据迁移利器

此前 Jindo DistCp 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS/HDFS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。

3065 0
|
机器学习/深度学习 人工智能 分布式计算
|

大神带练, 0基础Spark训练营限时免费抢报!

大神带练, 0基础Spark训练营限时免费抢报!

1583 0
|
SQL 存储 分布式计算
|

重磅:阿里云 JindoFS SDK 全面开放使用,OSS 文件各项操作性能得到大幅提升

本文主要介绍如何使用JindoFS SDK来访问OSS对象存储,以及使用它来提升我们操作OSS文件的性能。值得一提的是,此前JindoFS SDK 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。

6949 0
|
机器学习/深度学习 SQL 分布式计算
|

7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】

为什么要优化spark时间窗口 - 未加速前面临问题 - 为什么要使用llvm加速而不是继续优化jvm codegen - 实现介绍-llvm 版本sql引擎设计 - 如何与spark集成 - benchmark数据 vs spark3.0

948 0
|
SQL 人工智能 分布式计算
|

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束(附PPT下载)

超乎你想象的干货合集打包带走!

22766 0
|
人工智能 分布式计算 Spark
|

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

978 0
|
SQL 消息中间件 存储
|

Delta Lake 如何帮助云用户解决数据实时入库问题

Delta Lake 自发布以来得到了业界广泛的关注,其提供的 ACID 支持、历史版本回溯、UPDATE/DELETE/MERGE INTO 语法支持等功能完美契合了用户对数据湖内容管理的需求;其 Multi-Hop 架构 的流批一体设计极大简化了用户运维数据管道的成本,使得传统的 ETL 流程进化为更灵活的 ELT+ 流程。 在本次演讲中,我们将分享 EMR 是如何利用 Delta Lake 帮助用户解决数据实时入库的问题,以及在这个过程中我们对 Delta Lake 做了哪些有益的提升和探索。

3519 0
|
存储 分布式计算 Cloud Native
|

JindoFS - 分层存储

JindoFS 存储内部我们是通过分层存储来降低这部分冷数据的存储成本,提高热数据的访问性能。

3961 0
|
机器学习/深度学习 人工智能 分布式计算
|

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

1729 0
|
机器学习/深度学习 SQL Web App开发
|

SPARK中文峰会上海会场预告篇|Ray On Spark

SPARK + AI SUMMIT 2020 中文精华版线上峰会,上海会场的讲师议题介绍来咯~

1493 0
|
分布式计算 Hadoop 大数据
|

7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。

889 0
|
分布式计算 Prometheus Kubernetes
|

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

2384 0
|
SQL 人工智能 缓存
|

Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光

在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。

2755 0
|
机器学习/深度学习 SQL 分布式计算
|

6月23日 Spark 社区技术直播【半小时,将你的Spark SQL模型变为在线服务】

SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大 我们是如何解决这些问题 相对传统实现方式我们优势 SparkSQL实时上线demo

767 0
我要发布