开源大数据平台 E-MapReduce-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1596
内容
12
活动
5377
关注
|
存储 SQL 分布式计算
|

Delta Lake,让你从复杂的Lambda架构中解放出来

Linux 基金会的 Delta Lake(Delta.io)是一个给数据湖提供可靠性的开源存储层软件。在 QCon 全球软件开发大会(上海站)2019 的演讲中,Databricks 公司的 Engineering Manager 李潇带我们了解了 Delta Lake 在实际生产中的应用与实践以及未来项目规划,本文便整理自此次演讲。

4122 0
|
数据采集 消息中间件 存储
|

【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

本文主要对Databricks如何使用Spark Streaming和Delta Lake对流式数据进行数据质量监控的方法和架构进行了介绍,本文探讨了一种数据管理架构,该架构可以在数据到达时,通过主动监控和分析来检测流式数据中损坏或不良的数据,并且不会造成瓶颈。

2136 0
|
SQL 分布式计算 Java
|

【译】Delta Lake 0.5.0介绍

本文主要对Delta Lake最新发布的0.5.0版本进行了介绍,介绍了如何使用Presto读取Delta表以及Delta Lake 0.5.0在并发性上的提升。

794 0
|
存储 数据采集 SQL
|

Delta Lake - 数据湖的数据可靠性

Delta Lake 是一个开源的存储层,为数据湖带来了可靠性。Delta Lake 提供了ACID事务、可伸缩的元数据处理以及统一的流和批数据处理。它运行在现有的数据湖之上,与 Apache Spark API完全兼容。

3537 1
|
SQL 存储 分布式计算
|

3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。

630 0

Hadoop Job committer 的演化和发展

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。讲师介绍李呈祥,花名司麟 ,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。

687 0
|
SQL 存储 分布式计算
|

3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。

1622 0
|
SQL 消息中间件 分布式计算
|

核桃编程Delta Lake实时数仓应用实践

本文简述了核桃编程应用EMR建设Delta Lake实时数仓的实践。

2541 0
|
SQL 存储 分布式计算
|

Apache iceberg:Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。

6114 0
|
存储 缓存 分布式计算
|

深入探讨HBASE

本文阐述了HBase集群、内部存储中的主要角色,以及存储过程中与hdfs的交互。

1080 0
|
存储 SQL 分布式计算
|

Apache Kylin 云原生架构的思考及规划

在 1 月 4 号 ECUG 技术大会的分享中,Kyligence 的 CEO Luke Han 为大家带来了主题为《Apache Kylin 云原生架构的思考及规划》的精彩演讲,分享了 Kylin 如何拥抱云原生这一趋势。以下为演讲实录。

1197 0
|
SQL 存储 分布式计算
|

浅析Hive/Spark SQL读文件时的输入任务划分

本文最后留个思考题给读者们:如何设置参数彻底关闭Spark SQL data source表的文件合并? 积极回答问题即可获得社区礼物。

2251 0
|
分布式计算 运维 大数据
|

使用 Jupyter Notebook 运行 Delta Lake 入门教程

因为官方教程是基于商业软件 Databricks Community Edition 构建,虽然教程中使用的软件特性都是开源 Delta Lake 版本所具备的,但是考虑到国内的网络环境,注册和使用 Databricks Community Edition 门槛较高。所以本文尝试基于开源的 Jupiter Notebook 重新构建这个教程。

1228 0
|
SQL 分布式计算 Linux
|

使用 Jupyter Notebook 运行 Delta Lake 入门教程

本文通过 jupyter notebook 工具演示了 Delta Lake 的官方教程

1794 0
|
消息中间件 存储 分布式计算
|

解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。

2050 0
|
机器学习/深度学习 人工智能 分布式计算
|

Python搭建新冠肺炎预测模型全解读

新冠病毒疫后复工成为当务之急,然而病毒尚未消散,风险权衡面临不确定因素。传统机器学习模型虽然可以精确拟合历史数据,但由于脱离疾病传播机理,外推预测的可靠性低。与以往的疾病传播模型不同,南栖仙策的模型对病情的发展进行建模,能够更好的模拟潜伏期、无症状感染者。

4825 0
|
消息中间件 存储 分布式计算
|

在家办公这些天整理的Kafka知识点大全

Kakfa 广泛应用于国内外大厂,例如 BAT、字节跳动、美团、Netflix、Airbnb、Twitter 等等。今天我们通过这篇文章深入了解 Kafka 的工作原理。

1394 0
|
存储 编解码 分布式计算
|

环形缓冲区-Hadoop Shuffle过程中的利器

环形队列广泛用于网络数据收发,和不同程序间数据交换(比如内核与应用程序大量交换数据,从硬件接收大量数据)均使用了环形队列。

1688 0
|
SQL 存储 分布式计算
|

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal,起到 schema 管理、事务管理和数据管理的功能。

14713 2
|
消息中间件 分布式计算 Java
|

每年 150 亿美元花哪了?Netflix 的大规模 Kafka 实践

Netflix 在 2019 年花费了大约 150 亿美元来制作世界一流的原创内容。在如此高的投入之下,我们必须获得许多关键的业务见解,从而为所有 Netflix 内容的策划、预算和效益分析工作提供帮助

970 0
|
机器学习/深度学习 传感器 分布式计算
|

深度学习技术在自动驾驶中的应用与挑战

深度学习技术经过近几年井喷式的发展,在很多领域都得到了广泛的应用。在自动驾驶系统中,深度学习技术也起到了至关重要的作用,同时也面临着非常多的挑战。我们一直在探索,在一个安全、稳定的自动驾驶产品中,深度学习技术应该有着怎样的作用边界,又如何能最好地发挥其优势。本次分享的主题为深度学习技术在自动驾驶中的应用与挑战,

1110 0
|
存储 SQL 分布式计算
|

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目,Hudi(Hoodie) 是 Uber 为了解决大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题,本文以中立的态度从高层次简单对比一下这两个数据湖产品的优缺点。

3829 0
|
存储 SQL 资源调度
|

面对业务增长,Uber是如何扩展HDFS文件系统的

Uber将基于Hadoop的批量和流式分析应用在了广泛的场景中,例如反作弊、机器学习和ETA计算等。随着过去几年的业务增长,Uber的数据容量和访问负载也呈现了指数级增长的趋势。同时保证系统扩展能力和高性能并不是一件容易的事情,本文将详细介绍,Uber是如何通过这些改进措施来保证存储系统的持续增长、稳定和可靠的。

727 0
|
机器学习/深度学习 分布式计算 大数据
|

Python中的图像增强技术

图像增强是一种非常强大的技术,针对现有图像人为创建各种变化以扩展图像数据集,例如缩放现有图像、将现有图像旋转几度、剪切或裁剪图像等等。在本文中,我们将使用 imgaug 库探索 Python 中的图像增强技术。

2325 0
|
SQL 存储 缓存
|

回顾《网易数据基础平台建设》

主要是从数据库内核到大数据平台底层技术开发,分享网易数据科学中心多年大数据建设经验。

1034 0
|
人工智能 达摩院 分布式计算
|

疫情当下,请把掌声送给闷声不说话的阿里巴巴

政府很重要,但政府本身并不创造财富,在经济活动中,企业是主角,企业家是翩翩起舞的角色。 这一次,请把掌声送给闷声不说话的阿里,送给所有的中国企业家。

1297 0
|
SQL 分布式计算 资源调度
|

SQL 查询的分布式执行与调度

OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起,逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案。

1949 0
|
人工智能 分布式计算 Cloud Native
|

10年后,阿里给千万开源人写了一封信

年末将至,阿里巴巴开源技术委员会负责人贾扬清写了一封信,想要和热爱开源的你说一声:谢谢。未来,我们希望与更多开源人一起,用技术普惠世界。

2397 0
|
SQL 存储 分布式计算
|

F1 Query: Declarative Querying at Scale

2013 年的 F1 是基于 Spanner,主要提供 OLTP 服务,而新的 F1 则定位则是大一统:旨在处理 OLTP/OLAP/ETL 等多种不同的 workload。但是这篇新的 F1 论文对 OLTP 的讨论则是少之又少,据八卦是 Spanner 开始原生支持之前 F1 的部分功能,导致 F1 对 OLTP 的领地被吞并了。

921 0
|
机器学习/深度学习 分布式计算 算法
|

Apache Spark 将支持 Stage 级别的资源控制和调度

我们需要对不同 Stage 设置不同的资源。但是目前的 Spark 不支持这种细粒度的资源配置,导致我们不得不在作业启动的时候设置大量的资源,从而导致资源可能浪费,特别是在机器学习的场景下。

1124 0
|
存储 运维 分布式计算
|

零门槛构建弹性大数据云分析平台

从基础设施、运维管理、云生态等角度,详细了解下云托管的部分优势。

1785 0
|
SQL 存储 机器学习/深度学习
|

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

5132 0
|
SQL 存储 机器学习/深度学习
|

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

1359 0
|
消息中间件 弹性计算 分布式计算
|

自建Hadoop数据迁移到阿里云EMR

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建部署架构图 Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。

1511 0
|
SQL 弹性计算 分布式计算
|

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云E-MapReduce集群。

1132 0
|
缓存 分布式计算 资源调度
|

spark过节监控告警系统实现

保证过年期间自己对自己的应用了如执掌,一般公司都会有轮值人员,对于我们这些搞平台和线上应用的,至少要有春节应急预案。今天浪尖主要是分享一下关于在yarn上的spark 任务我们应该做哪些监控,如何监控。

1294 0

使用Apache SuperSet和EMR Spark打造交互式的数据探索平台

本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。讲师介绍李呈祥,花名司麟,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。

1260 0
|
SQL 分布式计算 数据可视化
|

1月9日社区直播【使用Apache SuperSet和EMR Spark打造交互式的数据探索平台】

本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。

1286 0
|
消息中间件 JSON 分布式计算
|

通过Kafka Connect进行数据迁移

在流式数据处理过程中,E-MapReduce经常需要在Kafka与其他系统间进行数据同步或者在Kafka集群间进行数据迁移。本节向您介绍如何在E-MapReduce上通过Kafka Connect快速的实现Kafka集群间的数据同步或者数据迁移。

2685 0
|
SQL 分布式计算 负载均衡
|

Hive性能优化(全面)

Hadoop的计算框架特性下的HIve有效的优化手段

4315 0
|
SQL 人工智能 分布式计算
|

Spark 数据倾斜及其解决方案

本文从数据倾斜的危害、现象、原因等方面,由浅入深阐述Spark数据倾斜及其解决方案。

8227 0
|
消息中间件 分布式计算 数据可视化
|

通过Spark Streaming作业处理Kafka数据

如何使用阿里云E-MapReduce部署Hadoop集群和Kafka集群,并运行Spark Streaming作业消费Kafka数据。

4499 0
|
SQL 数据采集 缓存
|

实践Hadoop MapReduce 任务的性能翻倍之路

eBay每天产生PB量级的CAL日志,其数据量每天都在增加。对于日益增长的数据量,Hadoop MapReduce job的优化将会大大节省计算资源。本文将分享eBay团队如何对这些Hadoop job进行优化,希望为开发者带来启发,解决Hadoop MapReduce(MR)job实践中存在的问题。

2858 0
|
SQL 分布式计算 数据建模
|

【译】Apache Spark 数据建模之时间维度(二)

Data Modeling in Apache Spark - Part 2 : Working With Multiple Dates http://blog.madhukaraphatak.com/data-modeling-spark-part-2/

1255 0
|
SQL 分布式计算 数据挖掘
|

【译】Apache Spark 数据建模之时间维度(一)

Data Modeling in Apache Spark - Part 1 : Date Dimension

1191 0
|
SQL 机器学习/深度学习 缓存
|

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Spark 可以可靠地 shuffle 并排序 90 TB 以上的中间数据,并在一个作业中运行 250,000个 tasks。与基于 Hive 计相比,产生了显著的性能改进( CPU性能提升、节省了资源的使用,降低延迟)。

2341 0
|
机器学习/深度学习 分布式计算 资源调度
|

Spark整合Ray思路漫谈

Spark整合Ray思路漫谈

2961 0
|
SQL 分布式计算 Java
|

Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎

Delta Lake 0.5.0 于2019年12月13日正式发布,这个版本支持多种查询引擎查询 Delta Lake 的数据,比如常见的 Hive、Presto 查询引擎。并发操作得到改进。

2252 0
|
机器学习/深度学习 存储 分布式计算
|

【译】如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈

如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈

4124 0
我要发布