开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1629
内容
13
活动
5419
关注
|
存储 缓存 分布式计算
|

深入探讨HBASE

本文阐述了HBase集群、内部存储中的主要角色,以及存储过程中与hdfs的交互。

1170 0
|
存储 SQL 分布式计算
|

Apache Kylin 云原生架构的思考及规划

在 1 月 4 号 ECUG 技术大会的分享中,Kyligence 的 CEO Luke Han 为大家带来了主题为《Apache Kylin 云原生架构的思考及规划》的精彩演讲,分享了 Kylin 如何拥抱云原生这一趋势。以下为演讲实录。

1360 0
|
SQL 存储 分布式计算
|

浅析Hive/Spark SQL读文件时的输入任务划分

本文最后留个思考题给读者们:如何设置参数彻底关闭Spark SQL data source表的文件合并? 积极回答问题即可获得社区礼物。

2626 0
|
分布式计算 运维 大数据
|

使用 Jupyter Notebook 运行 Delta Lake 入门教程

因为官方教程是基于商业软件 Databricks Community Edition 构建,虽然教程中使用的软件特性都是开源 Delta Lake 版本所具备的,但是考虑到国内的网络环境,注册和使用 Databricks Community Edition 门槛较高。所以本文尝试基于开源的 Jupiter Notebook 重新构建这个教程。

1321 0
|
SQL 分布式计算 Linux
|

使用 Jupyter Notebook 运行 Delta Lake 入门教程

本文通过 jupyter notebook 工具演示了 Delta Lake 的官方教程

1995 0
|
消息中间件 存储 分布式计算
|

解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。

2211 0
|
机器学习/深度学习 人工智能 分布式计算
|

Python搭建新冠肺炎预测模型全解读

新冠病毒疫后复工成为当务之急,然而病毒尚未消散,风险权衡面临不确定因素。传统机器学习模型虽然可以精确拟合历史数据,但由于脱离疾病传播机理,外推预测的可靠性低。与以往的疾病传播模型不同,南栖仙策的模型对病情的发展进行建模,能够更好的模拟潜伏期、无症状感染者。

5048 0
|
消息中间件 存储 分布式计算
|

在家办公这些天整理的Kafka知识点大全

Kakfa 广泛应用于国内外大厂,例如 BAT、字节跳动、美团、Netflix、Airbnb、Twitter 等等。今天我们通过这篇文章深入了解 Kafka 的工作原理。

1504 0
|
存储 编解码 分布式计算
|

环形缓冲区-Hadoop Shuffle过程中的利器

环形队列广泛用于网络数据收发,和不同程序间数据交换(比如内核与应用程序大量交换数据,从硬件接收大量数据)均使用了环形队列。

1822 0
|
SQL 存储 分布式计算
|

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal,起到 schema 管理、事务管理和数据管理的功能。

17877 3
|
消息中间件 分布式计算 Java
|

每年 150 亿美元花哪了?Netflix 的大规模 Kafka 实践

Netflix 在 2019 年花费了大约 150 亿美元来制作世界一流的原创内容。在如此高的投入之下,我们必须获得许多关键的业务见解,从而为所有 Netflix 内容的策划、预算和效益分析工作提供帮助

1106 0
|
机器学习/深度学习 传感器 分布式计算
|

深度学习技术在自动驾驶中的应用与挑战

深度学习技术经过近几年井喷式的发展,在很多领域都得到了广泛的应用。在自动驾驶系统中,深度学习技术也起到了至关重要的作用,同时也面临着非常多的挑战。我们一直在探索,在一个安全、稳定的自动驾驶产品中,深度学习技术应该有着怎样的作用边界,又如何能最好地发挥其优势。本次分享的主题为深度学习技术在自动驾驶中的应用与挑战,

1352 0
|
存储 SQL 分布式计算
|

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目,Hudi(Hoodie) 是 Uber 为了解决大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题,本文以中立的态度从高层次简单对比一下这两个数据湖产品的优缺点。

4111 0
|
存储 SQL 资源调度
|

面对业务增长,Uber是如何扩展HDFS文件系统的

Uber将基于Hadoop的批量和流式分析应用在了广泛的场景中,例如反作弊、机器学习和ETA计算等。随着过去几年的业务增长,Uber的数据容量和访问负载也呈现了指数级增长的趋势。同时保证系统扩展能力和高性能并不是一件容易的事情,本文将详细介绍,Uber是如何通过这些改进措施来保证存储系统的持续增长、稳定和可靠的。

843 0
|
机器学习/深度学习 分布式计算 大数据
|

Python中的图像增强技术

图像增强是一种非常强大的技术,针对现有图像人为创建各种变化以扩展图像数据集,例如缩放现有图像、将现有图像旋转几度、剪切或裁剪图像等等。在本文中,我们将使用 imgaug 库探索 Python 中的图像增强技术。

2560 0
|
SQL 存储 缓存
|

回顾《网易数据基础平台建设》

主要是从数据库内核到大数据平台底层技术开发,分享网易数据科学中心多年大数据建设经验。

1190 0
|
人工智能 达摩院 分布式计算
|

疫情当下,请把掌声送给闷声不说话的阿里巴巴

政府很重要,但政府本身并不创造财富,在经济活动中,企业是主角,企业家是翩翩起舞的角色。 这一次,请把掌声送给闷声不说话的阿里,送给所有的中国企业家。

1371 0
|
SQL 分布式计算 资源调度
|

SQL 查询的分布式执行与调度

OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起,逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案。

2109 0
|
人工智能 分布式计算 Cloud Native
|

10年后,阿里给千万开源人写了一封信

年末将至,阿里巴巴开源技术委员会负责人贾扬清写了一封信,想要和热爱开源的你说一声:谢谢。未来,我们希望与更多开源人一起,用技术普惠世界。

2468 0
|
SQL 存储 分布式计算
|

F1 Query: Declarative Querying at Scale

2013 年的 F1 是基于 Spanner,主要提供 OLTP 服务,而新的 F1 则定位则是大一统:旨在处理 OLTP/OLAP/ETL 等多种不同的 workload。但是这篇新的 F1 论文对 OLTP 的讨论则是少之又少,据八卦是 Spanner 开始原生支持之前 F1 的部分功能,导致 F1 对 OLTP 的领地被吞并了。

1075 0
|
机器学习/深度学习 分布式计算 算法
|

Apache Spark 将支持 Stage 级别的资源控制和调度

我们需要对不同 Stage 设置不同的资源。但是目前的 Spark 不支持这种细粒度的资源配置,导致我们不得不在作业启动的时候设置大量的资源,从而导致资源可能浪费,特别是在机器学习的场景下。

1280 0
|
存储 运维 分布式计算
|

零门槛构建弹性大数据云分析平台

从基础设施、运维管理、云生态等角度,详细了解下云托管的部分优势。

1997 0
|
SQL 分布式计算 Apache
|

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

1465 0
|
消息中间件 弹性计算 分布式计算
|

自建Hadoop数据迁移到阿里云EMR

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建部署架构图 Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。

1664 0
|
SQL 弹性计算 分布式计算
|

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云E-MapReduce集群。

1316 0
|
缓存 分布式计算 资源调度
|

spark过节监控告警系统实现

保证过年期间自己对自己的应用了如执掌,一般公司都会有轮值人员,对于我们这些搞平台和线上应用的,至少要有春节应急预案。今天浪尖主要是分享一下关于在yarn上的spark 任务我们应该做哪些监控,如何监控。

1380 0

使用Apache SuperSet和EMR Spark打造交互式的数据探索平台

本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。讲师介绍李呈祥,花名司麟,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。

1468 0
|
SQL 分布式计算 数据可视化
|

1月9日社区直播【使用Apache SuperSet和EMR Spark打造交互式的数据探索平台】

本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。

1357 0
|
消息中间件 JSON 分布式计算
|

通过Kafka Connect进行数据迁移

在流式数据处理过程中,E-MapReduce经常需要在Kafka与其他系统间进行数据同步或者在Kafka集群间进行数据迁移。本节向您介绍如何在E-MapReduce上通过Kafka Connect快速的实现Kafka集群间的数据同步或者数据迁移。

2939 0
|
SQL 分布式计算 负载均衡
|

Hive性能优化(全面)

Hadoop的计算框架特性下的HIve有效的优化手段

4547 0
|
SQL 人工智能 分布式计算
|

Spark 数据倾斜及其解决方案

本文从数据倾斜的危害、现象、原因等方面,由浅入深阐述Spark数据倾斜及其解决方案。

8798 0
|
消息中间件 分布式计算 数据可视化
|

通过Spark Streaming作业处理Kafka数据

如何使用阿里云E-MapReduce部署Hadoop集群和Kafka集群,并运行Spark Streaming作业消费Kafka数据。

4639 0
|
SQL 数据采集 缓存
|

实践Hadoop MapReduce 任务的性能翻倍之路

eBay每天产生PB量级的CAL日志,其数据量每天都在增加。对于日益增长的数据量,Hadoop MapReduce job的优化将会大大节省计算资源。本文将分享eBay团队如何对这些Hadoop job进行优化,希望为开发者带来启发,解决Hadoop MapReduce(MR)job实践中存在的问题。

3044 0
|
SQL 分布式计算 数据建模
|

【译】Apache Spark 数据建模之时间维度(二)

Data Modeling in Apache Spark - Part 2 : Working With Multiple Dates http://blog.madhukaraphatak.com/data-modeling-spark-part-2/

1318 0
|
SQL 分布式计算 数据挖掘
|

【译】Apache Spark 数据建模之时间维度(一)

Data Modeling in Apache Spark - Part 1 : Date Dimension

1280 0
|
SQL 机器学习/深度学习 缓存
|

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Spark 可以可靠地 shuffle 并排序 90 TB 以上的中间数据,并在一个作业中运行 250,000个 tasks。与基于 Hive 计相比,产生了显著的性能改进( CPU性能提升、节省了资源的使用,降低延迟)。

2499 0
|
机器学习/深度学习 分布式计算 资源调度
|

Spark整合Ray思路漫谈

Spark整合Ray思路漫谈

3368 0
|
SQL 分布式计算 Java
|

Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎

Delta Lake 0.5.0 于2019年12月13日正式发布,这个版本支持多种查询引擎查询 Delta Lake 的数据,比如常见的 Hive、Presto 查询引擎。并发操作得到改进。

2362 0
|
机器学习/深度学习 存储 分布式计算
|

【译】如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈

如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈

4353 0
|
SQL 分布式计算 Java
|

【译】深入分析Spark UDF的性能

这篇博客会阐述一份关于Apache Spark的在Scala UDF、 PySpark UDF 和PySpark Pandas UDF之间的性能评测报告。

3539 0
|
SQL 存储 分布式计算
|

Tablestore结合Spark的流批一体SQL实战

本文将通过结合Tablestore和Spark的流批一体存储和计算,来自建电商大屏完成电商数据的分析和可视化,

2678 0
|
存储 SQL 分布式计算
|

12月11日Spark社区直播【实时数仓建设以及典型场景应用】

本次分享会介绍实时数仓的思路以及一些实践,包括SparkStreaming SQL引擎,以及对Delta/Kudu/Druid/阿里云多种存储组件的深度整合;同时会在这个基础上介绍一些典型案例应用

1300 0

实时数仓建设以及典型场景应用

本次分享会介绍实时数仓的思路以及一些实践,包括SparkStreaming SQL引擎,以及对Delta/Kudu/Druid/阿里云多种存储组件的深度整合;同时会在这个基础上介绍一些典型案例应用讲师介绍宋军,花名嵩林 阿里云EMR高级技术专家。从事Spark内核优化,对SparkCore/SprakSQL有深入了解,Spark Contributor

2349 0

是时候改变你数仓的增量同步方案了

本分享会先介绍传统数据增量同步方案,之后对比新方案(完全基于Spark无需额外组件),介绍新方案如何结合最新的数据湖(delta lake)实现,同时引入spark-binlog,极大的简化了数据增量的门槛和架构。如果时间允许,我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。讲师介绍祝威廉,资深数据架构,11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台,降低AI落地成本相关工作上。

1646 0
|
分布式计算 Spark Apache
|

12月5日Spark社区直播【是时候改变你数仓的增量同步方案了】

本分享会先介绍传统数据增量同步方案,之后对比新方案(完全基于Spark无需额外组件),介绍新方案如何结合最新的数据湖(delta lake)实现,同时引入spark-binlog,极大的简化了数据增量的门槛和架构。如果时间允许,我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。

1221 0
|
数据格式 JSON 流计算
|

Delta元数据解析

本文介绍Delta的元数据管理相关内容,包括文件夹结构,元数据类型以及元数据产生流程等

2262 0
|
NoSQL 分布式计算 Spark
|

Tablestore+Delta Lake(快速开始)

本文介绍如何在E-MapReduce中通过Tablestore Spark Streaming Source将TableStore中的数据实时导入到Delta Lake中。

3464 0
|
分布式计算 大数据 Spark
|

阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。

6601 0
|
分布式计算 大数据 Spark
|

阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。

6827 0
|
分布式计算 Spark NoSQL
|

11月28日Spark社区直播【Tablestore结合Spark的云上流批一体大数据架构 】

传统Lambda架构组件多运维复杂,如何使用一套存储和一套计算来实现流批架构充分享受技术红利?以Delta Lake为代表的新型数据湖方案越来越流行,传统的Lambda架构如何向数据湖架构进行扩展?以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。

4520 0
我要发布