开源大数据平台 E-MapReduce-最新-第29页-阿里云开发者社区-阿里云

开源大数据EMR

|

机器学习/深度学习分布式计算大数据

|

博文

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

数据中台应该是什么样子?如何基于MLSQL完成数据中台的构建? MLSQL是如何基于Spark来完成这些扩展的? Databricks公司新开元项目Delta对于数据和机器学习的意义何在？

1323 0 0

开源大数据EMR

|

SQL 存储分布式计算

|

博文

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能，通过Relational Cache，用户可以提前将任意关系型数据（Table/View/Dataset）cache到任意Spark支持的DataSource中，并支持灵活的cache数据组织方式，基于此，Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。

3680 0 0

开源大数据EMR

|

存储机器学习/深度学习大数据

|

博文

什么是数据湖？有什么用？

在本文中，将介绍数据湖的一些主要方面，帮助读者理解为什么它对企业非常重要。

5419 0 1

开源大数据EMR

|

消息中间件分布式计算监控

|

博文

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

得益于 balanced Kafka reader，从 Kafka 消费的 Spark 应用程序现在可以横向扩展，并具有任意并行度。平衡分区算法很简单，并且已被证明非常有效。由于这些改进，用于摄取日志记录事件的 Spark streaming 作业可以处理比以前多一个数量级的事件。

2075 0 1

阿里云E-MapReduce团队

|

机器学习/深度学习人工智能分布式计算

|

博文

Spark + AI 2019北美技术峰会华丽落幕

除了Spark + AI主题外，本次峰会，为开发者，数据科学家以及探寻最佳数据与人工智能工具来构架创新型产品的技术实践者们，提供了一站式交流的独特体验，超过了5000名来自世界各地的工程师，数据科学家，人工智能专家，研究学者以及商务人士，加入到了这3天的深度交流与学习中。

1511 0 0

阿里云E-MapReduce团队

|

大数据

|

博文

钉钉群直播【Delta Lake：一种新型的数据湖方案】

Delta Lake 是 Databricks 推出的一种新型的数据湖方案，解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开，如 Delta Lake 的适用场景、技术优势，Delta 的原理实现以及一些高级特性等，并就现有解决方案做横向对比。

5697 0 0

开源大数据EMR

|

大数据 Linux

|

博文

钉钉群直播【Delta Lake：一种新型的数据湖方案】

Delta Lake 是 Databricks 推出的一种新型的数据湖方案，解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开，如 Delta Lake 的适用场景、技术优势，Delta 的原理实现以及一些高级特性等，并就现有解决方案做横向对比。

1514 0 0

开源大数据EMR

|

分布式计算 Spark 容器

|

博文

Spark on Kubernetes原生支持浅析

概述 Kubernetes自推出以来，以其完善的集群配额、均衡、故障恢复能力，成为开源容器管理平台中的佼佼者。从设计思路上，Spark以开放Cluster Manager为理念，Kubernetes则以多语言、容器调度为卖点，二者的结合是顺理成章的。

5261 0 3

阿里云E-MapReduce团队

|

大数据 Apache Python

|

博文

Koalas：让 pandas 轻松切换 Apache Spark

4 月 24 日，Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas，它增强了 PySpark 的 DataFrame API，使其与 pandas 兼容。本文转自：https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

2967 0 0

开源大数据EMR

|

分布式计算大数据 Apache

|

博文

Koalas：让 pandas 轻松切换 Apache Spark

4 月 24 日，Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas，它增强了 PySpark 的 DataFrame API，使其与 pandas 兼容。本文转自：https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

1918 0 0

开源大数据EMR

|

人工智能分布式计算 Linux

|

博文

钉钉群直播Spark + AI 北美峰会参会分享

Spark + AI 北美峰会 2019 盛况依然，这两天正如火如荼。大会的主题是 Build，Unify，Scale，对此如何理解？砖厂这次有哪些重磅消息和重要发布，并作如何解读？Spark 过去几年发展的基调和线索是什么，从这次峰会上又如何看出 Spark 在未来几年的发展端倪？阿里巴巴计算平台.

1483 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算安全

|

博文

钉钉群直播Spark + AI 北美峰会参会分享

Spark + AI 北美峰会 2019 盛况依然，这两天正如火如荼。大会的主题是 Build，Unify，Scale，对此如何理解？砖厂这次有哪些重磅消息和重要发布，并作如何解读？Spark 过去几年发展的基调和线索是什么，从这次峰会上又如何看出 Spark 在未来几年的发展端倪？阿里巴巴计算平台.

1013 0 0

阿里云E-MapReduce团队

|

存储大数据 PHP

|

博文

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天，坊间传闻被证实，Databrics（俗称数砖，亦称砖厂）的杀手锏 Delta 产品特性作为 Delta Lake 项目开源！会前，笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流，谈到 Delta 时被告知会有相关重磅在大会上宣布，但却没想到是开源出去。

6684 0 1

开源大数据EMR

|

存储分布式计算大数据

|

博文

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天，坊间传闻被证实，Databrics（俗称数砖，亦称砖厂）的杀手锏 Delta 产品特性作为 Delta Lake 项目开源！会前，笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流，谈到 Delta 时被告知会有相关重磅在大会上宣布，但却没想到是开源出去。

10146 0 1

开源大数据EMR

|

机器学习/深度学习分布式计算 Java

|

博文

浅谈 Spark 的多语言支持（修订版）

Spark 设计上的优秀无容置疑，甫一出道便抢了 Hadoop 的 C 位，在开源大数据的黄金十年里一时风头无两，在人工智能时代的当下仍然能够与时俱进，不可谓不牛逼。架构和设计上的卓越，不遑多言，美中不足之处自然也有不少，比如调度模型跟 MapReduce 这种计算范式过于耦合，Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型，所幸在于对框架的改动不会伤经动骨。

1962 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算 Java

|

博文

Spark架构和设计上的优秀毋庸置疑，从一出道便抢了 Hadoop 的 C 位。在开源大数据的黄金十年一时风头无两，在当下人工智能时代仍然能够与时俱进，通天之处不遑多言，美中不足之处也有不少。小的方面，比如调度模型跟 MapReduce 这种计算范式过于耦合，Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型，所幸在于对框架的改动不会伤筋动骨；有些缺陷则不然，影响全局，调整起来绝非易事。

5270 0 0

开源大数据EMR

|

消息中间件大数据测试技术

|

博文

Apache Avro as a Built-in Data Source in Apache Spark 2.4

Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统，尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.

1635 0 0

鱼跟猫

|

SQL 分布式计算大数据

|

博文

基于Spark SQL实现对HDFS操作的实时监控报警

E-MapReduce计划从EMR-3.18.1版本开始提供Spark Streaming SQL的预览版功能。Spark Streaming SQL是在Spark Structured Streaming的基础上做了进一步封装，方便用户使用SQL语言进行Spark流式分析开发。

2906 0 0

开源大数据EMR

|

存储分布式计算对象存储

|

博文

Alluxio技术内幕：如何百倍加速云端元数据操作

本文转载自：https://zhuanlan.zhihu.com/p/49499385 我们在这篇文章介绍最新版本（1.8.1版本）的Alluxio如何通过使用指纹特性和底层存储批量操作加快Alluxio元数据操作。

2617 0 1

开源大数据EMR

|

存储机器学习/深度学习分布式计算

|

博文

如何从根源上解决 HDFS 小文件问题

我们知道，HDFS 被设计成存储大规模的数据集，我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据（比如文件由哪些块组成、这些块分别存储在哪些节点上）全部都是由 NameNode 节点维护，为了达到高效的访问， NameNode 在启动的时候会将这些元数据全部加载到内存中。

3505 0 0

开源大数据EMR

|

分布式计算大数据 Apache

|

博文

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合，在机器学习里面，因为计算迭代的时间可能会很长，开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。

11521 1 1

开源大数据EMR

|

存储缓存分布式计算

|

博文

Spark+Alluxio性能调优十大技巧

本文章转载于：https://zhuanlan.zhihu.com/p/54245707 由于统一访问对象存储（如S3）和HDFS数据的场景的出现和普及，Apache Spark结合Alluxio的大数据栈越来越受欢迎。

2206 0 0

xy_xin

|

SQL 大数据 Shell

|

博文

HIVE TopN shuffle 原理

TopN 问题是排序中的一个经典问题。对于一个长度为 m 的数组，取其最大的 n (n

2581 0 0

xy_xin

|

存储 SQL 大数据

|

博文

列式存储系列（一）C-Store

列式存储系列（一）概述序本文是列式存储系列的第一篇。在这个系列中，我们将介绍几个典型的列式存储系统。这些列式系统的出现都有各自的时代背景。在介绍这些系统的同时，我们也尽量介绍一下它们的背景，以便大家有一个更宏观的认识，理解这个系统为什么会出现，它要解决的问题，以及它如何影响后来类似系统的发展。

3776 0 1

鱼跟猫

|

消息中间件大数据 Kafka

|

博文

如何在E-MapReduce上进行Kafka集群间数据复制

本文介绍如何使用社区的Kafka MirrorMaker工具进行集群间的数据复制。

1880 0 1

开源大数据EMR

|

分布式计算监控关系型数据库

|

博文

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程：如何把 RDS 的 binlog 收集到 SLS。如何通过 Spark Streaming 将 SLS 中的日志读取出来，进行分析。

11749 0 0

云无谓

|

分布式计算流计算 Spark

|

博文

[译]利用贝叶斯推理做硬件故障率的准实时预测

你可能已经不知不觉中在数据科学项中用上了贝叶斯相关技术！如果你还没用上，这个技术可以增强你的数据分析能力。本文会展示这项技术在现实世界中的应用案例：通过传感器收集的流式数据预测硬件故障率。

5896 0 0

开源大数据EMR

|

SQL 分布式计算流计算

|

博文

通过WebUI查看Structured Streaming作业统计信息

前言从EMR-3.18.1版本开始，EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分，EMR将扩展现有Spark WebUI，支持Structured Streaming Query的统计信息查看。

2718 0 1

鱼跟猫

|

SQL 分布式计算大数据

|

博文

通过WebUI查看Structured Streaming作业统计信息

从EMR-3.18.1版本开始，EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分，EMR将扩展现有Spark WebUI，支持Structured Streaming Query的统计信息查看。

2546 0 0

开源大数据EMR

|

机器学习/深度学习分布式计算大数据

|

博文

Apache Spark + Intel Analytics Zoo 进行深度学习

Analytics Zoo 是由 Intel 开源,基于 Apache Spark 和 Inte BigDL 的大数据分析和 AI 平台，方便用户开发基于大数据、端到端的深度学习应用。本文简单介绍了如何在阿里云 E-MapReduce 使用 Analytics Zoo 来进行深度学习。

7509 0 1

开源大数据EMR

|

存储分布式计算 API

|

博文

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

正如在之前的那篇文章中 Spark Streaming 设计原理中说到 Spark 团队之后对 Spark Streaming 的维护可能越来越少，Spark 2.4 版本的 Release Note 里面果然一个 Spark Streaming 相关的 ticket 都没有。

7380 0 0

开源大数据EMR

|

SQL 分布式计算大数据

|

博文

Spark SQL 性能优化再进一步：CBO 基于代价的优化

本文将介绍 CBO，它充分考虑了数据本身的特点（如大小、分布）以及操作算子的特点（中间结果集的分布及大小）及代价，从而更好的选择执行代价最小的物理执行计划，即 SparkPlan。

5347 0 0

开源大数据EMR

|

分布式计算算法搜索推荐

|

博文

Spark排序算法系列之GBTs使用方式介绍

在本篇文章中你可以学到： Spark MLLib包中的GBDT使用方式模型的通过保存、加载、预测 PipeLine ML包中的GBDT

3157 0 0

开源大数据EMR

|

分布式计算大数据 Spark

|

博文

Spark in action on Kubernetes - Playground搭建与架构浅析

前言Spark是非常流行的大数据处理引擎，数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是Spark本身的设计更偏向使用静态的资源管理，虽然Spark也支持了类似Yarn等动态的资源管理器，但是这些资源管理并不是面向动态的云基础设施而设计的，在速度、成本、效率等领域缺乏解决方案。

13662 1 1

开源大数据EMR

|

存储缓存分布式计算

|

博文

基于Alluxio系统的Spark DataFrame高效存储管理技术

介绍越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理，提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中，从而将Spark streaming作业的平均性能提升了15倍，峰值甚至达到300倍左右。

12734 0 0

尼不要逗了

|

分布式计算大数据 Apache

|

博文

现代流式计算的基石：Google DataFlow

0. 引言今天这篇继续讲流式计算。毫无疑问，Apache Flink 和 Apache Spark （Structured Streaming）现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢？Streaming Systems 这本书在分析 Fli...

19732 60 60

尼不要逗了

|

分布式计算算法大数据

|

博文

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照（Distributed Snapshot）算法 Chandy-Lamport 算法，那么分布式快照算法可以用来解决什么问题呢？

26626 71 72

阿里云E-MapReduce团队

|

SQL 分布式计算监控

|

博文

Structured Streaming VS Flink

Flink是标准的实时处理引擎，而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的，不过现在Spark Streaming已经非常稳定基本都没有更新了，然后重点移到spark sql和structured Streaming了。

5986 0 0

阿里云E-MapReduce团队

|

SQL 分布式计算 Spark

|

博文

Adaptive Execution如何让Spark SQL更高效更好用？

本文转发自技术世界，原文链接　http://www.jasongj.com/spark/adaptive_execution/ 1 背景 Spark SQL / Catalyst 和 CBO 的优化，从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。

2258 0 0

寒沙牧

|

SQL HIVE

|

博文

使用Ranger对Hive数据进行脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking)，它对`select`的返回结果进行脱敏处理，对用户屏蔽敏感信息。

9268 0 0

社区小助手

|

机器学习/深度学习分布式计算大数据

|

博文

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

**直播时间**： 2019.01.10（周四） 19:00 - 20:00 **主讲人：** 黄凯——Intel大数据技术团队软件工程师。卫雨青——Microsoft C+AI 团队软件工程师。

2033 0 0

诚历

|

SQL 分布式计算安全

|

博文

SparkSQL ThriftServer 安全相关功能的现状分析

SparkSQL Thrift Server 是 Spark SQL基于 Apache Hive的 HiveServer2开发的，通过SparkSQL Thrift Server 可以使 Spark SQL支持 JDBC/ODBC 的连接方式，用户可以通过 JDBC and ODBC 协议，在Spark上执行 SQL。

3811 0 0

诚历

|

SQL 存储大数据

|

博文

大数据列式存储 Parquet 和 ORC 简介

随着大数据 Hadoop/Spark 开源生态的不断发展和成熟，TextFile、CSV这些文本格式存储效率低，查询速度慢，往往不能很好地满足大数据系统中存储和查询的需求，列式存储也在大数据社区逐渐兴起到成熟。

6392 0 0

社区小助手

|

存储分布式计算大数据

|

博文

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

主讲人：诚历（孙大鹏）阿里巴巴计算平台事业部EMR技术专家简介：Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎，这两者在实现上有什异同，哪个效率更好，哪个性能更优，本次分享将和您一起探索两大列式存储。

1891 0 1

寒沙牧

|

分布式计算资源调度 Spark

|

博文

Spark中的内存管理(一)

Spark应用经常遇到的问题很多都是内存问题，本文对Driver和Executor的内存管理机制进行了相关介绍。

4389 0 0

寒沙牧

|

SQL 分布式计算算法

|

博文

Spark中的资源调度

本文对Spark的资源调度的进行了介绍，涉及到4个维度的调度，包括SparkApplication/pool/TaskSetManager/Task。

8189 0 0

社区小助手

|

分布式计算 Apache Spark

|

博文

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.4 release and the upcoming releases and will be followed by a Q&A session.

1434 0 0

社区小助手

|

分布式计算 Apache Spark

|

博文

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark系列技术直播第六讲【 What's New in Apache Spark 2.4? 】 Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.

1411 0 1

社区小助手

|

分布式计算大数据 Apache

|

博文

Apache Spark Meetup China 第1期最全资料下载

活动时间：2018年12月16日13:30-17:00 活动地点：杭州市余杭区文一西路998号未来科技城海创园4幢801C 主办单位：阿里云、袋鼠云、云栖社区主题介绍：主题一、Spark优化实践-13：30 - 14：30阿里云E-MapReduce-王道远介绍阿里云EMR中Spark计算引擎所包含的一系列额外优化工作，包括SmartShuffle、file skip index等。

2467 0 0

shuxinxin

|

SQL 分布式计算 Spark

|

博文

【译】SQL Pivot介绍

本文介绍SQL Pivot以及如何使用该功能

2795 0 0

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

使用Relational Cache加速EMR Spark数据分析

什么是数据湖？有什么用？

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

Spark + AI 2019北美技术峰会华丽落幕

钉钉群直播【Delta Lake：一种新型的数据湖方案】

钉钉群直播【Delta Lake：一种新型的数据湖方案】

Spark on Kubernetes原生支持浅析

Koalas：让 pandas 轻松切换 Apache Spark

Koalas：让 pandas 轻松切换 Apache Spark

钉钉群直播Spark + AI 北美峰会参会分享

钉钉群直播Spark + AI 北美峰会参会分享

从数砖开源 Delta Lake 说起

从数砖开源 Delta Lake 说起

浅谈 Spark 的多语言支持（修订版）

浅谈 Spark 的多语言支持

Apache Avro as a Built-in Data Source in Apache Spark 2.4

基于Spark SQL实现对HDFS操作的实时监控报警

Alluxio技术内幕：如何百倍加速云端元数据操作

如何从根源上解决 HDFS 小文件问题

Apache Spark 3.0 将内置支持 GPU 调度

Spark+Alluxio性能调优十大技巧

HIVE TopN shuffle 原理

列式存储系列（一）C-Store

如何在E-MapReduce上进行Kafka集群间数据复制

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

[译]利用贝叶斯推理做硬件故障率的准实时预测

通过WebUI查看Structured Streaming作业统计信息

通过WebUI查看Structured Streaming作业统计信息

Apache Spark + Intel Analytics Zoo 进行深度学习

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

Spark SQL 性能优化再进一步：CBO 基于代价的优化

Spark排序算法系列之GBTs使用方式介绍

Spark in action on Kubernetes - Playground搭建与架构浅析

基于Alluxio系统的Spark DataFrame高效存储管理技术

现代流式计算的基石：Google DataFlow

分布式快照算法: Chandy-Lamport

Structured Streaming VS Flink

Adaptive Execution如何让Spark SQL更高效更好用？

使用Ranger对Hive数据进行脱敏

# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】

SparkSQL ThriftServer 安全相关功能的现状分析

大数据列式存储 Parquet 和 ORC 简介

# Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

Spark中的内存管理(一)

Spark中的资源调度

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark Meetup China 第1期 最全资料下载

【译】SQL Pivot介绍

活跃用户

相关产品

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

Apache Spark Meetup China 第1期最全资料下载