开源大数据平台 E-MapReduce-最新-第29页-阿里云开发者社区-阿里云

我们知道，HDFS 被设计成存储大规模的数据集，我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据（比如文件由哪些块组成、这些块分别存储在哪些节点上）全部都是由 NameNode 节点维护，为了达到高效的访问， NameNode 在启动的时候会将这些元数据全部加载到内存中。

3166 0 0

开源大数据EMR

分布式计算大数据 Apache

博文

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合，在机器学习里面，因为计算迭代的时间可能会很长，开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。

10772 1 1

开源大数据EMR

存储缓存分布式计算

博文

Spark+Alluxio性能调优十大技巧

本文章转载于：https://zhuanlan.zhihu.com/p/54245707 由于统一访问对象存储（如S3）和HDFS数据的场景的出现和普及，Apache Spark结合Alluxio的大数据栈越来越受欢迎。

2003 0 0

xy_xin

SQL 大数据 Shell

博文

HIVE TopN shuffle 原理

TopN 问题是排序中的一个经典问题。对于一个长度为 m 的数组，取其最大的 n (n

2382 0 0

xy_xin

存储 SQL 大数据

博文

列式存储系列（一）C-Store

列式存储系列（一）概述序本文是列式存储系列的第一篇。在这个系列中，我们将介绍几个典型的列式存储系统。这些列式系统的出现都有各自的时代背景。在介绍这些系统的同时，我们也尽量介绍一下它们的背景，以便大家有一个更宏观的认识，理解这个系统为什么会出现，它要解决的问题，以及它如何影响后来类似系统的发展。

3209 0 1

鱼跟猫

消息中间件大数据 Kafka

博文

如何在E-MapReduce上进行Kafka集群间数据复制

本文介绍如何使用社区的Kafka MirrorMaker工具进行集群间的数据复制。

1744 0 1

开源大数据EMR

分布式计算监控关系型数据库

博文

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程：如何把 RDS 的 binlog 收集到 SLS。如何通过 Spark Streaming 将 SLS 中的日志读取出来，进行分析。

11240 0 0

云无谓

分布式计算流计算 Spark

博文

[译]利用贝叶斯推理做硬件故障率的准实时预测

你可能已经不知不觉中在数据科学项中用上了贝叶斯相关技术！如果你还没用上，这个技术可以增强你的数据分析能力。本文会展示这项技术在现实世界中的应用案例：通过传感器收集的流式数据预测硬件故障率。

5622 0 0

开源大数据EMR

SQL 分布式计算流计算

博文

通过WebUI查看Structured Streaming作业统计信息

前言从EMR-3.18.1版本开始，EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分，EMR将扩展现有Spark WebUI，支持Structured Streaming Query的统计信息查看。

2573 0 1

鱼跟猫

SQL 分布式计算大数据

博文

通过WebUI查看Structured Streaming作业统计信息

从EMR-3.18.1版本开始，EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分，EMR将扩展现有Spark WebUI，支持Structured Streaming Query的统计信息查看。

2360 0 0

开源大数据EMR

机器学习/深度学习分布式计算大数据

博文

Apache Spark + Intel Analytics Zoo 进行深度学习

Analytics Zoo 是由 Intel 开源,基于 Apache Spark 和 Inte BigDL 的大数据分析和 AI 平台，方便用户开发基于大数据、端到端的深度学习应用。本文简单介绍了如何在阿里云 E-MapReduce 使用 Analytics Zoo 来进行深度学习。

7178 0 1

开源大数据EMR

存储分布式计算 API

博文

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

正如在之前的那篇文章中 Spark Streaming 设计原理中说到 Spark 团队之后对 Spark Streaming 的维护可能越来越少，Spark 2.4 版本的 Release Note 里面果然一个 Spark Streaming 相关的 ticket 都没有。

6629 0 0

开源大数据EMR

SQL 分布式计算大数据

博文

Spark SQL 性能优化再进一步：CBO 基于代价的优化

本文将介绍 CBO，它充分考虑了数据本身的特点（如大小、分布）以及操作算子的特点（中间结果集的分布及大小）及代价，从而更好的选择执行代价最小的物理执行计划，即 SparkPlan。

5038 0 0

开源大数据EMR

分布式计算算法搜索推荐

博文

Spark排序算法系列之GBTs使用方式介绍

在本篇文章中你可以学到： Spark MLLib包中的GBDT使用方式模型的通过保存、加载、预测 PipeLine ML包中的GBDT

2957 0 0

开源大数据EMR

分布式计算大数据 Spark

博文

Spark in action on Kubernetes - Playground搭建与架构浅析

前言Spark是非常流行的大数据处理引擎，数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是Spark本身的设计更偏向使用静态的资源管理，虽然Spark也支持了类似Yarn等动态的资源管理器，但是这些资源管理并不是面向动态的云基础设施而设计的，在速度、成本、效率等领域缺乏解决方案。

13381 1 1

开源大数据EMR

存储缓存分布式计算

博文

基于Alluxio系统的Spark DataFrame高效存储管理技术

介绍越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理，提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中，从而将Spark streaming作业的平均性能提升了15倍，峰值甚至达到300倍左右。

12430 0 0

尼不要逗了

分布式计算大数据 Apache

博文

现代流式计算的基石：Google DataFlow

0. 引言今天这篇继续讲流式计算。毫无疑问，Apache Flink 和 Apache Spark （Structured Streaming）现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢？Streaming Systems 这本书在分析 Fli...

19180 60 60

尼不要逗了

分布式计算算法大数据

博文

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照（Distributed Snapshot）算法 Chandy-Lamport 算法，那么分布式快照算法可以用来解决什么问题呢？

23911 61 62

阿里云E-MapReduce团队

SQL 分布式计算监控

博文

Structured Streaming VS Flink

Flink是标准的实时处理引擎，而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的，不过现在Spark Streaming已经非常稳定基本都没有更新了，然后重点移到spark sql和structured Streaming了。

5657 0 0

阿里云E-MapReduce团队

SQL 分布式计算 Spark

博文

Adaptive Execution如何让Spark SQL更高效更好用？

本文转发自技术世界，原文链接　http://www.jasongj.com/spark/adaptive_execution/ 1 背景 Spark SQL / Catalyst 和 CBO 的优化，从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。

1965 0 0

寒沙牧

SQL HIVE

博文

使用Ranger对Hive数据进行脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking)，它对`select`的返回结果进行脱敏处理，对用户屏蔽敏感信息。

8802 0 0

社区小助手

机器学习/深度学习分布式计算大数据

博文

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

**直播时间**： 2019.01.10（周四） 19:00 - 20:00 **主讲人：** 黄凯——Intel大数据技术团队软件工程师。卫雨青——Microsoft C+AI 团队软件工程师。

1864 0 0

诚历

SQL 分布式计算安全

博文

SparkSQL ThriftServer 安全相关功能的现状分析

SparkSQL Thrift Server 是 Spark SQL基于 Apache Hive的 HiveServer2开发的，通过SparkSQL Thrift Server 可以使 Spark SQL支持 JDBC/ODBC 的连接方式，用户可以通过 JDBC and ODBC 协议，在Spark上执行 SQL。

3559 0 0

诚历

SQL 存储大数据

博文

大数据列式存储 Parquet 和 ORC 简介

随着大数据 Hadoop/Spark 开源生态的不断发展和成熟，TextFile、CSV这些文本格式存储效率低，查询速度慢，往往不能很好地满足大数据系统中存储和查询的需求，列式存储也在大数据社区逐渐兴起到成熟。

6006 0 0

社区小助手

存储分布式计算大数据

博文

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

主讲人：诚历（孙大鹏）阿里巴巴计算平台事业部EMR技术专家简介：Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎，这两者在实现上有什异同，哪个效率更好，哪个性能更优，本次分享将和您一起探索两大列式存储。

1741 0 1

寒沙牧

分布式计算资源调度 Spark

博文

Spark中的内存管理(一)

Spark应用经常遇到的问题很多都是内存问题，本文对Driver和Executor的内存管理机制进行了相关介绍。

4155 0 0

寒沙牧

SQL 分布式计算算法

博文

Spark中的资源调度

本文对Spark的资源调度的进行了介绍，涉及到4个维度的调度，包括SparkApplication/pool/TaskSetManager/Task。

7878 0 0

社区小助手

分布式计算 Apache Spark

博文

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.4 release and the upcoming releases and will be followed by a Q&A session.

1341 0 0

社区小助手

分布式计算 Apache Spark

博文

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark系列技术直播第六讲【 What's New in Apache Spark 2.4? 】 Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.

1286 0 1

社区小助手

分布式计算大数据 Apache

博文

Apache Spark Meetup China 第1期最全资料下载

活动时间：2018年12月16日13:30-17:00 活动地点：杭州市余杭区文一西路998号未来科技城海创园4幢801C 主办单位：阿里云、袋鼠云、云栖社区主题介绍：主题一、Spark优化实践-13：30 - 14：30阿里云E-MapReduce-王道远介绍阿里云EMR中Spark计算引擎所包含的一系列额外优化工作，包括SmartShuffle、file skip index等。

2380 0 0

shuxinxin

SQL 分布式计算 Spark

博文

【译】SQL Pivot介绍

本文介绍SQL Pivot以及如何使用该功能

2553 0 0

shuxinxin

机器学习/深度学习存储分布式计算

博文

【译】Apache spark 2.4:内置 Image Data Source的介绍

主要介绍Apache Spark 2.4版本内置Image Data Source数据源

1806 0 0

社区小助手

分布式计算 API Apache

博文

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】

主讲人：王道远(健身) 阿里巴巴计算平台EMR技术专家直播时间：2018.12.13（本周四）19:00 - 20:00 内容提要：本次讲座主要涵盖Spark RDD编程入门基础，包括： Spark、RDD简介 RDD API简介打包与spark-submit 性能分析与调优基础 ppt链接：https://yq.

1624 0 1

社区小助手

分布式计算 API Apache

博文

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

内容提要：本次讲座主要涵盖Spark RDD编程入门基础，包括：1. Spark、RDD简介 2. RDD API简介 3. 打包与spark-submit 4. 性能分析与调优基础主讲人：王道远(健身) 阿里巴巴计算平台EMR技术专家直播时间：2018.

1559 1 1

社区小助手

机器学习/深度学习分布式计算 Apache

博文

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

主讲人：江宇(燕回) 阿里巴巴计算平台EMR技术专家直播时间：2018.12.06 19:00 - 20:00 内容提要：本次讲座主要面对的是机器学习的入门者，以及想要使用Spark来进行机器学习的用户。

1935 0 0

社区小助手

机器学习/深度学习分布式计算 Apache

博文

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

Apache Spark系列技术直播--第四讲机器学习介绍与Spark MLlib实践直播时间：2018.12.06 19:00 - 20:00 主讲人：江宇(燕回) 阿里巴巴计算平台EMR技术专家内容提要：本次讲座主要面对的是机器学习的入门者，以及想要使用Spark来进行机器学习的用户。

1987 0 0

开源大数据EMR

Web App开发分布式计算测试技术

博文

【译】Apache Spark 2.4 内置数据源 Apache Avro

原文链接: Apache Avro as a Built-in Data Source in Apache Spark 2.4 Apache Avro 是一种流行的数据序列化格式。它广泛使用于 Apache Spark 和 Apache Hadoop 生态中，尤其适用于基于 Kafka 的数据流场景。

3349 0 0

社区小助手

分布式计算 Spark 流计算

博文

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

本期分享主题：From Spark Streaming to Structured Streaming 视频地址：https://admin-yq.aliyun.com/admin/op/OssUpload PPT地址：https://yq.

1878 0 0

社区小助手

分布式计算 Apache Spark

博文

Apache Spark中国社群有奖投稿通道启动啦！

感谢对 Apache Spark 中国社区的关注和支持！如果您有意为 Apache Spark 中国社区投稿请关注如下的内容。投稿内容要求：内容要求是 Apache Spark 相关的技术内容，可以是对 Apache Spark 的分析，也可以是 Apache Spark 的实践。

1178 0 0

开源大数据EMR

SQL 分布式计算 Apache

博文

Apache Spark 系列技术直播 - Spark SQL进阶与实战

Spark SQL进阶与实战 Spark相关组件介绍 Spark及其依赖组件 Hive Metastore介绍 Spark Thrift Server介绍表与ETL Spark表基本概念 Spark建表最佳实践 Spark ETL最佳实践动态分区表示例分析 Spark SQL查询最佳实践 Sp.

3409 0 2

开源大数据EMR

SQL 分布式计算 Scala

博文

[转载] 是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了，我感觉整体复杂度是 spark streaming 的 5 倍以上，现在 spark 官方主推 structed streaming， spark streaming 维护的也不积极了，我们基于 spark 来构建大数据计算任务，重心也要...

2633 0 1

开源大数据EMR

消息中间件分布式计算 Kafka

博文

[转载] Spark Structed Streaming执行过程

在Struct Streaming中增加了支持sql处理流数据，在sql包中单独处理，其中StreamExecution是下面提到两处流处理的基类，这个流查询在数据源有新数据到达时会生成一个QueryExecution来执行并将结果输出到指定的Sink（处理后数据存放地）中。

2551 0 0

开源大数据EMR

存储分布式计算流计算

博文

[转载] Spark Streaming 设计原理

最近两年流式计算又开始逐渐火了起来，说到流式计算主要分两种：continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming，正好结合论文介绍一下。

2296 0 0

社区小助手

博文

SparkSQL实践与优化

SQL实践：1.多数据源支持 2.多数据类型支持 3.多组件对接

2233 0 0

寒沙牧

SQL

博文

SparkSQL Catalyst解析

Catalyst Optimizer是SparkSQL的核心组件(查询优化器)，它负责将SQL语句转换成物理执行计划，Catalyst的优劣决定了SQL执行的性能。

4901 0 0

开源大数据EMR

SQL 分布式计算 Apache

博文

Apache Spark 系列技术直播 - Spark SQL 实践与优化

Apache Spark 系列技术直播 Spark SQL 实践与优化内容简介： SparkSQL介绍基本原理支持的DataSource介绍 Hue/Zepplin/Livy周边跟SparkSQL的集成使用等 SparkSQL优化 SparkSQL Catalyst优化 AE优化 Shuffle优化直播时间： 2018.

3409 0 0

李呈祥

SQL 分布式计算测试技术

博文