开源大数据平台 E-MapReduce-博文-第13页-阿里云开发者社区-阿里云

前言Spark是非常流行的大数据处理引擎，数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是Spark本身的设计更偏向使用静态的资源管理，虽然Spark也支持了类似Yarn等动态的资源管理器，但是这些资源管理并不是面向动态的云基础设施而设计的，在速度、成本、效率等领域缺乏解决方案。

13438 1 1

开源大数据EMR

存储缓存分布式计算

博文

基于Alluxio系统的Spark DataFrame高效存储管理技术

介绍越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理，提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中，从而将Spark streaming作业的平均性能提升了15倍，峰值甚至达到300倍左右。

12489 0 0

尼不要逗了

分布式计算大数据 Apache

博文

现代流式计算的基石：Google DataFlow

0. 引言今天这篇继续讲流式计算。毫无疑问，Apache Flink 和 Apache Spark （Structured Streaming）现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢？Streaming Systems 这本书在分析 Fli...

19328 60 60

尼不要逗了

分布式计算算法大数据

博文

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照（Distributed Snapshot）算法 Chandy-Lamport 算法，那么分布式快照算法可以用来解决什么问题呢？

24033 61 62

阿里云E-MapReduce团队

SQL 分布式计算监控

博文

Structured Streaming VS Flink

Flink是标准的实时处理引擎，而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的，不过现在Spark Streaming已经非常稳定基本都没有更新了，然后重点移到spark sql和structured Streaming了。

5712 0 0

阿里云E-MapReduce团队

SQL 分布式计算 Spark

博文

Adaptive Execution如何让Spark SQL更高效更好用？

本文转发自技术世界，原文链接　http://www.jasongj.com/spark/adaptive_execution/ 1 背景 Spark SQL / Catalyst 和 CBO 的优化，从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。

2020 0 0

寒沙牧

SQL HIVE

博文

使用Ranger对Hive数据进行脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking)，它对`select`的返回结果进行脱敏处理，对用户屏蔽敏感信息。

8869 0 0

社区小助手

机器学习/深度学习分布式计算大数据

博文

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

**直播时间**： 2019.01.10（周四） 19:00 - 20:00 **主讲人：** 黄凯——Intel大数据技术团队软件工程师。卫雨青——Microsoft C+AI 团队软件工程师。

1903 0 0

诚历

SQL 分布式计算安全

博文

SparkSQL ThriftServer 安全相关功能的现状分析

SparkSQL Thrift Server 是 Spark SQL基于 Apache Hive的 HiveServer2开发的，通过SparkSQL Thrift Server 可以使 Spark SQL支持 JDBC/ODBC 的连接方式，用户可以通过 JDBC and ODBC 协议，在Spark上执行 SQL。

3613 0 0

诚历

SQL 存储大数据

博文

大数据列式存储 Parquet 和 ORC 简介

随着大数据 Hadoop/Spark 开源生态的不断发展和成熟，TextFile、CSV这些文本格式存储效率低，查询速度慢，往往不能很好地满足大数据系统中存储和查询的需求，列式存储也在大数据社区逐渐兴起到成熟。

6095 0 0

社区小助手

存储分布式计算大数据

博文

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

主讲人：诚历（孙大鹏）阿里巴巴计算平台事业部EMR技术专家简介：Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎，这两者在实现上有什异同，哪个效率更好，哪个性能更优，本次分享将和您一起探索两大列式存储。

1789 0 1

寒沙牧

分布式计算资源调度 Spark

博文

Spark中的内存管理(一)

Spark应用经常遇到的问题很多都是内存问题，本文对Driver和Executor的内存管理机制进行了相关介绍。

4203 0 0

寒沙牧

SQL 分布式计算算法

博文

Spark中的资源调度

本文对Spark的资源调度的进行了介绍，涉及到4个维度的调度，包括SparkApplication/pool/TaskSetManager/Task。

7946 0 0

社区小助手

分布式计算 Apache Spark

博文

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.4 release and the upcoming releases and will be followed by a Q&A session.

1348 0 0

社区小助手

分布式计算 Apache Spark

博文

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark系列技术直播第六讲【 What's New in Apache Spark 2.4? 】 Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.

1324 0 1

社区小助手

分布式计算大数据 Apache

博文

Apache Spark Meetup China 第1期最全资料下载

活动时间：2018年12月16日13:30-17:00 活动地点：杭州市余杭区文一西路998号未来科技城海创园4幢801C 主办单位：阿里云、袋鼠云、云栖社区主题介绍：主题一、Spark优化实践-13：30 - 14：30阿里云E-MapReduce-王道远介绍阿里云EMR中Spark计算引擎所包含的一系列额外优化工作，包括SmartShuffle、file skip index等。

2391 0 0

shuxinxin

SQL 分布式计算 Spark

博文

【译】SQL Pivot介绍

本文介绍SQL Pivot以及如何使用该功能

2630 0 0

shuxinxin

机器学习/深度学习存储分布式计算

博文

【译】Apache spark 2.4:内置 Image Data Source的介绍

主要介绍Apache Spark 2.4版本内置Image Data Source数据源

1827 0 0

社区小助手

分布式计算 API Apache

博文

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】

主讲人：王道远(健身) 阿里巴巴计算平台EMR技术专家直播时间：2018.12.13（本周四）19:00 - 20:00 内容提要：本次讲座主要涵盖Spark RDD编程入门基础，包括： Spark、RDD简介 RDD API简介打包与spark-submit 性能分析与调优基础 ppt链接：https://yq.

1680 0 1

社区小助手

分布式计算 API Apache

博文

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

内容提要：本次讲座主要涵盖Spark RDD编程入门基础，包括：1. Spark、RDD简介 2. RDD API简介 3. 打包与spark-submit 4. 性能分析与调优基础主讲人：王道远(健身) 阿里巴巴计算平台EMR技术专家直播时间：2018.

1566 1 1

社区小助手

机器学习/深度学习分布式计算 Apache

博文

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

主讲人：江宇(燕回) 阿里巴巴计算平台EMR技术专家直播时间：2018.12.06 19:00 - 20:00 内容提要：本次讲座主要面对的是机器学习的入门者，以及想要使用Spark来进行机器学习的用户。

1972 0 0

社区小助手

机器学习/深度学习分布式计算 Apache

博文

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

Apache Spark系列技术直播--第四讲机器学习介绍与Spark MLlib实践直播时间：2018.12.06 19:00 - 20:00 主讲人：江宇(燕回) 阿里巴巴计算平台EMR技术专家内容提要：本次讲座主要面对的是机器学习的入门者，以及想要使用Spark来进行机器学习的用户。

2011 0 0

开源大数据EMR

Web App开发分布式计算测试技术

博文

【译】Apache Spark 2.4 内置数据源 Apache Avro

原文链接: Apache Avro as a Built-in Data Source in Apache Spark 2.4 Apache Avro 是一种流行的数据序列化格式。它广泛使用于 Apache Spark 和 Apache Hadoop 生态中，尤其适用于基于 Kafka 的数据流场景。

3422 0 0

社区小助手

分布式计算 Spark 流计算

博文

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

本期分享主题：From Spark Streaming to Structured Streaming 视频地址：https://admin-yq.aliyun.com/admin/op/OssUpload PPT地址：https://yq.

1886 0 0

社区小助手

分布式计算 Apache Spark

博文

Apache Spark中国社群有奖投稿通道启动啦！

感谢对 Apache Spark 中国社区的关注和支持！如果您有意为 Apache Spark 中国社区投稿请关注如下的内容。投稿内容要求：内容要求是 Apache Spark 相关的技术内容，可以是对 Apache Spark 的分析，也可以是 Apache Spark 的实践。

1193 0 0

开源大数据EMR

SQL 分布式计算 Apache

博文

Apache Spark 系列技术直播 - Spark SQL进阶与实战

Spark SQL进阶与实战 Spark相关组件介绍 Spark及其依赖组件 Hive Metastore介绍 Spark Thrift Server介绍表与ETL Spark表基本概念 Spark建表最佳实践 Spark ETL最佳实践动态分区表示例分析 Spark SQL查询最佳实践 Sp.

3419 0 2

开源大数据EMR

SQL 分布式计算 Scala

博文

[转载] 是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了，我感觉整体复杂度是 spark streaming 的 5 倍以上，现在 spark 官方主推 structed streaming， spark streaming 维护的也不积极了，我们基于 spark 来构建大数据计算任务，重心也要...

2670 0 1

开源大数据EMR

消息中间件分布式计算 Kafka

博文

[转载] Spark Structed Streaming执行过程

在Struct Streaming中增加了支持sql处理流数据，在sql包中单独处理，其中StreamExecution是下面提到两处流处理的基类，这个流查询在数据源有新数据到达时会生成一个QueryExecution来执行并将结果输出到指定的Sink（处理后数据存放地）中。

2566 0 0

开源大数据EMR

存储分布式计算流计算

博文

[转载] Spark Streaming 设计原理

最近两年流式计算又开始逐渐火了起来，说到流式计算主要分两种：continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming，正好结合论文介绍一下。

2320 0 0

社区小助手

博文

SparkSQL实践与优化

SQL实践：1.多数据源支持 2.多数据类型支持 3.多组件对接

2250 0 0

寒沙牧

SQL

博文

SparkSQL Catalyst解析

Catalyst Optimizer是SparkSQL的核心组件(查询优化器)，它负责将SQL语句转换成物理执行计划，Catalyst的优劣决定了SQL执行的性能。

4983 0 0

开源大数据EMR

SQL 分布式计算 Apache

博文

Apache Spark 系列技术直播 - Spark SQL 实践与优化

Apache Spark 系列技术直播 Spark SQL 实践与优化内容简介： SparkSQL介绍基本原理支持的DataSource介绍 Hue/Zepplin/Livy周边跟SparkSQL的集成使用等 SparkSQL优化 SparkSQL Catalyst优化 AE优化 Shuffle优化直播时间： 2018.

3435 0 0

李呈祥

SQL 分布式计算测试技术

博文

扩展Spark Catalyst，打造自定义的Spark SQL引擎

在Spark2.2版本中，引入了新的扩展点，使得用户可以在Spark session中自定义自己的parser，analyzer，optimizer以及physical planning stragegy rule。

4664 0 0

李呈祥

SQL Scala Python

博文

[译]介绍Spark2.4的用于处理复杂数据类型的新内置函数与高阶函数

Apache Spark2.4引入了29个新的内置函数用于处理复杂数据类型（比如，数组类型等），新的内置函数也包括高阶函数。在Spark2.4版本之前，有两种典型的方式处理复杂数据类型： 1. 将嵌套结构的数据转化为多行数据，然后使用函数处理，最后在组装成嵌套结构。

1943 0 1

开源大数据EMR

机器学习/深度学习人工智能分布式计算

博文

开源大数据周刊-第107期

1月14日，英特尔人工智能大会（AIDC 2018）在北京国贸酒店举行。这是英特尔第三次在中国举行人工智能大会，也是第一次专门面向开发者和技术社区。大会上，英特尔发布了Neural Compute Stick 2（神经计算棒二代），英特尔还展示了如何以底层计算能力赋能百度、腾讯、阿里、微软等合作伙伴，共同推进AI与物联网发展。

2408 0 0

知瑕

SQL 分布式计算 Java

博文