开源大数据平台 E-MapReduce-博文-第12页-阿里云开发者社区-阿里云

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

1912 0 0

寒沙牧

|

存储 SQL 分布式计算

|

博文

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

5578 0 0

开源大数据EMR

|

博文

钉钉群直播【E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台】

E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群，常见的使用场景和硬件选型指南。

1207 0 0

阿里云E-MapReduce团队

|

博文

钉钉群直播【E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台】

E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群，常见的使用场景和硬件选型指南。

1309 0 0

开源大数据EMR

|

分布式计算 Spark

|

博文

钉钉群直播【Koalas 介绍】

将每个关联结果都作为relational cache构建代价太大，并不现实，我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式，从而在加速用户查询的同时，减少创建和更新relational cache的代价。

81413 0 0

阿里云E-MapReduce团队

|

分布式计算 Spark

|

博文

钉钉群直播【Koalas 介绍】

Koalas是Spark社区推出的新项目，旨在为Spark提供与pandas完全兼容的接口，在降低pandas用户的学习和迁移成本的同时，充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。

3844 0 0

阿里云E-MapReduce团队

|

SQL 分布式计算 Apache

|

博文

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式，从而在加速用户查询的同时，减少创建和更新relational cache的代价。Record Preserve Join是支持这种优化的非常有效的方式。

6035 0 0

开源大数据EMR

|

数据库管理

|

博文

【译】Spark-Alchemy：HyperLogLog的使用介绍

原文链接: [https://databricks.com/blog/2019/05/08/advanced-analytics-with-apache-spark.html] 译者：辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。

2323 0 0

开源大数据EMR

|

机器学习/深度学习分布式计算自然语言处理

|

博文

【译】Spark NLP使用入门

原文链接: [https://www.kdnuggets.com/2019/06/spark-nlp-getting-started-with-worlds-most-widely-used-nlp-library-enterprise.html) 译者：辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。

4569 0 1

司麟嘟嘟嘟

|

SQL 分布式计算 Spark

|

博文

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

在Spark中，Join通常是代价比较大，尤其是shuffle join。Relational Cache将反范式化表（即关联后的大表）保存为relational cache，便可以使用cache重写执行计划，提高查询效率。

4818 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习 SQL 分布式计算

|

博文

使用Spark SQL进行流式机器学习计算（上）

什么是流式机器学习，机器学习模型获取途径，系统演示

3585 0 0

鱼跟猫

|

机器学习/深度学习 SQL 分布式计算

|

博文

使用Spark SQL进行流式机器学习计算（上）

今天来和大家简单说一下如何使用Spark SQL进行流式数据的机器学习处理

2842 0 0

开源大数据EMR

|

存储分布式计算 Apache

|

博文

Spark内置图像数据源初探

在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算。

2104 0 0

开源大数据EMR

|

SQL 分布式计算 Spark

|

博文

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景，以及EMR Spark基于Relational Cache加速Spark查询的技术方案，及如何通过基于Relational Cache的数据预计算和预组织，使用Spark支持亚秒级响应的交互式分析使用场景。

9511 0 0

阿里云E-MapReduce团队

|

SQL 分布式计算 Spark

|

博文

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景，以及EMR Spark基于Relational Cache加速Spark查询的技术方案，及如何通过基于Relational Cache的数据预计算和预组织，使用Spark支持亚秒级响应的交互式分析使用场景。

2683 0 0

阿里云E-MapReduce团队

|

存储分布式计算 Apache

|

博文

Spark Streaming 框架在 5G 中的应用

在发展 5G 和 IoT 场景的准备阶段，爱立信研究了各种可扩展和灵活的流处理框架，以解决数据流水线问题以及提升整体性能。我们通过机器学习流数据进行自适应学习和智能决策从而实现各个领域的自动化。其中使用机器学习算法从流数据中逐步学习模型和获取信息是一个巨大的挑战。

2284 0 0

开源大数据EMR

|

博文

【译】Spark Streaming 框架在 5G 中的应用

原文链接: Applying the Spark Streaming framework to 5G 我们已经很长时间没有更新流处理框架的相关博客（apache-storm-vs-spark-streaming 和 apache-storm-performance-tuners），这次想分享一下我们关于当前流处理引擎及其在 5G 和 IoT 场景适用性的一些观点。

1666 0 0

开源大数据EMR

|

机器学习/深度学习分布式计算 Spark

|

博文

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

直播主题：【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】时间：6月19日 19：30-20：30 分享嘉宾：江宇，阿里云EMR技术专家。

1792 0 0

开源大数据EMR

|

SQL 存储缓存

|

博文

EMR Spark Relational Cache的执行计划重写

作者：王道远，花名健身，阿里巴巴计算平台EMR技术专家。背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。

9551 0 1

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算 Spark

|

博文

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

mlflow为企业提供一套开源的机器学习端到端工具，同时，project hydrogen项目旨在将AI框架与Spark更好的结合。本次直播介绍mlflow的场景和使用方式，project hydrogen的进展以及我们如何通过project hydrogen提供的能力更好的将Spark与AI结合。

1974 0 0

阿里云E-MapReduce团队

|

SQL 消息中间件分布式计算

|

博文

通过Spark SQL实时归档SLS数据

流式计算和SQL 简要介绍Spark SQL流式开发语法实时归档SLS数据到HDFS

3329 0 0

鱼跟猫

|

SQL 消息中间件分布式计算

|

博文

通过Spark SQL实时归档SLS数据

我在前一篇文章介绍过基于Spark SQL实现对HDFS操作的实时监控报警。今天，我再举例说明一下如何使用Spark SQL进行流式应用的开发。

2851 0 1

健身不健身

|

SQL 存储缓存

|

博文

EMR Spark Relational Cache的执行计划重写

背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图，在用户提交SQL语句时对语句进行分析，并选出可用的预计算结果来加速查询。

3550 0 0

阿里云E-MapReduce团队

|

存储分布式计算对象存储

|

博文

Spark内置图像数据源初探

在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算.

2879 0 1

阿里云E-MapReduce团队

|

SQL 分布式计算 HIVE

|

博文

使用EMR Spark Relational Cache跨集群同步数据

Relational Cache是EMR Spark支持的一个重要特性，主要通过对数据进行预组织和预计算加速数据分析，提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度，Relational Cache还可以应用于其他很多场景，本文主要介绍如何使用Relational Cache跨集群同步数据表。

2117 0 0

阿里云E-MapReduce团队

|

分布式计算并行计算 TensorFlow

|

博文

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

11943 1 5

开源大数据EMR

|

SQL 分布式计算 HIVE

|

博文

使用EMR Spark Relational Cache跨集群同步数据

Relational Cache是EMR Spark支持的一个重要特性，主要通过对数据进行预组织和预计算加速数据分析，提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度，Relational Cache还可以应用于其他很多场景，本文主要介绍如何使用Relational Cache跨集群同步数据表。

2089 0 1

xy_xin

|

分布式计算并行计算 TensorFlow

|

博文

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

4606 0 1

阿里云E-MapReduce团队

|

博文

钉钉群直播【Structured Steaming的进阶与实践】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用，作为实时计算的首选。本次分享structured steaming的使用，包含spark 2.4 structured streaming的新特性，API原理和使用场景等的介绍。

1244 0 1

开源大数据EMR

|

博文

钉钉群直播【Structured Steaming的进阶与实践】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用，作为实时计算的首选。本次分享structured steaming的使用，包含spark 2.4 structured streaming的新特性，API原理和使用场景等的介绍。

1833 0 0

开源大数据EMR

|

存储分布式计算 Apache

|

博文

使用Apache Arrow助力PySpark数据处理

Apache Arrow从Spark 2.3版本开始被引入，通过列式存储，zero copy等技术，JVM 与Python 之间的数据传输效率得到了大量的提升。本文主要介绍一下Apache Arrow以及Spark中的使用方法。

4149 0 0

阿里云E-MapReduce团队

|

分布式计算大数据 Linux

|

博文

钉钉群直播【Migration to Apache Spark】

Spark因其统一引擎、性能、易用性等特点备受青睐，将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL)，很多大公司也正在实践。

2104 0 0

开源大数据EMR

|

分布式计算大数据应用服务中间件

|

博文

钉钉群直播【Migration to Apache Spark】

Spark因其统一引擎、性能、易用性等特点备受青睐，将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL)，很多大公司也正在实践。本次分享将围绕Hive迁移到SparkSQL进行展开，内容包括介绍大公司迁移流程、遇到的问题以及对Spark做的一些反馈优化。

1671 0 0

阿里云E-MapReduce团队

|

分布式计算机器人 Linux

|

博文

Apache Spark中国技术交流群升级到企业群啦！！！！！！

普通群容量已满足不了Spark群众日益增长的热情，因此我们做了一个重要的决定，将全部群成员转移到企业群

2084 0 2

开源大数据EMR

|

分布式计算机器人 Apache

|

博文

Apache Spark中国技术交流群升级到企业群啦！！！！！！

普通群容量已满足不了Spark群众日益增长的热情，因此我们做了一个重要的决定，将全部群成员转移到企业群

2444 0 3

开源大数据EMR

|

分布式计算监控 Spark

|

博文

TalkingData的Spark On Kubernetes实践

本文整理自talkingdata云架构师徐蓓的分享，介绍了Spark On Kubernetes在TalkingData的实践。

3077 0 0

开源大数据EMR

|

分布式计算大数据测试技术

|

博文

微软发布 .Net for Apache Spark ：用什么语言开发大数据都可以

Apache Spark 是当今最流行的开源大数据处理框架。Spark 用于进行分布式、大规模的数据处理，提供了更高级的编程接口、更高的性能。除此之外，Spark 不仅能进行常规的批处理计算，还提供了流式计算支持。

2238 0 0

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能，通过Relational Cache，用户可以提前将任意关系型数据（Table/View/Dataset）cache到任意Spark支持的DataSource中，并支持灵活的cache数据组织方式，基于此，Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。

1917 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习人工智能分布式计算

|

博文

Spark + AI summit 2019北美技术峰会华丽落幕

本次SAIC含盖了数据工程与数据科学的内容，包括AI产品化的最佳实践案例分享：超大数据规模下，利用流数据处理确保训练数据更新的时效性，完成数据质量监控，测试以及数据模型服务。也有对流行的软件框架如TensorFlow，SciKit-Learn，Keras，PyTorch，DeepLearning4J，BigDL以及Deep Learning Pipelines等，分别进行深入的主题分享探讨。

1392 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算大数据

|

博文

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

数据中台应该是什么样子?如何基于MLSQL完成数据中台的构建? MLSQL是如何基于Spark来完成这些扩展的? Databricks公司新开元项目Delta对于数据和机器学习的意义何在？

1317 0 0

开源大数据EMR

|

机器学习/深度学习分布式计算大数据

|

博文

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

数据中台应该是什么样子?如何基于MLSQL完成数据中台的构建? MLSQL是如何基于Spark来完成这些扩展的? Databricks公司新开元项目Delta对于数据和机器学习的意义何在？

1313 0 0

开源大数据EMR

|

SQL 存储分布式计算

|

博文

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能，通过Relational Cache，用户可以提前将任意关系型数据（Table/View/Dataset）cache到任意Spark支持的DataSource中，并支持灵活的cache数据组织方式，基于此，Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。

3660 0 0

开源大数据EMR

|

存储机器学习/深度学习大数据

|

博文

什么是数据湖？有什么用？

在本文中，将介绍数据湖的一些主要方面，帮助读者理解为什么它对企业非常重要。

5409 0 1

开源大数据EMR

|

消息中间件分布式计算监控

|

博文

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

得益于 balanced Kafka reader，从 Kafka 消费的 Spark 应用程序现在可以横向扩展，并具有任意并行度。平衡分区算法很简单，并且已被证明非常有效。由于这些改进，用于摄取日志记录事件的 Spark streaming 作业可以处理比以前多一个数量级的事件。

2061 0 1

阿里云E-MapReduce团队

|

机器学习/深度学习人工智能分布式计算

|

博文

Spark + AI 2019北美技术峰会华丽落幕

除了Spark + AI主题外，本次峰会，为开发者，数据科学家以及探寻最佳数据与人工智能工具来构架创新型产品的技术实践者们，提供了一站式交流的独特体验，超过了5000名来自世界各地的工程师，数据科学家，人工智能专家，研究学者以及商务人士，加入到了这3天的深度交流与学习中。

1494 0 0

阿里云E-MapReduce团队

|

大数据

|

博文

钉钉群直播【Delta Lake：一种新型的数据湖方案】

Delta Lake 是 Databricks 推出的一种新型的数据湖方案，解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开，如 Delta Lake 的适用场景、技术优势，Delta 的原理实现以及一些高级特性等，并就现有解决方案做横向对比。

5684 0 0

开源大数据EMR

|

大数据 Linux

|

博文

钉钉群直播【Delta Lake：一种新型的数据湖方案】

Delta Lake 是 Databricks 推出的一种新型的数据湖方案，解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开，如 Delta Lake 的适用场景、技术优势，Delta 的原理实现以及一些高级特性等，并就现有解决方案做横向对比。

1503 0 0

开源大数据EMR

|

分布式计算 Spark 容器

|

博文

Spark on Kubernetes原生支持浅析

概述 Kubernetes自推出以来，以其完善的集群配额、均衡、故障恢复能力，成为开源容器管理平台中的佼佼者。从设计思路上，Spark以开放Cluster Manager为理念，Kubernetes则以多语言、容器调度为卖点，二者的结合是顺理成章的。

5245 0 3

阿里云E-MapReduce团队

|

大数据 Apache Python

|

博文

Koalas：让 pandas 轻松切换 Apache Spark

4 月 24 日，Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas，它增强了 PySpark 的 DataFrame API，使其与 pandas 兼容。本文转自：https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

2953 0 0

开源大数据EMR

|

分布式计算大数据 Apache

|

博文

Koalas：让 pandas 轻松切换 Apache Spark

4 月 24 日，Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas，它增强了 PySpark 的 DataFrame API，使其与 pandas 兼容。本文转自：https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

1907 0 0

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

EMR Spark Runtime Filter性能优化

EMR Spark Runtime Filter性能优化

钉钉群直播【E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台】

钉钉群直播【E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台】

钉钉群直播【Koalas 介绍】

钉钉群直播【Koalas 介绍】

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

【译】Spark-Alchemy：HyperLogLog的使用介绍

【译】Spark NLP使用入门

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

使用Spark SQL进行流式机器学习计算（上）

使用Spark SQL进行流式机器学习计算（上）

Spark内置图像数据源初探

钉钉群直播【Spark Relational Cache 原理和实践】

钉钉群直播【Spark Relational Cache 原理和实践】

Spark Streaming 框架在 5G 中的应用

【译】Spark Streaming 框架在 5G 中的应用

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】

EMR Spark Relational Cache的执行计划重写

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】

通过Spark SQL实时归档SLS数据

通过Spark SQL实时归档SLS数据

EMR Spark Relational Cache的执行计划重写

Spark内置图像数据源初探

使用EMR Spark Relational Cache跨集群同步数据

漫谈分布式计算框架

使用EMR Spark Relational Cache跨集群同步数据

漫谈分布式计算框架

钉钉群直播【Structured Steaming的进阶与实践】

钉钉群直播【Structured Steaming的进阶与实践 】

使用Apache Arrow助力PySpark数据处理

钉钉群直播【Migration to Apache Spark】

钉钉群直播【Migration to Apache Spark】

Apache Spark中国技术交流群升级到企业群啦！！！！！！

Apache Spark中国技术交流群升级到企业群啦！！！！！！

TalkingData的Spark On Kubernetes实践

微软发布 .Net for Apache Spark ：用什么语言开发大数据都可以

使用Relational Cache加速EMR Spark数据分析

Spark + AI summit 2019北美技术峰会华丽落幕

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

使用Relational Cache加速EMR Spark数据分析

什么是数据湖？有什么用？

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

Spark + AI 2019北美技术峰会华丽落幕

钉钉群直播【Delta Lake：一种新型的数据湖方案】

钉钉群直播【Delta Lake：一种新型的数据湖方案】

Spark on Kubernetes原生支持浅析

Koalas：让 pandas 轻松切换 Apache Spark

Koalas：让 pandas 轻松切换 Apache Spark

活跃用户

相关产品

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

钉钉群直播【Structured Steaming的进阶与实践】