开源大数据平台 E-MapReduce-博文-第12页-阿里云开发者社区-阿里云

开源大数据EMR

|

SQL 分布式计算 Spark

|

博文

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景，以及EMR Spark基于Relational Cache加速Spark查询的技术方案，及如何通过基于Relational Cache的数据预计算和预组织，使用Spark支持亚秒级响应的交互式分析使用场景。

9140 0 0

阿里云E-MapReduce团队

|

SQL 分布式计算 Spark

|

博文

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景，以及EMR Spark基于Relational Cache加速Spark查询的技术方案，及如何通过基于Relational Cache的数据预计算和预组织，使用Spark支持亚秒级响应的交互式分析使用场景。

2590 0 0

阿里云E-MapReduce团队

|

存储分布式计算 Apache

|

博文

Spark Streaming 框架在 5G 中的应用

在发展 5G 和 IoT 场景的准备阶段，爱立信研究了各种可扩展和灵活的流处理框架，以解决数据流水线问题以及提升整体性能。我们通过机器学习流数据进行自适应学习和智能决策从而实现各个领域的自动化。其中使用机器学习算法从流数据中逐步学习模型和获取信息是一个巨大的挑战。

2178 0 0

开源大数据EMR

|

博文

【译】Spark Streaming 框架在 5G 中的应用

原文链接: Applying the Spark Streaming framework to 5G 我们已经很长时间没有更新流处理框架的相关博客（apache-storm-vs-spark-streaming 和 apache-storm-performance-tuners），这次想分享一下我们关于当前流处理引擎及其在 5G 和 IoT 场景适用性的一些观点。

1586 0 0

开源大数据EMR

|

机器学习/深度学习分布式计算 Spark

|

博文

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

直播主题：【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】时间：6月19日 19：30-20：30 分享嘉宾：江宇，阿里云EMR技术专家。

1715 0 0

开源大数据EMR

|

SQL 存储缓存

|

博文

EMR Spark Relational Cache的执行计划重写

作者：王道远，花名健身，阿里巴巴计算平台EMR技术专家。背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。

9313 0 1

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算 Spark

|

博文

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

mlflow为企业提供一套开源的机器学习端到端工具，同时，project hydrogen项目旨在将AI框架与Spark更好的结合。本次直播介绍mlflow的场景和使用方式，project hydrogen的进展以及我们如何通过project hydrogen提供的能力更好的将Spark与AI结合。

1890 0 0

阿里云E-MapReduce团队

|

SQL 消息中间件分布式计算

|

博文

通过Spark SQL实时归档SLS数据

流式计算和SQL 简要介绍Spark SQL流式开发语法实时归档SLS数据到HDFS

3224 0 0

鱼跟猫

|

SQL 消息中间件分布式计算

|

博文

通过Spark SQL实时归档SLS数据

我在前一篇文章介绍过基于Spark SQL实现对HDFS操作的实时监控报警。今天，我再举例说明一下如何使用Spark SQL进行流式应用的开发。

2717 0 1

健身不健身

|

SQL 存储缓存

|

博文

EMR Spark Relational Cache的执行计划重写

背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图，在用户提交SQL语句时对语句进行分析，并选出可用的预计算结果来加速查询。

3439 0 0

阿里云E-MapReduce团队

|

存储分布式计算对象存储

|

博文

Spark内置图像数据源初探

在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算.

2723 0 1

阿里云E-MapReduce团队

|

SQL 分布式计算 HIVE

|

博文

使用EMR Spark Relational Cache跨集群同步数据

Relational Cache是EMR Spark支持的一个重要特性，主要通过对数据进行预组织和预计算加速数据分析，提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度，Relational Cache还可以应用于其他很多场景，本文主要介绍如何使用Relational Cache跨集群同步数据表。

2020 0 0

阿里云E-MapReduce团队

|

分布式计算并行计算 TensorFlow

|

博文

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

11366 1 5

开源大数据EMR

|

SQL 分布式计算 HIVE

|

博文

使用EMR Spark Relational Cache跨集群同步数据

Relational Cache是EMR Spark支持的一个重要特性，主要通过对数据进行预组织和预计算加速数据分析，提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度，Relational Cache还可以应用于其他很多场景，本文主要介绍如何使用Relational Cache跨集群同步数据表。

1969 0 1

xy_xin

|

分布式计算并行计算 TensorFlow

|

博文

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

4355 0 1

阿里云E-MapReduce团队

|

博文

钉钉群直播【Structured Steaming的进阶与实践】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用，作为实时计算的首选。本次分享structured steaming的使用，包含spark 2.4 structured streaming的新特性，API原理和使用场景等的介绍。

1156 0 1

开源大数据EMR

|

博文

钉钉群直播【Structured Steaming的进阶与实践】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用，作为实时计算的首选。本次分享structured steaming的使用，包含spark 2.4 structured streaming的新特性，API原理和使用场景等的介绍。

1742 0 0

开源大数据EMR

|

存储分布式计算 Apache

|

博文

使用Apache Arrow助力PySpark数据处理

Apache Arrow从Spark 2.3版本开始被引入，通过列式存储，zero copy等技术，JVM 与Python 之间的数据传输效率得到了大量的提升。本文主要介绍一下Apache Arrow以及Spark中的使用方法。

3918 0 0

阿里云E-MapReduce团队

|

分布式计算大数据 Linux

|

博文

钉钉群直播【Migration to Apache Spark】

Spark因其统一引擎、性能、易用性等特点备受青睐，将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL)，很多大公司也正在实践。

2027 0 0

开源大数据EMR

|

分布式计算大数据应用服务中间件

|

博文

钉钉群直播【Migration to Apache Spark】

Spark因其统一引擎、性能、易用性等特点备受青睐，将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL)，很多大公司也正在实践。本次分享将围绕Hive迁移到SparkSQL进行展开，内容包括介绍大公司迁移流程、遇到的问题以及对Spark做的一些反馈优化。

1602 0 0

阿里云E-MapReduce团队

|

分布式计算机器人 Linux

|

博文

Apache Spark中国技术交流群升级到企业群啦！！！！！！

普通群容量已满足不了Spark群众日益增长的热情，因此我们做了一个重要的决定，将全部群成员转移到企业群

1971 0 2

开源大数据EMR

|

分布式计算机器人 Apache

|

博文

Apache Spark中国技术交流群升级到企业群啦！！！！！！

普通群容量已满足不了Spark群众日益增长的热情，因此我们做了一个重要的决定，将全部群成员转移到企业群

2350 0 3

开源大数据EMR

|

分布式计算监控 Spark

|

博文

TalkingData的Spark On Kubernetes实践

本文整理自talkingdata云架构师徐蓓的分享，介绍了Spark On Kubernetes在TalkingData的实践。

2932 0 0

开源大数据EMR

|

分布式计算大数据测试技术

|

博文

微软发布 .Net for Apache Spark ：用什么语言开发大数据都可以

Apache Spark 是当今最流行的开源大数据处理框架。Spark 用于进行分布式、大规模的数据处理，提供了更高级的编程接口、更高的性能。除此之外，Spark 不仅能进行常规的批处理计算，还提供了流式计算支持。

2091 0 0

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能，通过Relational Cache，用户可以提前将任意关系型数据（Table/View/Dataset）cache到任意Spark支持的DataSource中，并支持灵活的cache数据组织方式，基于此，Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。

1790 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习人工智能分布式计算

|

博文

Spark + AI summit 2019北美技术峰会华丽落幕

本次SAIC含盖了数据工程与数据科学的内容，包括AI产品化的最佳实践案例分享：超大数据规模下，利用流数据处理确保训练数据更新的时效性，完成数据质量监控，测试以及数据模型服务。也有对流行的软件框架如TensorFlow，SciKit-Learn，Keras，PyTorch，DeepLearning4J，BigDL以及Deep Learning Pipelines等，分别进行深入的主题分享探讨。

1303 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算大数据

|

博文

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

数据中台应该是什么样子?如何基于MLSQL完成数据中台的构建? MLSQL是如何基于Spark来完成这些扩展的? Databricks公司新开元项目Delta对于数据和机器学习的意义何在？

1245 0 0

开源大数据EMR

|

机器学习/深度学习分布式计算大数据

|

博文

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

数据中台应该是什么样子?如何基于MLSQL完成数据中台的构建? MLSQL是如何基于Spark来完成这些扩展的? Databricks公司新开元项目Delta对于数据和机器学习的意义何在？

1223 0 0

开源大数据EMR

|

SQL 存储分布式计算

|

博文

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能，通过Relational Cache，用户可以提前将任意关系型数据（Table/View/Dataset）cache到任意Spark支持的DataSource中，并支持灵活的cache数据组织方式，基于此，Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。

3494 0 0

开源大数据EMR

|

存储机器学习/深度学习大数据

|

博文

什么是数据湖？有什么用？

在本文中，将介绍数据湖的一些主要方面，帮助读者理解为什么它对企业非常重要。

5321 0 1

开源大数据EMR

|

消息中间件分布式计算监控

|

博文

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

得益于 balanced Kafka reader，从 Kafka 消费的 Spark 应用程序现在可以横向扩展，并具有任意并行度。平衡分区算法很简单，并且已被证明非常有效。由于这些改进，用于摄取日志记录事件的 Spark streaming 作业可以处理比以前多一个数量级的事件。

1946 0 1

阿里云E-MapReduce团队

|

机器学习/深度学习人工智能分布式计算

|

博文

Spark + AI 2019北美技术峰会华丽落幕

除了Spark + AI主题外，本次峰会，为开发者，数据科学家以及探寻最佳数据与人工智能工具来构架创新型产品的技术实践者们，提供了一站式交流的独特体验，超过了5000名来自世界各地的工程师，数据科学家，人工智能专家，研究学者以及商务人士，加入到了这3天的深度交流与学习中。

1399 0 0

阿里云E-MapReduce团队

|

大数据

|

博文

钉钉群直播【Delta Lake：一种新型的数据湖方案】

Delta Lake 是 Databricks 推出的一种新型的数据湖方案，解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开，如 Delta Lake 的适用场景、技术优势，Delta 的原理实现以及一些高级特性等，并就现有解决方案做横向对比。

5600 0 0

开源大数据EMR

|

大数据 Linux

|

博文

钉钉群直播【Delta Lake：一种新型的数据湖方案】

Delta Lake 是 Databricks 推出的一种新型的数据湖方案，解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开，如 Delta Lake 的适用场景、技术优势，Delta 的原理实现以及一些高级特性等，并就现有解决方案做横向对比。

1419 0 0

开源大数据EMR

|

分布式计算 Spark 容器

|

博文

Spark on Kubernetes原生支持浅析

概述 Kubernetes自推出以来，以其完善的集群配额、均衡、故障恢复能力，成为开源容器管理平台中的佼佼者。从设计思路上，Spark以开放Cluster Manager为理念，Kubernetes则以多语言、容器调度为卖点，二者的结合是顺理成章的。

4906 0 3

阿里云E-MapReduce团队

|

大数据 Apache Python

|

博文

Koalas：让 pandas 轻松切换 Apache Spark

4 月 24 日，Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas，它增强了 PySpark 的 DataFrame API，使其与 pandas 兼容。本文转自：https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

2818 0 0

开源大数据EMR

|

分布式计算大数据 Apache

|

博文

Koalas：让 pandas 轻松切换 Apache Spark

4 月 24 日，Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas，它增强了 PySpark 的 DataFrame API，使其与 pandas 兼容。本文转自：https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

1773 0 0

开源大数据EMR

|

人工智能分布式计算 Linux

|

博文

钉钉群直播Spark + AI 北美峰会参会分享

Spark + AI 北美峰会 2019 盛况依然，这两天正如火如荼。大会的主题是 Build，Unify，Scale，对此如何理解？砖厂这次有哪些重磅消息和重要发布，并作如何解读？Spark 过去几年发展的基调和线索是什么，从这次峰会上又如何看出 Spark 在未来几年的发展端倪？阿里巴巴计算平台.

1405 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算安全

|

博文

钉钉群直播Spark + AI 北美峰会参会分享

Spark + AI 北美峰会 2019 盛况依然，这两天正如火如荼。大会的主题是 Build，Unify，Scale，对此如何理解？砖厂这次有哪些重磅消息和重要发布，并作如何解读？Spark 过去几年发展的基调和线索是什么，从这次峰会上又如何看出 Spark 在未来几年的发展端倪？阿里巴巴计算平台.

916 0 0

阿里云E-MapReduce团队

|

存储大数据 PHP

|

博文

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天，坊间传闻被证实，Databrics（俗称数砖，亦称砖厂）的杀手锏 Delta 产品特性作为 Delta Lake 项目开源！会前，笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流，谈到 Delta 时被告知会有相关重磅在大会上宣布，但却没想到是开源出去。

6564 0 1

开源大数据EMR

|

存储分布式计算大数据

|

博文

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天，坊间传闻被证实，Databrics（俗称数砖，亦称砖厂）的杀手锏 Delta 产品特性作为 Delta Lake 项目开源！会前，笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流，谈到 Delta 时被告知会有相关重磅在大会上宣布，但却没想到是开源出去。

9912 0 1

开源大数据EMR

|

机器学习/深度学习分布式计算 Java

|

博文

浅谈 Spark 的多语言支持（修订版）

Spark 设计上的优秀无容置疑，甫一出道便抢了 Hadoop 的 C 位，在开源大数据的黄金十年里一时风头无两，在人工智能时代的当下仍然能够与时俱进，不可谓不牛逼。架构和设计上的卓越，不遑多言，美中不足之处自然也有不少，比如调度模型跟 MapReduce 这种计算范式过于耦合，Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型，所幸在于对框架的改动不会伤经动骨。

1829 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算 Java

|

博文

Spark架构和设计上的优秀毋庸置疑，从一出道便抢了 Hadoop 的 C 位。在开源大数据的黄金十年一时风头无两，在当下人工智能时代仍然能够与时俱进，通天之处不遑多言，美中不足之处也有不少。小的方面，比如调度模型跟 MapReduce 这种计算范式过于耦合，Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型，所幸在于对框架的改动不会伤筋动骨；有些缺陷则不然，影响全局，调整起来绝非易事。

5078 0 0

开源大数据EMR

|

消息中间件大数据测试技术

|

博文

Apache Avro as a Built-in Data Source in Apache Spark 2.4

Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统，尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.

1480 0 0

鱼跟猫

|

SQL 分布式计算大数据

|

博文

基于Spark SQL实现对HDFS操作的实时监控报警

E-MapReduce计划从EMR-3.18.1版本开始提供Spark Streaming SQL的预览版功能。Spark Streaming SQL是在Spark Structured Streaming的基础上做了进一步封装，方便用户使用SQL语言进行Spark流式分析开发。

2737 0 0

开源大数据EMR

|

存储分布式计算对象存储

|

博文

Alluxio技术内幕：如何百倍加速云端元数据操作

本文转载自：https://zhuanlan.zhihu.com/p/49499385 我们在这篇文章介绍最新版本（1.8.1版本）的Alluxio如何通过使用指纹特性和底层存储批量操作加快Alluxio元数据操作。

2360 0 1

开源大数据EMR

|

存储机器学习/深度学习分布式计算

|

博文

如何从根源上解决 HDFS 小文件问题

我们知道，HDFS 被设计成存储大规模的数据集，我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据（比如文件由哪些块组成、这些块分别存储在哪些节点上）全部都是由 NameNode 节点维护，为了达到高效的访问， NameNode 在启动的时候会将这些元数据全部加载到内存中。

3219 0 0

开源大数据EMR

|

分布式计算大数据 Apache

|

博文

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合，在机器学习里面，因为计算迭代的时间可能会很长，开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。

10863 1 1

开源大数据EMR

|

存储缓存分布式计算

|

博文

Spark+Alluxio性能调优十大技巧

本文章转载于：https://zhuanlan.zhihu.com/p/54245707 由于统一访问对象存储（如S3）和HDFS数据的场景的出现和普及，Apache Spark结合Alluxio的大数据栈越来越受欢迎。

2046 0 0

xy_xin

|

SQL 大数据 Shell

|

博文

HIVE TopN shuffle 原理

TopN 问题是排序中的一个经典问题。对于一个长度为 m 的数组，取其最大的 n (n

2407 0 0

开源大数据平台 E-MapReduce

最新

博文

E-MapReduce

视频

免费试用

全部内容

问答

电子书

活动

学习

钉钉群直播【Spark Relational Cache 原理和实践】

钉钉群直播【Spark Relational Cache 原理和实践】

Spark Streaming 框架在 5G 中的应用

【译】Spark Streaming 框架在 5G 中的应用

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】

EMR Spark Relational Cache的执行计划重写

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】

通过Spark SQL实时归档SLS数据

通过Spark SQL实时归档SLS数据

EMR Spark Relational Cache的执行计划重写

Spark内置图像数据源初探

使用EMR Spark Relational Cache跨集群同步数据

漫谈分布式计算框架

使用EMR Spark Relational Cache跨集群同步数据

漫谈分布式计算框架

钉钉群直播【Structured Steaming的进阶与实践】

钉钉群直播【Structured Steaming的进阶与实践 】

使用Apache Arrow助力PySpark数据处理

钉钉群直播【Migration to Apache Spark】

钉钉群直播【Migration to Apache Spark】

Apache Spark中国技术交流群升级到企业群啦！！！！！！

Apache Spark中国技术交流群升级到企业群啦！！！！！！

TalkingData的Spark On Kubernetes实践

微软发布 .Net for Apache Spark ：用什么语言开发大数据都可以

使用Relational Cache加速EMR Spark数据分析

Spark + AI summit 2019北美技术峰会华丽落幕

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

使用Relational Cache加速EMR Spark数据分析

什么是数据湖？有什么用？

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

Spark + AI 2019北美技术峰会华丽落幕

钉钉群直播【Delta Lake：一种新型的数据湖方案】

钉钉群直播【Delta Lake：一种新型的数据湖方案】

Spark on Kubernetes原生支持浅析

Koalas：让 pandas 轻松切换 Apache Spark

Koalas：让 pandas 轻松切换 Apache Spark

钉钉群直播Spark + AI 北美峰会参会分享

钉钉群直播Spark + AI 北美峰会参会分享

从数砖开源 Delta Lake 说起

从数砖开源 Delta Lake 说起

浅谈 Spark 的多语言支持（修订版）

浅谈 Spark 的多语言支持

Apache Avro as a Built-in Data Source in Apache Spark 2.4

基于Spark SQL实现对HDFS操作的实时监控报警

Alluxio技术内幕：如何百倍加速云端元数据操作

如何从根源上解决 HDFS 小文件问题

Apache Spark 3.0 将内置支持 GPU 调度

Spark+Alluxio性能调优十大技巧

HIVE TopN shuffle 原理

活跃用户

相关产品

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

钉钉群直播【Structured Steaming的进阶与实践】