开源大数据平台 E-MapReduce-最新-第28页-阿里云开发者社区-阿里云

开源大数据EMR

|

SQL 分布式计算 Apache

|

博文

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准，各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题，社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持，也会在后续的更新中吸收和支持这些优秀的设计建议。

1668 0 0

鱼跟猫

|

SQL Apache 流计算

|

博文

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准，各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题，社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持，也会在后续的更新中吸收和支持这些优秀的设计建议。

8682 0 0

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

【译】使用Spark SQL 运行大规模基因组工作流

将数据提取到Spark中是大多数大数据作业的第一步，但这并不是大数据旅途的终点。

9704 1 1

阿里云E-MapReduce团队

|

博文

7月10日直播【E-MapReduce产品探秘，扩展开源生态云上的能力】

E-MapReduce的产品能力介绍，通过EMR来构建高效的云上大数据平台，优化云上的使用成本，更快的计算效率。

1020 0 0

开源大数据EMR

|

博文

E-MapReduce产品探秘，扩展开源生态云上的能力

E-MapReduce的产品能力介绍，通过EMR来构建高效的云上大数据平台，优化云上的使用成本，更快的计算效率。

883 0 0

阿里云E-MapReduce团队

|

存储机器学习/深度学习 SQL

|

博文

数据湖正在成为新的数据仓库

新一代数据仓库实际上是数据湖，对那些用于构建和训练机器学习模型的清洗，整合和验证的数据进行管理。例如，去年秋天在Amazon re：Invent 大会上，亚马逊网络服务公布了AWS Lake Formation。

5313 0 0

开源大数据EMR

|

博文

使用Spark Streaming SQL基于时间窗口进行数据统计

使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理，同时Spark Streaming SQL提供的时间窗口函数可以将事件时间按照一定的时间区间对数据进行统计操作。本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例，介绍如何使用Spark Streaming SQL对事件时间进行操作。

3096 0 0

开源大数据EMR

|

博文

【译】使用Spark SQL 运行大规模基因组工作流

https://databricks.com/blog/2019/06/26/scaling-genomic-workflows-with-spark-sql-bgen-and-vcf-readers.html 使用Spark SQL 运行大规模基因组工作流在过去十年中，随着基因组测序价格下降，可用基因组数据的数量逐渐激增。

1585 0 0

开源大数据EMR

|

博文

【译】数据湖正在成为新的数据仓库

原文链接 https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html?upd=1561666042410 译者：诚历，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。

2325 0 0

light-rain

|

博文

使用Spark Streaming SQL基于时间窗口进行数据统计

流式计算一个很常见的场景是基于事件时间进行处理，常用于检测、监控、根据时间进行统计等系统中。使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理，本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例，介绍如何使用Spark Streaming SQL对事件时间进行操作。

8923 0 0

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

1927 0 0

寒沙牧

|

存储 SQL 分布式计算

|

博文

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

5596 0 0

开源大数据EMR

|

博文

钉钉群直播【E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台】

E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群，常见的使用场景和硬件选型指南。

1212 0 0

阿里云E-MapReduce团队

|

博文

钉钉群直播【E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台】

E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群，常见的使用场景和硬件选型指南。

1317 0 0

开源大数据EMR

|

分布式计算 Spark

|

博文

钉钉群直播【Koalas 介绍】

将每个关联结果都作为relational cache构建代价太大，并不现实，我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式，从而在加速用户查询的同时，减少创建和更新relational cache的代价。

81423 0 0

阿里云E-MapReduce团队

|

分布式计算 Spark

|

博文

钉钉群直播【Koalas 介绍】

Koalas是Spark社区推出的新项目，旨在为Spark提供与pandas完全兼容的接口，在降低pandas用户的学习和迁移成本的同时，充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。

3851 0 0

阿里云E-MapReduce团队

|

SQL 分布式计算 Apache

|

博文

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式，从而在加速用户查询的同时，减少创建和更新relational cache的代价。Record Preserve Join是支持这种优化的非常有效的方式。

6055 0 0

开源大数据EMR

|

数据库管理

|

博文

【译】Spark-Alchemy：HyperLogLog的使用介绍

原文链接: [https://databricks.com/blog/2019/05/08/advanced-analytics-with-apache-spark.html] 译者：辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。

2338 0 0

开源大数据EMR

|

机器学习/深度学习分布式计算自然语言处理

|

博文

【译】Spark NLP使用入门

原文链接: [https://www.kdnuggets.com/2019/06/spark-nlp-getting-started-with-worlds-most-widely-used-nlp-library-enterprise.html) 译者：辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。

4592 0 1

司麟嘟嘟嘟

|

SQL 分布式计算 Spark

|

博文

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

在Spark中，Join通常是代价比较大，尤其是shuffle join。Relational Cache将反范式化表（即关联后的大表）保存为relational cache，便可以使用cache重写执行计划，提高查询效率。

4831 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习 SQL 分布式计算

|

博文

使用Spark SQL进行流式机器学习计算（上）

什么是流式机器学习，机器学习模型获取途径，系统演示

3597 0 0

鱼跟猫

|

机器学习/深度学习 SQL 分布式计算

|

博文

使用Spark SQL进行流式机器学习计算（上）

今天来和大家简单说一下如何使用Spark SQL进行流式数据的机器学习处理

2859 0 0

开源大数据EMR

|

存储分布式计算 Apache

|

博文

Spark内置图像数据源初探

在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算。

2119 0 0

开源大数据EMR

|

SQL 分布式计算 Spark

|

博文

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景，以及EMR Spark基于Relational Cache加速Spark查询的技术方案，及如何通过基于Relational Cache的数据预计算和预组织，使用Spark支持亚秒级响应的交互式分析使用场景。

9549 0 0

阿里云E-MapReduce团队

|

SQL 分布式计算 Spark

|

博文

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景，以及EMR Spark基于Relational Cache加速Spark查询的技术方案，及如何通过基于Relational Cache的数据预计算和预组织，使用Spark支持亚秒级响应的交互式分析使用场景。

2693 0 0

阿里云E-MapReduce团队

|

存储分布式计算 Apache

|

博文

Spark Streaming 框架在 5G 中的应用

在发展 5G 和 IoT 场景的准备阶段，爱立信研究了各种可扩展和灵活的流处理框架，以解决数据流水线问题以及提升整体性能。我们通过机器学习流数据进行自适应学习和智能决策从而实现各个领域的自动化。其中使用机器学习算法从流数据中逐步学习模型和获取信息是一个巨大的挑战。

2298 0 0

开源大数据EMR

|

博文

【译】Spark Streaming 框架在 5G 中的应用

原文链接: Applying the Spark Streaming framework to 5G 我们已经很长时间没有更新流处理框架的相关博客（apache-storm-vs-spark-streaming 和 apache-storm-performance-tuners），这次想分享一下我们关于当前流处理引擎及其在 5G 和 IoT 场景适用性的一些观点。

1676 0 0

开源大数据EMR

|

机器学习/深度学习分布式计算 Spark

|

博文

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

直播主题：【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】时间：6月19日 19：30-20：30 分享嘉宾：江宇，阿里云EMR技术专家。

1802 0 0

开源大数据EMR

|

SQL 存储缓存

|

博文

EMR Spark Relational Cache的执行计划重写

作者：王道远，花名健身，阿里巴巴计算平台EMR技术专家。背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。

9571 0 1

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算 Spark

|

博文

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

mlflow为企业提供一套开源的机器学习端到端工具，同时，project hydrogen项目旨在将AI框架与Spark更好的结合。本次直播介绍mlflow的场景和使用方式，project hydrogen的进展以及我们如何通过project hydrogen提供的能力更好的将Spark与AI结合。

1988 0 0

阿里云E-MapReduce团队

|

SQL 消息中间件分布式计算

|

博文

通过Spark SQL实时归档SLS数据

流式计算和SQL 简要介绍Spark SQL流式开发语法实时归档SLS数据到HDFS

3341 0 0

鱼跟猫

|

SQL 消息中间件分布式计算

|

博文

通过Spark SQL实时归档SLS数据

我在前一篇文章介绍过基于Spark SQL实现对HDFS操作的实时监控报警。今天，我再举例说明一下如何使用Spark SQL进行流式应用的开发。

2868 0 1

健身不健身

|

SQL 存储缓存

|

博文

EMR Spark Relational Cache的执行计划重写

背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图，在用户提交SQL语句时对语句进行分析，并选出可用的预计算结果来加速查询。

3565 0 0

阿里云E-MapReduce团队

|

存储分布式计算对象存储

|

博文

Spark内置图像数据源初探

在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算.

2903 0 1

阿里云E-MapReduce团队

|

SQL 分布式计算 HIVE

|

博文

使用EMR Spark Relational Cache跨集群同步数据

Relational Cache是EMR Spark支持的一个重要特性，主要通过对数据进行预组织和预计算加速数据分析，提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度，Relational Cache还可以应用于其他很多场景，本文主要介绍如何使用Relational Cache跨集群同步数据表。

2125 0 0

阿里云E-MapReduce团队

|

分布式计算并行计算 TensorFlow

|

博文

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

11967 1 5

开源大数据EMR

|

SQL 分布式计算 HIVE

|

博文

使用EMR Spark Relational Cache跨集群同步数据

Relational Cache是EMR Spark支持的一个重要特性，主要通过对数据进行预组织和预计算加速数据分析，提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度，Relational Cache还可以应用于其他很多场景，本文主要介绍如何使用Relational Cache跨集群同步数据表。

2098 0 1

xy_xin

|

分布式计算并行计算 TensorFlow

|

博文

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

4619 0 1

阿里云E-MapReduce团队

|

博文

钉钉群直播【Structured Steaming的进阶与实践】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用，作为实时计算的首选。本次分享structured steaming的使用，包含spark 2.4 structured streaming的新特性，API原理和使用场景等的介绍。

1253 0 1

开源大数据EMR

|

博文

钉钉群直播【Structured Steaming的进阶与实践】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用，作为实时计算的首选。本次分享structured steaming的使用，包含spark 2.4 structured streaming的新特性，API原理和使用场景等的介绍。

1842 0 0

开源大数据EMR

|

存储分布式计算 Apache

|

博文

使用Apache Arrow助力PySpark数据处理

Apache Arrow从Spark 2.3版本开始被引入，通过列式存储，zero copy等技术，JVM 与Python 之间的数据传输效率得到了大量的提升。本文主要介绍一下Apache Arrow以及Spark中的使用方法。

4165 0 0

阿里云E-MapReduce团队

|

分布式计算大数据 Linux

|

博文

钉钉群直播【Migration to Apache Spark】

Spark因其统一引擎、性能、易用性等特点备受青睐，将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL)，很多大公司也正在实践。

2110 0 0

开源大数据EMR

|

分布式计算大数据应用服务中间件

|

博文

钉钉群直播【Migration to Apache Spark】

Spark因其统一引擎、性能、易用性等特点备受青睐，将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL)，很多大公司也正在实践。本次分享将围绕Hive迁移到SparkSQL进行展开，内容包括介绍大公司迁移流程、遇到的问题以及对Spark做的一些反馈优化。

1679 0 0

阿里云E-MapReduce团队

|

分布式计算机器人 Linux

|

博文

Apache Spark中国技术交流群升级到企业群啦！！！！！！

普通群容量已满足不了Spark群众日益增长的热情，因此我们做了一个重要的决定，将全部群成员转移到企业群

2101 0 2

开源大数据EMR

|

分布式计算机器人 Apache

|

博文

Apache Spark中国技术交流群升级到企业群啦！！！！！！

普通群容量已满足不了Spark群众日益增长的热情，因此我们做了一个重要的决定，将全部群成员转移到企业群

2462 0 3

开源大数据EMR

|

分布式计算监控 Spark

|

博文

TalkingData的Spark On Kubernetes实践

本文整理自talkingdata云架构师徐蓓的分享，介绍了Spark On Kubernetes在TalkingData的实践。

3094 0 0

开源大数据EMR

|

分布式计算大数据测试技术

|

博文

微软发布 .Net for Apache Spark ：用什么语言开发大数据都可以

Apache Spark 是当今最流行的开源大数据处理框架。Spark 用于进行分布式、大规模的数据处理，提供了更高级的编程接口、更高的性能。除此之外，Spark 不仅能进行常规的批处理计算，还提供了流式计算支持。

2265 0 0

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能，通过Relational Cache，用户可以提前将任意关系型数据（Table/View/Dataset）cache到任意Spark支持的DataSource中，并支持灵活的cache数据组织方式，基于此，Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。

1935 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习人工智能分布式计算

|

博文

Spark + AI summit 2019北美技术峰会华丽落幕

本次SAIC含盖了数据工程与数据科学的内容，包括AI产品化的最佳实践案例分享：超大数据规模下，利用流数据处理确保训练数据更新的时效性，完成数据质量监控，测试以及数据模型服务。也有对流行的软件框架如TensorFlow，SciKit-Learn，Keras，PyTorch，DeepLearning4J，BigDL以及Deep Learning Pipelines等，分别进行深入的主题分享探讨。

1408 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算大数据

|

博文

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

数据中台应该是什么样子?如何基于MLSQL完成数据中台的构建? MLSQL是如何基于Spark来完成这些扩展的? Databricks公司新开元项目Delta对于数据和机器学习的意义何在？

1327 0 0

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

【译】使用Spark SQL 运行大规模基因组工作流

7月10日直播【E-MapReduce产品探秘，扩展开源生态云上的能力】

E-MapReduce产品探秘，扩展开源生态云上的能力

数据湖正在成为新的数据仓库

使用Spark Streaming SQL基于时间窗口进行数据统计

【译】使用Spark SQL 运行大规模基因组工作流

【译】数据湖正在成为新的数据仓库

使用Spark Streaming SQL基于时间窗口进行数据统计

EMR Spark Runtime Filter性能优化

EMR Spark Runtime Filter性能优化

钉钉群直播【E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台】

钉钉群直播【E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台】

钉钉群直播【Koalas 介绍】

钉钉群直播【Koalas 介绍】

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

【译】Spark-Alchemy：HyperLogLog的使用介绍

【译】Spark NLP使用入门

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

使用Spark SQL进行流式机器学习计算（上）

使用Spark SQL进行流式机器学习计算（上）

Spark内置图像数据源初探

钉钉群直播【Spark Relational Cache 原理和实践】

钉钉群直播【Spark Relational Cache 原理和实践】

Spark Streaming 框架在 5G 中的应用

【译】Spark Streaming 框架在 5G 中的应用

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】

EMR Spark Relational Cache的执行计划重写

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】

通过Spark SQL实时归档SLS数据

通过Spark SQL实时归档SLS数据

EMR Spark Relational Cache的执行计划重写

Spark内置图像数据源初探

使用EMR Spark Relational Cache跨集群同步数据

漫谈分布式计算框架

使用EMR Spark Relational Cache跨集群同步数据

漫谈分布式计算框架

钉钉群直播【Structured Steaming的进阶与实践】

钉钉群直播【Structured Steaming的进阶与实践 】

使用Apache Arrow助力PySpark数据处理

钉钉群直播【Migration to Apache Spark】

钉钉群直播【Migration to Apache Spark】

Apache Spark中国技术交流群升级到企业群啦！！！！！！

Apache Spark中国技术交流群升级到企业群啦！！！！！！

TalkingData的Spark On Kubernetes实践

微软发布 .Net for Apache Spark ：用什么语言开发大数据都可以

使用Relational Cache加速EMR Spark数据分析

Spark + AI summit 2019北美技术峰会华丽落幕

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

活跃用户

相关产品

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

钉钉群直播【Structured Steaming的进阶与实践】