开源大数据平台 E-MapReduce-博文-第10页-阿里云开发者社区-阿里云

开源大数据EMR

|

消息中间件 JSON 分布式计算

|

博文

通过Kafka Connect进行数据迁移

在流式数据处理过程中，E-MapReduce经常需要在Kafka与其他系统间进行数据同步或者在Kafka集群间进行数据迁移。本节向您介绍如何在E-MapReduce上通过Kafka Connect快速的实现Kafka集群间的数据同步或者数据迁移。

3143 0 0

开源大数据EMR

|

SQL 分布式计算负载均衡

|

博文

Hive性能优化（全面）

Hadoop的计算框架特性下的HIve有效的优化手段

4942 0 0

开源大数据EMR

|

SQL 人工智能分布式计算

|

博文

Spark 数据倾斜及其解决方案

本文从数据倾斜的危害、现象、原因等方面，由浅入深阐述Spark数据倾斜及其解决方案。

9156 0 0

开源大数据EMR

|

消息中间件分布式计算数据可视化

|

博文

通过Spark Streaming作业处理Kafka数据

如何使用阿里云E-MapReduce部署Hadoop集群和Kafka集群，并运行Spark Streaming作业消费Kafka数据。

4827 0 0

开源大数据EMR

|

SQL 数据采集缓存

|

博文

实践Hadoop MapReduce 任务的性能翻倍之路

eBay每天产生PB量级的CAL日志，其数据量每天都在增加。对于日益增长的数据量，Hadoop MapReduce job的优化将会大大节省计算资源。本文将分享eBay团队如何对这些Hadoop job进行优化，希望为开发者带来启发，解决Hadoop MapReduce（MR）job实践中存在的问题。

3313 0 0

开源大数据EMR

|

SQL 分布式计算数据建模

|

博文

【译】Apache Spark 数据建模之时间维度（二）

Data Modeling in Apache Spark - Part 2 : Working With Multiple Dates http://blog.madhukaraphatak.com/data-modeling-spark-part-2/

1425 0 0

开源大数据EMR

|

SQL 分布式计算数据挖掘

|

博文

【译】Apache Spark 数据建模之时间维度（一）

Data Modeling in Apache Spark - Part 1 : Date Dimension

1418 0 0

开源大数据EMR

|

SQL 机器学习/深度学习缓存

|

博文

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Spark 可以可靠地 shuffle 并排序 90 TB 以上的中间数据，并在一个作业中运行 250,000个 tasks。与基于 Hive 计相比，产生了显著的性能改进（ CPU性能提升、节省了资源的使用，降低延迟）。

2771 0 0

开源大数据EMR

|

机器学习/深度学习分布式计算资源调度

|

博文

Spark整合Ray思路漫谈

3719 0 0

开源大数据EMR

|

SQL 分布式计算 Java

|

博文

Delta Lake 0.5.0 正式发布，支持包括 Hive/Presto 等多种查询引擎

Delta Lake 0.5.0 于2019年12月13日正式发布，这个版本支持多种查询引擎查询 Delta Lake 的数据，比如常见的 Hive、Presto 查询引擎。并发操作得到改进。

2485 0 0

抚月

|

机器学习/深度学习存储分布式计算

|

博文

【译】如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈

如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈

4541 0 0

抚月

|

SQL 分布式计算 Java

|

博文

【译】深入分析Spark UDF的性能

这篇博客会阐述一份关于Apache Spark的在Scala UDF、 PySpark UDF 和PySpark Pandas UDF之间的性能评测报告。

3798 0 1

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

Tablestore结合Spark的流批一体SQL实战

本文将通过结合Tablestore和Spark的流批一体存储和计算，来自建电商大屏完成电商数据的分析和可视化，

2953 0 0

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

12月11日Spark社区直播【实时数仓建设以及典型场景应用】

本次分享会介绍实时数仓的思路以及一些实践，包括SparkStreaming SQL引擎，以及对Delta/Kudu/Druid/阿里云多种存储组件的深度整合；同时会在这个基础上介绍一些典型案例应用

1562 0 0

阿里云E-MapReduce团队

|

分布式计算 Spark Apache

|

博文

12月5日Spark社区直播【是时候改变你数仓的增量同步方案了】

本分享会先介绍传统数据增量同步方案，之后对比新方案（完全基于Spark无需额外组件），介绍新方案如何结合最新的数据湖(delta lake)实现，同时引入spark-binlog，极大的简化了数据增量的门槛和架构。如果时间允许，我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。

1342 0 0

云栖社区直播

|

数据格式 JSON 流计算

|

博文

Delta元数据解析

本文介绍Delta的元数据管理相关内容，包括文件夹结构，元数据类型以及元数据产生流程等

2512 0 0

开源大数据EMR

|

NoSQL 分布式计算 Spark

|

博文

Tablestore+Delta Lake(快速开始)

本文介绍如何在E-MapReduce中通过Tablestore Spark Streaming Source将TableStore中的数据实时导入到Delta Lake中。

3633 0 1

阿里云E-MapReduce团队

|

分布式计算大数据 Spark

|

博文

阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎

11月16日的大数据+AI沙龙上海站取得圆满成功！ EMR 团队在国内运营最大的 Spark 社区，为了更好地传播和分享业界最新技术和最佳实践，现在联合开源社区同行，打造一个纯粹的技术交流线下沙龙《大数据 + AI》，定期为大家做公益分享。本次分享，揭秘TPC-DS 榜单第一名背后的强大引擎，探索Pyboot如何打通大数据生态，一同学习业内最新的存储方案和机器学习平台。

6886 0 0

开源大数据EMR

|

分布式计算大数据 Spark

|

博文

阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎

11月16日的大数据+AI沙龙上海站取得圆满成功！ EMR 团队在国内运营最大的 Spark 社区，为了更好地传播和分享业界最新技术和最佳实践，现在联合开源社区同行，打造一个纯粹的技术交流线下沙龙《大数据 + AI》，定期为大家做公益分享。本次分享，揭秘TPC-DS 榜单第一名背后的强大引擎，探索Pyboot如何打通大数据生态，一同学习业内最新的存储方案和机器学习平台。

6990 0 0

开源大数据EMR

|

分布式计算 Spark NoSQL

|

博文

11月28日Spark社区直播【Tablestore结合Spark的云上流批一体大数据架构】

传统Lambda架构组件多运维复杂，如何使用一套存储和一套计算来实现流批架构充分享受技术红利？以Delta Lake为代表的新型数据湖方案越来越流行，传统的Lambda架构如何向数据湖架构进行扩展？以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。

4624 0 0

开源大数据EMR

|

分布式计算 Spark Java

|

博文

Spark Codegen浅析

Codegen是Spark Runtime优化性能的关键技术，核心在于动态生成java代码、即时compile和加载，把解释执行转化为编译执行。Spark Codegen分为Expression级别和WholeStage级别，分别针对表达式计算和全Stage计算做代码生成，都取得了数量级的性能提升。本文浅析Spark Codegen技术原理。

3689 0 0

bean_stalk

|

Java 分布式计算 Spark

|

博文

Spark Codegen浅析

Codegen是Spark Runtime优化性能的关键技术，核心在于动态生成java代码、即时compile和加载，把解释执行转化为编译执行。Spark Codegen分为Expression级别和WholeStage级别，分别针对表达式计算和全Stage计算做代码生成，都取得了数量级的性能提升。本文浅析Spark Codegen技术原理。

5186 0 0

阿里云E-MapReduce团队

|

分布式计算 Spark 容器

|

博文

Spark Operator浅析

Spark Operator浅析本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.

11514 81 82

开源大数据EMR

|

容器 Kubernetes 分布式计算

|

博文

11月14日Spark社区直播【 Spark on Kubernetes & YARN】

本次直播将讨论：以Kubernetes为代表的云原生技术越来越流行起来，spark是如何跑在Kubernetes之上来享受云原生技术的红利？Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别？以及Kubernetes 和YARN的差异点是什么。

7065 0 0

开源大数据EMR

|

分布式计算 Spark 容器

|

博文

11月14日Spark社区直播【 Spark on Kubernetes & YARN】

本次直播将讨论：以Kubernetes为代表的云原生技术越来越流行起来，spark是如何跑在Kubernetes之上来享受云原生技术的红利？ Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别？以及Kubernetes 和YARN的差异点是什么。

5056 0 0

阿里云E-MapReduce团队

|

分布式计算大数据 Spark

|

博文

阿里云大数据+AI技术沙龙上海站

EMR 团队在国内运营最大的 Spark 社区，为了更好地传播和分享业界最新技术和最佳实践，现在联合Intel及开源社区同行，打造一个纯粹的技术交流线下沙龙《大数据 + AI》，定期为大家做公益分享。首站上海开站，请猛戳链接报名！https://www.slidestalk.com/m/61

1835 0 0

开源大数据EMR

|

分布式计算大数据 Spark

|

博文

阿里云大数据+AI技术沙龙上海站

EMR 团队在国内运营最大的 Spark 社区，为了更好地传播和分享业界最新技术和最佳实践，现在联合Intel及开源社区同行，打造一个纯粹的技术交流线下沙龙《大数据 + AI》，定期为大家做公益分享。首站上海开站，请猛戳链接报名！https://www.slidestalk.com/m/61

1796 0 0

开源大数据EMR

|

分布式计算 Spark 存储

|

博文

EMR-Jindo是EMR推出的云原生 OLAP 引擎。凭借该引擎，EMR成为第一个云上TPC-DS成绩提交者。经过持续不断地内核优化，目前基于最新 EMR-Jindo 引擎的 TPC-DS 成绩又有了大幅提高，达到了3615071，成本降低到 0.76 CNY。在2019杭州云栖大会大数据技术专场，阿里云阿里巴巴计算平台事业部 EMR 技术专家辛庸向大家分享了如何基于开源体系如何打造云上数据分析平台E-MarReduce（EMR）、EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。

3618 0 0

开源大数据EMR

|

分布式计算 Spark 存储

|

博文

Spark Relational Cache实现亚秒级响应的交互式分析

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上，阿里巴巴技术专家王道远为大家分享了阿里云EMR的Spark Relational Cache实现亚秒级响应的交互式分析。

2965 0 0

开源大数据EMR

|

算法框架/工具 TensorFlow 分布式计算

|

博文

基于 Spark 和 TensorFlow 的机器学习实践

大数据以及计算能力的提升，使得AI技术有了突飞猛进的发展。在大数据和AI技术的热潮下，在2019杭州云栖大会机器学习技术专场，阿里云高级技术专家吴威和阿里云技术专家江宇向大家分享了EMR E-Learning平台和平台上新开发的核心特性TensorFlow on Spark。

5053 0 0

司麟嘟嘟嘟

|

SQL 存储分布式计算

|

博文

如何在Spark中实现Count Distinct重聚合

背景 Count Distinct是SQL查询中经常使用的聚合统计方式，用于计算非重复结果的数目。由于需要去除重复结果，Count Distinct的计算通常非常耗时。为了支持更快速的非重复结果统计Spark还基于Hyperloglog实现了Approximate Count Distinct，用于统计非重复结果的近似值，支持。

4236 0 0

开源大数据EMR

|

对象存储存储分布式计算

|

博文

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务，可以为不同的计算引擎提供不同的存储服务，可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场，阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

17340 58 58

开源大数据EMR

|

分布式计算 Spark Python

|

博文

开源生态的新发展：Apache Spark 3.0、Koala和Delta Lake

Hadoop开源生态Spark已经发展三年有余，今年迎来了Spark 3.0。在2019杭州云栖大会大数据&AI峰会上，Databricks研发总监李潇为大家分享了Spark 3.0版本的新特性，以及其在数据工程以及数据科学方面带来的新技术。

9212 0 0

开源大数据EMR

|

存储大数据分布式计算

|

博文

助力云上开源生态 - 阿里云开源大数据平台的发展

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上，阿里巴巴高级产品专家夏立为大家分享了阿里云EMR如何助力云上开源生态。

12287 0 0

阿里云E-MapReduce团队

|

博文

节日快乐！！！

“我们的未来该有多酷”

1000 0 2

开源大数据EMR

|

博文

节日快乐！！！

“我们的未来该有多酷”

889 0 1

开源大数据EMR

|

分布式计算大数据弹性计算

|

博文

E-MapReduce 4.0产品新特性

E-MapReduce是运行在阿里云平台上的一大数据处理的系统解决方案。在2019年10月，阿里巴巴将发布EMR4.0版本。本篇介绍EMR4.0的新特性，包括在EMR基础能力，技术栈，生态集成和数据迁移等方面的升级，EMR4.0为用户提供更高的计算性能和更低的产品价格，将技术的红利让给用户。

6751 0 1

开源大数据EMR

|

NoSQL 分布式计算 Spark

|

博文

5分钟迅速搭建云上Lambda大数据分析架构

主要介绍基于 Tablestore 的数据变更实时捕获订阅能力，实现云上Lambda 架构的轻量化实现数据的实时和离线处理。演示模拟了一个电商订单场景，通过流计算实现订单大屏的场景，做到海量订单实时注入的同时，进行10s的订单统计聚合以及交易金额统计并做实时的大屏幕展示

4354 0 0

开源大数据EMR

|

分布式计算 Spark SQL

|

博文

使用Spark Streaming SQL进行PV/UV统计

PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析，例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析，比如分析用户的网页点击行为，此时就需要对UV做统计。

3350 0 0

light-rain

|

NoSQL Redis SQL

|

博文

使用Spark Streaming SQL进行PV/UV统计

PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析，例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析，比如分析用户的网页点击行为，此时就需要对UV做统计。

7430 0 0

阿里云E-MapReduce团队

|

流计算分布式计算 Spark

|

博文

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

本次直播我们邀请了Tablestore存储服务技术专家朱晓然，为大家详细介绍如何基于Tablestore的CDC技术，将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。

976 0 0

开源大数据EMR

|

流计算分布式计算 Spark

|

博文

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

本次直播我们邀请了Tablestore存储服务技术专家朱晓然，为大家详细介绍如何基于Tablestore的CDC技术，将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。

1112 0 2

开源大数据EMR

|

分布式计算 Spark SQL

|

博文

【译】Delta Lake 0.4.0 新特性演示：使用 Python API 就地转换与处理 Delta Lake 表

本文以案例演示在最新的 Delta Lake 0.4.0 中，如何转换 Delta Lake 表，使用全新的 Python API 执行 upsert 与删除数据，用时间旅行 (time travel) 查询数据的旧版本，以及 vacuum 语句清理旧版本。

3172 0 0

开源大数据EMR

|

对象存储存储分布式计算

|

博文

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS 是云原生的文件系统，可以提供OSS 超大容量以及本地磁盘的性能

16367 0 1

阿里云E-MapReduce团队

|

分布式计算 Spark 大数据

|

博文

Apache Spark中国技术交流社区历次直播回顾（持续更新）

Apache Spark中国技术交流社区，由阿里巴巴开源大数据技术团队成立，持续输出spark相关技术直播、原创文章、精品翻译，钉钉群内千人交流学习，欢迎加入。钉钉入群链接 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jmHATP9Tk+okK7QZ5sw2oWSNLhkt2lCRvfHRdW7XhUQ=&_dt_no_comment=1&origin=11 更多视频和ppt资料请入群获得。

4630 0 0

健身不健身

|

缓存分布式计算云栖大会

|

博文

2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析

本文来自2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》

2856 0 0

开源大数据EMR

|

存储缓存分布式计算

|

博文

JindoFS概述：云原生的大数据计算存储分离方案

JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前，云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统，10 年来，HDFS 已经成为大数据生态的存储标准，但是我们也可以看到 HDFS 虽然不断优化，但是 JVM 的瓶颈也始终无法突破。

24305 3 5

鱼跟猫

|

SQL 分布式计算 Spark

|

博文

EMR上如何进行流式SQL调试

本文将简单介绍EMR提供的一个流式SQL调试工具。

2354 0 0

开源大数据EMR

|

流计算存储 Apache

|

博文

Apache Flink : Checkpoint 原理剖析与应用实践

本文将分享 Flink 中 Checkpoint 的应用实践，包括四个部分，分别是 Checkpoint 与 state 的关系、什么是 state、如何在 Flink 中使用 state 和 Checkpoint 的执行机制

7571 0 0

开源大数据EMR

|

云栖大会达摩院程序员

|

博文

太难了！我耗费心力终于规划出了一张云栖大会日程表

十年前，参加云栖大会还只是程序员的杭州朝圣之旅，而如今，它依然成了透视和分析云计算产业和窥见数字经济的窗口。一切你想看见的、期待看见的，甚至未曾预见的，都会在未来的三天中扑面而来。

2030 0 0

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

通过Kafka Connect进行数据迁移

Hive性能优化（全面）

Spark 数据倾斜及其解决方案

通过Spark Streaming作业处理Kafka数据

实践Hadoop MapReduce 任务的性能翻倍之路

【译】Apache Spark 数据建模之时间维度（二）

【译】Apache Spark 数据建模之时间维度（一）

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Spark整合Ray思路漫谈

Delta Lake 0.5.0 正式发布，支持包括 Hive/Presto 等多种查询引擎

【译】如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈

【译】深入分析Spark UDF的性能

Tablestore结合Spark的流批一体SQL实战

12月11日Spark社区直播【实时数仓建设以及典型场景应用】

12月5日Spark社区直播【是时候改变你数仓的增量同步方案了】

Delta元数据解析

Tablestore+Delta Lake(快速开始)

阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

11月28日Spark社区直播【Tablestore结合Spark的云上流批一体大数据架构 】

Spark Codegen浅析

Spark Codegen浅析

Spark Operator浅析

11月14日Spark社区直播【 Spark on Kubernetes & YARN】

11月14日Spark社区直播【 Spark on Kubernetes & YARN】

阿里云大数据+AI技术沙龙上海站

阿里云大数据+AI技术沙龙上海站

EMR 打造高效云原生数据分析引擎

Spark Relational Cache实现亚秒级响应的交互式分析

基于 Spark 和 TensorFlow 的机器学习实践

如何在Spark中实现Count Distinct重聚合

JindoFS: 云上大数据的高性能数据湖存储方案

开源生态的新发展：Apache Spark 3.0、Koala和Delta Lake

助力云上开源生态 - 阿里云开源大数据平台的发展

节日快乐！！！

节日快乐！！！

E-MapReduce 4.0产品新特性

5分钟迅速搭建云上Lambda大数据分析架构

使用Spark Streaming SQL进行PV/UV统计

使用Spark Streaming SQL进行PV/UV统计

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

【译】Delta Lake 0.4.0 新特性演示：使用 Python API 就地转换与处理 Delta Lake 表

JindoFS解析 - 云上大数据高性能数据湖存储方案

Apache Spark中国技术交流社区历次直播回顾（持续更新）

2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析

JindoFS概述：云原生的大数据计算存储分离方案

EMR上如何进行流式SQL调试

Apache Flink : Checkpoint 原理剖析与应用实践

太难了！我耗费心力终于规划出了一张云栖大会日程表

活跃用户

相关产品

阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎

阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎

11月28日Spark社区直播【Tablestore结合Spark的云上流批一体大数据架构】