开源大数据EMR_个人页

开源大数据EMR

文章

262

问答

视频

个人介绍

暂无个人介绍

擅长的技术

Java
Python
前端开发
Linux
数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

2020年02月

02.14 14:36:24

发表了文章 2020-02-14 14:36:24

每年 150 亿美元花哪了？Netflix 的大规模 Kafka 实践

Netflix 在 2019 年花费了大约 150 亿美元来制作世界一流的原创内容。在如此高的投入之下，我们必须获得许多关键的业务见解，从而为所有 Netflix 内容的策划、预算和效益分析工作提供帮助
02.13 15:04:08

发表了文章 2020-02-13 15:04:08

深度学习技术在自动驾驶中的应用与挑战

深度学习技术经过近几年井喷式的发展，在很多领域都得到了广泛的应用。在自动驾驶系统中，深度学习技术也起到了至关重要的作用，同时也面临着非常多的挑战。我们一直在探索，在一个安全、稳定的自动驾驶产品中，深度学习技术应该有着怎样的作用边界，又如何能最好地发挥其优势。本次分享的主题为深度学习技术在自动驾驶中的应用与挑战，
02.13 14:47:28

发表了文章 2020-02-13 14:47:28

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目，Hudi（Hoodie）是 Uber 为了解决大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题，本文以中立的态度从高层次简单对比一下这两个数据湖产品的优缺点。
02.10 14:03:10

发表了文章 2020-02-10 14:03:10

面对业务增长，Uber是如何扩展HDFS文件系统的

Uber将基于Hadoop的批量和流式分析应用在了广泛的场景中，例如反作弊、机器学习和ETA计算等。随着过去几年的业务增长，Uber的数据容量和访问负载也呈现了指数级增长的趋势。同时保证系统扩展能力和高性能并不是一件容易的事情，本文将详细介绍，Uber是如何通过这些改进措施来保证存储系统的持续增长、稳定和可靠的。
02.06 16:48:43

发表了文章 2020-02-06 16:48:43

Python中的图像增强技术

图像增强是一种非常强大的技术，针对现有图像人为创建各种变化以扩展图像数据集，例如缩放现有图像、将现有图像旋转几度、剪切或裁剪图像等等。在本文中，我们将使用 imgaug 库探索 Python 中的图像增强技术。
02.05 15:37:37

发表了文章 2020-02-05 15:37:37

回顾《网易数据基础平台建设》

主要是从数据库内核到大数据平台底层技术开发，分享网易数据科学中心多年大数据建设经验。
02.05 15:33:54

发表了文章 2020-02-05 15:33:54

疫情当下，请把掌声送给闷声不说话的阿里巴巴

政府很重要，但政府本身并不创造财富，在经济活动中，企业是主角，企业家是翩翩起舞的角色。这一次，请把掌声送给闷声不说话的阿里，送给所有的中国企业家。
02.04 12:02:25

发表了文章 2020-02-04 12:02:25

回顾《网易数据基础平台建设》

主要是从数据库内核到大数据平台底层技术开发，分享网易数据科学中心多年大数据建设经验。
02.03 15:00:45

发表了文章 2020-02-03 15:00:45

SQL 查询的分布式执行与调度

OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起，逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案。

2020年01月

01.15 11:40:10

发表了文章 2020-01-15 11:40:10

10年后，阿里给千万开源人写了一封信

年末将至，阿里巴巴开源技术委员会负责人贾扬清写了一封信，想要和热爱开源的你说一声：谢谢。未来，我们希望与更多开源人一起，用技术普惠世界。
01.13 16:16:25

发表了文章 2020-01-13 16:16:25

F1 Query: Declarative Querying at Scale

2013 年的 F1 是基于 Spanner，主要提供 OLTP 服务，而新的 F1 则定位则是大一统：旨在处理 OLTP/OLAP/ETL 等多种不同的 workload。但是这篇新的 F1 论文对 OLTP 的讨论则是少之又少，据八卦是 Spanner 开始原生支持之前 F1 的部分功能，导致 F1 对 OLTP 的领地被吞并了。
01.13 13:48:02

发表了文章 2020-01-13 13:48:02

Apache Spark 将支持 Stage 级别的资源控制和调度

我们需要对不同 Stage 设置不同的资源。但是目前的 Spark 不支持这种细粒度的资源配置，导致我们不得不在作业启动的时候设置大量的资源，从而导致资源可能浪费，特别是在机器学习的场景下。
01.10 11:35:42

发表了文章 2020-01-10 11:35:42

零门槛构建弹性大数据云分析平台

从基础设施、运维管理、云生态等角度，详细了解下云托管的部分优势。
01.08 16:00:44

发表了文章 2020-01-08 16:00:44

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统，同时借助Hive进行ETL任务。客户在决策上云之后，会将自建Hadoop集群的数据迁移到阿里云E-MapReduce集群。
01.08 11:46:58

发表了文章 2020-01-08 11:46:58

spark过节监控告警系统实现

保证过年期间自己对自己的应用了如执掌，一般公司都会有轮值人员，对于我们这些搞平台和线上应用的，至少要有春节应急预案。今天浪尖主要是分享一下关于在yarn上的spark 任务我们应该做哪些监控，如何监控。
01.06 14:35:55

发表了文章 2020-01-06 14:35:55

1月9日社区直播【使用Apache SuperSet和EMR Spark打造交互式的数据探索平台】

本次分享主要介绍如何结合Apache SuperSet和EMR Spark，利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应，交互式的可视化数据探索。
01.02 16:21:16

发表了文章 2020-01-02 16:21:16

通过Kafka Connect进行数据迁移

在流式数据处理过程中，E-MapReduce经常需要在Kafka与其他系统间进行数据同步或者在Kafka集群间进行数据迁移。本节向您介绍如何在E-MapReduce上通过Kafka Connect快速的实现Kafka集群间的数据同步或者数据迁移。

2019年12月

12.30 12:04:38

发表了文章 2019-12-30 12:04:38

Hive性能优化（全面）

Hadoop的计算框架特性下的HIve有效的优化手段
12.30 11:15:46

发表了文章 2019-12-30 11:15:46

Spark 数据倾斜及其解决方案

本文从数据倾斜的危害、现象、原因等方面，由浅入深阐述Spark数据倾斜及其解决方案。
12.27 12:10:53

发表了文章 2019-12-27 12:10:53

通过Spark Streaming作业处理Kafka数据

如何使用阿里云E-MapReduce部署Hadoop集群和Kafka集群，并运行Spark Streaming作业消费Kafka数据。
12.26 14:10:20

发表了文章 2019-12-26 14:10:20

实践Hadoop MapReduce 任务的性能翻倍之路

eBay每天产生PB量级的CAL日志，其数据量每天都在增加。对于日益增长的数据量，Hadoop MapReduce job的优化将会大大节省计算资源。本文将分享eBay团队如何对这些Hadoop job进行优化，希望为开发者带来启发，解决Hadoop MapReduce（MR）job实践中存在的问题。
12.25 14:29:03

发表了文章 2019-12-25 14:29:03

Spark 小文件合并优化实践

此文是关于公司在 Delta Lake 上线之前对Spark任务写入数据产生碎片文件优化的一些实践。
12.22 23:05:10

发表了文章 2019-12-22 23:05:10

【译】Apache Spark 数据建模之时间维度（二）

Data Modeling in Apache Spark - Part 2 : Working With Multiple Dates http://blog.madhukaraphatak.com/data-modeling-spark-part-2/
12.22 22:55:13

发表了文章 2019-12-22 22:55:13

【译】Apache Spark 数据建模之时间维度（一）

Data Modeling in Apache Spark - Part 1 : Date Dimension
12.20 13:16:20

发表了文章 2019-12-20 13:16:20

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Spark 可以可靠地 shuffle 并排序 90 TB 以上的中间数据，并在一个作业中运行 250,000个 tasks。与基于 Hive 计相比，产生了显著的性能改进（ CPU性能提升、节省了资源的使用，降低延迟）。
12.19 14:38:56

发表了文章 2019-12-19 14:38:56

Spark整合Ray思路漫谈

Spark整合Ray思路漫谈
12.18 11:18:24

发表了文章 2019-12-18 11:18:24

Delta Lake 0.5.0 正式发布，支持包括 Hive/Presto 等多种查询引擎

Delta Lake 0.5.0 于2019年12月13日正式发布，这个版本支持多种查询引擎查询 Delta Lake 的数据，比如常见的 Hive、Presto 查询引擎。并发操作得到改进。
12.02 16:18:11

发表了文章 2019-12-02 16:18:11

12月5日Spark社区直播【是时候改变你数仓的增量同步方案了】

本分享会先介绍传统数据增量同步方案，之后对比新方案（完全基于Spark无需额外组件），介绍新方案如何结合最新的数据湖(delta lake)实现，同时引入spark-binlog，极大的简化了数据增量的门槛和架构。如果时间允许，我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。

2019年11月

11.29 16:29:19

发表了文章 2019-11-29 16:29:19

Tablestore+Delta Lake(快速开始)

本文介绍如何在E-MapReduce中通过Tablestore Spark Streaming Source将TableStore中的数据实时导入到Delta Lake中。
11.26 15:22:39

发表了文章 2019-11-26 15:22:39

阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎

11月16日的大数据+AI沙龙上海站取得圆满成功！ EMR 团队在国内运营最大的 Spark 社区，为了更好地传播和分享业界最新技术和最佳实践，现在联合开源社区同行，打造一个纯粹的技术交流线下沙龙《大数据 + AI》，定期为大家做公益分享。本次分享，揭秘TPC-DS 榜单第一名背后的强大引擎，探索Pyboot如何打通大数据生态，一同学习业内最新的存储方案和机器学习平台。
11.26 14:21:10

发表了文章 2019-11-26 14:21:10

11月28日Spark社区直播【Tablestore结合Spark的云上流批一体大数据架构】

传统Lambda架构组件多运维复杂，如何使用一套存储和一套计算来实现流批架构充分享受技术红利？以Delta Lake为代表的新型数据湖方案越来越流行，传统的Lambda架构如何向数据湖架构进行扩展？以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。
11.19 14:01:21

发表了文章 2019-11-19 14:01:21

Spark Codegen浅析

Codegen是Spark Runtime优化性能的关键技术，核心在于动态生成java代码、即时compile和加载，把解释执行转化为编译执行。Spark Codegen分为Expression级别和WholeStage级别，分别针对表达式计算和全Stage计算做代码生成，都取得了数量级的性能提升。本文浅析Spark Codegen技术原理。
11.12 11:52:31

发表了文章 2019-11-12 11:52:31

11月14日Spark社区直播【 Spark on Kubernetes & YARN】

本次直播将讨论：以Kubernetes为代表的云原生技术越来越流行起来，spark是如何跑在Kubernetes之上来享受云原生技术的红利？Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别？以及Kubernetes 和YARN的差异点是什么。
11.12 11:03:09

发表了文章 2019-11-12 11:03:09

11月14日Spark社区直播【 Spark on Kubernetes & YARN】

本次直播将讨论：以Kubernetes为代表的云原生技术越来越流行起来，spark是如何跑在Kubernetes之上来享受云原生技术的红利？ Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别？以及Kubernetes 和YARN的差异点是什么。
11.05 14:40:50

发表了文章 2019-11-05 14:40:50

阿里云大数据+AI技术沙龙上海站

EMR 团队在国内运营最大的 Spark 社区，为了更好地传播和分享业界最新技术和最佳实践，现在联合Intel及开源社区同行，打造一个纯粹的技术交流线下沙龙《大数据 + AI》，定期为大家做公益分享。首站上海开站，请猛戳链接报名！https://www.slidestalk.com/m/61
11.05 12:01:58

发表了文章 2019-11-05 12:01:58

EMR 打造高效云原生数据分析引擎

EMR-Jindo是EMR推出的云原生 OLAP 引擎。凭借该引擎，EMR成为第一个云上TPC-DS成绩提交者。经过持续不断地内核优化，目前基于最新 EMR-Jindo 引擎的 TPC-DS 成绩又有了大幅提高，达到了3615071，成本降低到 0.76 CNY。在2019杭州云栖大会大数据技术专场，阿里云阿里巴巴计算平台事业部 EMR 技术专家辛庸向大家分享了如何基于开源体系如何打造云上数据分析平台E-MarReduce（EMR）、EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。
11.04 11:55:52

发表了文章 2019-11-04 11:55:52

Spark Relational Cache实现亚秒级响应的交互式分析

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上，阿里巴巴技术专家王道远为大家分享了阿里云EMR的Spark Relational Cache实现亚秒级响应的交互式分析。

2019年10月

10.31 11:26:17

发表了文章 2019-10-31 11:26:17

基于 Spark 和 TensorFlow 的机器学习实践

大数据以及计算能力的提升，使得AI技术有了突飞猛进的发展。在大数据和AI技术的热潮下，在2019杭州云栖大会机器学习技术专场，阿里云高级技术专家吴威和阿里云技术专家江宇向大家分享了EMR E-Learning平台和平台上新开发的核心特性TensorFlow on Spark。
10.29 20:14:30

发表了文章 2019-10-29 20:14:30

如何在Spark中实现Count Distinct重聚合

Count Distinct是SQL查询中经常使用的聚合统计方式，用于计算非重复结果的数目。由于需要去除重复结果，Count Distinct的计算通常非常耗时。本文主要介绍在Spark中如何基于重聚合实现交互式响应的COUNT DISTINCT支持。
10.29 11:39:54

发表了文章 2019-10-29 11:39:54

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务，可以为不同的计算引擎提供不同的存储服务，可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场，阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。
10.28 15:26:12

发表了文章 2019-10-28 15:26:12

开源生态的新发展：Apache Spark 3.0、Koala和Delta Lake

Hadoop开源生态Spark已经发展三年有余，今年迎来了Spark 3.0。在2019杭州云栖大会大数据&AI峰会上，Databricks研发总监李潇为大家分享了Spark 3.0版本的新特性，以及其在数据工程以及数据科学方面带来的新技术。
10.28 14:50:30

发表了文章 2019-10-28 14:50:30

助力云上开源生态 - 阿里云开源大数据平台的发展

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上，阿里巴巴高级产品专家夏立为大家分享了阿里云EMR如何助力云上开源生态。
10.24 12:26:13

发表了文章 2019-10-24 12:26:13

节日快乐！！！

“我们的未来该有多酷”
10.23 15:24:33

发表了文章 2019-10-23 15:24:33

E-MapReduce 4.0产品新特性

E-MapReduce是运行在阿里云平台上的一大数据处理的系统解决方案。在2019年10月，阿里巴巴将发布EMR4.0版本。本篇介绍EMR4.0的新特性，包括在EMR基础能力，技术栈，生态集成和数据迁移等方面的升级，EMR4.0为用户提供更高的计算性能和更低的产品价格，将技术的红利让给用户。
10.21 11:06:30

发表了文章 2019-10-21 11:06:30

5分钟迅速搭建云上Lambda大数据分析架构

主要介绍基于 Tablestore 的数据变更实时捕获订阅能力，实现云上Lambda 架构的轻量化实现数据的实时和离线处理。演示模拟了一个电商订单场景，通过流计算实现订单大屏的场景，做到海量订单实时注入的同时，进行10s的订单统计聚合以及交易金额统计并做实时的大屏幕展示
10.16 14:49:13

发表了文章 2019-10-16 14:49:13

使用Spark Streaming SQL进行PV/UV统计

PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析，例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析，比如分析用户的网页点击行为，此时就需要对UV做统计。
10.14 16:50:02

发表了文章 2019-10-14 16:50:02

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

本次直播我们邀请了Tablestore存储服务技术专家朱晓然，为大家详细介绍如何基于Tablestore的CDC技术，将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。

发表了文章 2020-07-17

Apache Spark 3.0 中的向量化 IO
发表了文章 2020-07-17

7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】
发表了文章 2020-07-16

大神带练， 0基础Spark训练营限时免费抢报！
发表了文章 2020-07-15

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略
发表了文章 2020-07-14

再出王牌：阿里云 Jindo DistCp 全面开放使用，成为阿里云数据迁移利器
发表了文章 2020-06-16

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
发表了文章 2020-06-16

我们欠国内Spark开发者的，用一场掷地有声的中文峰会来还
发表了文章 2020-06-12

Spark Packages寻宝（一）：简单易用的数据准备工具Optimus
发表了文章 2020-06-11

直播 | Delta Lake 如何帮助云用户解决数据实时入库问题
发表了文章 2020-06-09

6月11日 JindoFS 系列直播【JindoFS 存储策略和读写优化】
发表了文章 2020-06-09

Spark-TFRecord: Spark将全面支持TFRecord
发表了文章 2020-06-08

不通过 Spark 获取 Delta Lake Snapshot
发表了文章 2020-06-04

直播 | 阿里、快手、Databricks、网易云音乐...国内外大数据大佬齐聚一堂要聊啥？
发表了文章 2020-06-04

阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康
发表了文章 2020-05-21

首届 Apache Spark AI智能诊断大赛重磅来袭！
发表了文章 2020-05-20

SparkSQL与Hive metastore Parquet转换
发表了文章 2020-05-19

5月21日 Spark 社区直播【Spark on Zeppelin】
发表了文章 2020-05-18

物化视图在 SparkSQL 中的实践
发表了文章 2020-05-14

招聘！招聘！招聘！计算平台解决方案架构师专场
发表了文章 2020-05-14

Spark + AI Summit 2020 中文议题有奖征集

正在加载, 请稍后...

滑动查看更多

回答了问题 2020-03-16

怎样进钉钉2个群

赞0 踩0 评论0
提交了问题 2019-05-05

请教一下，delta是不是可以理解为，是基于hdfs的行级别的数据库？然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制？
提交了问题 2019-05-05

workflow这个功能很期待，想问下他的工作流之间的依赖关系是怎么建立的，是用户自己定义么？
提交了问题 2019-05-05

spark 与 tensorflow 结合有没有方案？
回答了问题 2019-07-17

请教一下，delta是不是可以理解为，是基于hdfs的行级别的数据库？然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制？

是的，可以大致这样理解。是行级别的，但下面存储格式基本上还是以 Parquet/ORC 列式为主；delta 小文件要及时合并的，否则性能很差。数据库这个提法不一定好，因为并不会用于 OLTP；可以说是数据仓库，OLAP 场景为主的。关于这个区别，我的一篇文章里面讲得比较细。可以看看。https://yq.aliyun.com/articles/699919?spm=a2c4e.11153959.0.0.4f427507ntu6fX

赞0 踩0 评论0
回答了问题 2019-07-17

workflow这个功能很期待，想问下他的工作流之间的依赖关系是怎么建立的，是用户自己定义么？

这个问题很高级，你们是不是已经在玩了？不过工作流的定义过程里面，必然会形成各个工作流节点之间的依赖关系，定义工作流本身就是定义各个节点和他们之间的上下游关系，也就形成了这些依赖关系。如果你问的是多个工作流之间是不是还可以形成更高层次的依赖关系，我没有深入去看，感觉目前还比较早一点，不一定已经支持了。

赞1 踩0 评论0
回答了问题 2019-07-17

spark 与 tensorflow 结合有没有方案？

分享里面(4月28日钉钉群分享）提到的 Hydrogen 项目就是要系统支持这些深度学习框架的。Spark 3.0 会包含进去。你找到相关 SPIP，JIRA 和 PPT 挖一下。

赞0 踩0 评论0
提交了问题 2019-04-26

E-MapReduce 集群 header 节点有公网 IP，存在安全风险，是否可以通过 ECS 控制台关闭公网 IP，关闭公网 IP 是否会对 E-MapReduce 服务产生影响?
提交了问题 2019-04-26

如何登陆 Core 节点，并进行 root 权限操作
提交了问题 2019-04-26

E-Mapreduce 主节点不允许安装其它软件？
提交了问题 2019-04-26

已有/现存 ECS 是否可以用到 EMR 集群中
提交了问题 2019-04-26

自动续费
提交了问题 2019-04-26

集群续费问题
提交了问题 2019-04-26

创建集群失败，构建失败 "The specified instance Type exceeds the maximum limit for the PostPaid instances. "
提交了问题 2019-04-26

创建大数据机型（D1）的问题
提交了问题 2019-04-26

高安全集群
提交了问题 2019-04-26

E-MapReduce 按量高配节点问题
提交了问题 2019-04-26

错误提示：指定的 InstanceType 未授权使用
提交了问题 2019-04-26

错误提示：zone 或者 Cluster 的库存不够了
提交了问题 2019-04-26

错误提示：The Node Controller is temporarily unavailable

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据EMR_个人页

个人介绍

擅长的技术

Apache Spark 3.0 中的向量化 IO

7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】

大神带练， 0基础Spark训练营限时免费抢报！

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

再出王牌：阿里云 Jindo DistCp 全面开放使用，成为阿里云数据迁移利器

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

我们欠国内Spark开发者的，用一场掷地有声的中文峰会来还

Spark Packages寻宝（一）：简单易用的数据准备工具Optimus

直播 | Delta Lake 如何帮助云用户解决数据实时入库问题

6月11日 JindoFS 系列直播【JindoFS 存储策略和读写优化】

Spark-TFRecord: Spark将全面支持TFRecord

不通过 Spark 获取 Delta Lake Snapshot

直播 | 阿里、快手、Databricks、网易云音乐...国内外大数据大佬齐聚一堂要聊啥？

阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康

首届 Apache Spark AI智能诊断大赛重磅来袭！

SparkSQL与Hive metastore Parquet转换

5月21日 Spark 社区直播【Spark on Zeppelin】

物化视图在 SparkSQL 中的实践

招聘！招聘！招聘！计算平台解决方案架构师专场

Spark + AI Summit 2020 中文议题有奖征集

怎样进钉钉2个群

请教一下，delta是不是可以理解为，是基于hdfs的行级别的数据库？然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制？

workflow这个功能很期待，想问下他的工作流之间的依赖关系是怎么建立的，是用户自己定义么？

spark 与 tensorflow 结合有没有方案？

请教一下，delta是不是可以理解为，是基于hdfs的行级别的数据库？然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制？

workflow这个功能很期待，想问下他的工作流之间的依赖关系是怎么建立的，是用户自己定义么？

spark 与 tensorflow 结合有没有方案？

E-MapReduce 集群 header 节点有公网 IP，存在安全风险，是否可以通过 ECS 控制台关闭公网 IP，关闭公网 IP 是否会对 E-MapReduce 服务产生影响?

如何登陆 Core 节点，并进行 root 权限操作

E-Mapreduce 主节点不允许安装其它软件？

已有/现存 ECS 是否可以用到 EMR 集群中

自动续费

集群续费问题

创建集群失败，构建失败 "The specified instance Type exceeds the maximum limit for the PostPaid instances. "

创建大数据机型（D1）的问题

高安全集群

E-MapReduce 按量高配节点问题

错误提示：指定的 InstanceType 未授权使用

错误提示：zone 或者 Cluster 的库存不够了

错误提示：The Node Controller is temporarily unavailable