开源大数据EMR_个人页

开源大数据EMR

文章

262

问答

视频

个人介绍

暂无个人介绍

擅长的技术

Java
Python
前端开发
Linux
数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

发表了文章 2019-05-22

微软发布 .Net for Apache Spark ：用什么语言开发大数据都可以

Apache Spark 是当今最流行的开源大数据处理框架。Spark 用于进行分布式、大规模的数据处理，提供了更高级的编程接口、更高的性能。除此之外，Spark 不仅能进行常规的批处理计算，还提供了流式计算支持。
发表了文章 2019-05-21

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

数据中台应该是什么样子?如何基于MLSQL完成数据中台的构建? MLSQL是如何基于Spark来完成这些扩展的? Databricks公司新开元项目Delta对于数据和机器学习的意义何在？
发表了文章 2019-05-20

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能，通过Relational Cache，用户可以提前将任意关系型数据（Table/View/Dataset）cache到任意Spark支持的DataSource中，并支持灵活的cache数据组织方式，基于此，Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。
发表了文章 2019-05-19

什么是数据湖？有什么用？

在本文中，将介绍数据湖的一些主要方面，帮助读者理解为什么它对企业非常重要。
发表了文章 2019-05-19

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

得益于 balanced Kafka reader，从 Kafka 消费的 Spark 应用程序现在可以横向扩展，并具有任意并行度。平衡分区算法很简单，并且已被证明非常有效。由于这些改进，用于摄取日志记录事件的 Spark streaming 作业可以处理比以前多一个数量级的事件。
发表了文章 2019-05-13

钉钉群直播【Delta Lake：一种新型的数据湖方案】

Delta Lake 是 Databricks 推出的一种新型的数据湖方案，解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开，如 Delta Lake 的适用场景、技术优势，Delta 的原理实现以及一些高级特性等，并就现有解决方案做横向对比。
发表了文章 2019-05-10

Spark on Kubernetes原生支持浅析

概述 Kubernetes自推出以来，以其完善的集群配额、均衡、故障恢复能力，成为开源容器管理平台中的佼佼者。从设计思路上，Spark以开放Cluster Manager为理念，Kubernetes则以多语言、容器调度为卖点，二者的结合是顺理成章的。
发表了文章 2019-05-06

Koalas：让 pandas 轻松切换 Apache Spark

4 月 24 日，Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas，它增强了 PySpark 的 DataFrame API，使其与 pandas 兼容。本文转自：https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4
提交了问题 2019-05-05

请教一下，delta是不是可以理解为，是基于hdfs的行级别的数据库？然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制？
提交了问题 2019-05-05

workflow这个功能很期待，想问下他的工作流之间的依赖关系是怎么建立的，是用户自己定义么？
提交了问题 2019-05-05

spark 与 tensorflow 结合有没有方案？
提交了问题 2019-04-26

E-MapReduce 集群 header 节点有公网 IP，存在安全风险，是否可以通过 ECS 控制台关闭公网 IP，关闭公网 IP 是否会对 E-MapReduce 服务产生影响?
提交了问题 2019-04-26

如何登陆 Core 节点，并进行 root 权限操作
提交了问题 2019-04-26

E-Mapreduce 主节点不允许安装其它软件？
提交了问题 2019-04-26

已有/现存 ECS 是否可以用到 EMR 集群中
提交了问题 2019-04-26

自动续费
提交了问题 2019-04-26

集群续费问题
提交了问题 2019-04-26

创建集群失败，构建失败 "The specified instance Type exceeds the maximum limit for the PostPaid instances. "
提交了问题 2019-04-26

创建大数据机型（D1）的问题
提交了问题 2019-04-26

高安全集群
提交了问题 2019-04-26

E-MapReduce 按量高配节点问题
提交了问题 2019-04-26

错误提示：指定的 InstanceType 未授权使用
提交了问题 2019-04-26

错误提示：zone 或者 Cluster 的库存不够了
提交了问题 2019-04-26

错误提示：The Node Controller is temporarily unavailable
提交了问题 2019-04-26

错误提示：The request processing has failed due to some unknown error, exception or failure.
提交了问题 2019-04-26

Region 暂时停售按量实例
提交了问题 2019-04-26

ThriftServer 进程正常，但链接出现异常，报错Connection refused telnet emr-header-1 10001 无法连接
提交了问题 2019-04-26

Hive/Impala 作业读取 SparkSQL 导入的 Parquet 表报错
提交了问题 2019-04-26

创建低配置机型集群注意事项
提交了问题 2019-04-26

Spark SQL连RDS出现“Invalid authorization specification, message from server: ip not in whitelist”
提交了问题 2019-04-26

Spark SQL抛出“Exception in thread “main” java.sql.SQLException: No suitable driver found for jdbc:mysql:xxx”报错
提交了问题 2019-04-26

如何在 MR/Spark 作业中指定 OSS 数据源文件路径
提交了问题 2019-04-26

如何在 MR 作业中使用本地共享库
提交了问题 2019-04-26

集群机器分工使用说明
提交了问题 2019-04-26

"Error: Could not find or load main class"
提交了问题 2019-04-26

Spark Streaming 作业已经结束，但是 E-MapReduce 控制台显示作业还处于“运行中”状态
提交了问题 2019-04-26

Spark Streaming 作业运行一段时间后无故结束
提交了问题 2019-04-26

Hive 创建外部表，没有数据
发表了文章 2019-04-26

钉钉群直播Spark + AI 北美峰会参会分享

Spark + AI 北美峰会 2019 盛况依然，这两天正如火如荼。大会的主题是 Build，Unify，Scale，对此如何理解？砖厂这次有哪些重磅消息和重要发布，并作如何解读？Spark 过去几年发展的基调和线索是什么，从这次峰会上又如何看出 Spark 在未来几年的发展端倪？阿里巴巴计算平台.
发表了文章 2019-04-25

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天，坊间传闻被证实，Databrics（俗称数砖，亦称砖厂）的杀手锏 Delta 产品特性作为 Delta Lake 项目开源！会前，笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流，谈到 Delta 时被告知会有相关重磅在大会上宣布，但却没想到是开源出去。
发表了文章 2019-04-23

浅谈 Spark 的多语言支持（修订版）

Spark 设计上的优秀无容置疑，甫一出道便抢了 Hadoop 的 C 位，在开源大数据的黄金十年里一时风头无两，在人工智能时代的当下仍然能够与时俱进，不可谓不牛逼。架构和设计上的卓越，不遑多言，美中不足之处自然也有不少，比如调度模型跟 MapReduce 这种计算范式过于耦合，Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型，所幸在于对框架的改动不会伤经动骨。
发表了文章 2019-04-12

Apache Avro as a Built-in Data Source in Apache Spark 2.4

Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统，尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.
发表了文章 2019-04-07

Alluxio技术内幕：如何百倍加速云端元数据操作

本文转载自：https://zhuanlan.zhihu.com/p/49499385 我们在这篇文章介绍最新版本（1.8.1版本）的Alluxio如何通过使用指纹特性和底层存储批量操作加快Alluxio元数据操作。
发表了文章 2019-04-07

如何从根源上解决 HDFS 小文件问题

我们知道，HDFS 被设计成存储大规模的数据集，我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据（比如文件由哪些块组成、这些块分别存储在哪些节点上）全部都是由 NameNode 节点维护，为了达到高效的访问， NameNode 在启动的时候会将这些元数据全部加载到内存中。
发表了文章 2019-03-29

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合，在机器学习里面，因为计算迭代的时间可能会很长，开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。
发表了文章 2019-03-29

Spark+Alluxio性能调优十大技巧

本文章转载于：https://zhuanlan.zhihu.com/p/54245707 由于统一访问对象存储（如S3）和HDFS数据的场景的出现和普及，Apache Spark结合Alluxio的大数据栈越来越受欢迎。
发表了文章 2019-03-11

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程：如何把 RDS 的 binlog 收集到 SLS。如何通过 Spark Streaming 将 SLS 中的日志读取出来，进行分析。
发表了文章 2019-02-26

通过WebUI查看Structured Streaming作业统计信息

前言从EMR-3.18.1版本开始，EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分，EMR将扩展现有Spark WebUI，支持Structured Streaming Query的统计信息查看。
发表了文章 2019-02-20

Apache Spark + Intel Analytics Zoo 进行深度学习

Analytics Zoo 是由 Intel 开源,基于 Apache Spark 和 Inte BigDL 的大数据分析和 AI 平台，方便用户开发基于大数据、端到端的深度学习应用。本文简单介绍了如何在阿里云 E-MapReduce 使用 Analytics Zoo 来进行深度学习。
发表了文章 2019-02-20

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

正如在之前的那篇文章中 Spark Streaming 设计原理中说到 Spark 团队之后对 Spark Streaming 的维护可能越来越少，Spark 2.4 版本的 Release Note 里面果然一个 Spark Streaming 相关的 ticket 都没有。

...

暂无更多信息

发表了文章 2020-07-17

Apache Spark 3.0 中的向量化 IO
发表了文章 2020-07-17

7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】
发表了文章 2020-07-16

大神带练， 0基础Spark训练营限时免费抢报！
发表了文章 2020-07-15

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略
发表了文章 2020-07-14

再出王牌：阿里云 Jindo DistCp 全面开放使用，成为阿里云数据迁移利器
发表了文章 2020-06-16

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
发表了文章 2020-06-16

我们欠国内Spark开发者的，用一场掷地有声的中文峰会来还
发表了文章 2020-06-12

Spark Packages寻宝（一）：简单易用的数据准备工具Optimus
发表了文章 2020-06-11

直播 | Delta Lake 如何帮助云用户解决数据实时入库问题
发表了文章 2020-06-09

6月11日 JindoFS 系列直播【JindoFS 存储策略和读写优化】
发表了文章 2020-06-09

Spark-TFRecord: Spark将全面支持TFRecord
发表了文章 2020-06-08

不通过 Spark 获取 Delta Lake Snapshot
发表了文章 2020-06-04

直播 | 阿里、快手、Databricks、网易云音乐...国内外大数据大佬齐聚一堂要聊啥？
发表了文章 2020-06-04

阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康
发表了文章 2020-05-21

首届 Apache Spark AI智能诊断大赛重磅来袭！
发表了文章 2020-05-20

SparkSQL与Hive metastore Parquet转换
发表了文章 2020-05-19

5月21日 Spark 社区直播【Spark on Zeppelin】
发表了文章 2020-05-18

物化视图在 SparkSQL 中的实践
发表了文章 2020-05-14

招聘！招聘！招聘！计算平台解决方案架构师专场
发表了文章 2020-05-14

Spark + AI Summit 2020 中文议题有奖征集

正在加载, 请稍后...

滑动查看更多

回答了问题 2020-03-16

怎样进钉钉2个群

赞0 踩0 评论0
提交了问题 2019-05-05

请教一下，delta是不是可以理解为，是基于hdfs的行级别的数据库？然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制？
提交了问题 2019-05-05

workflow这个功能很期待，想问下他的工作流之间的依赖关系是怎么建立的，是用户自己定义么？
提交了问题 2019-05-05

spark 与 tensorflow 结合有没有方案？
回答了问题 2019-07-17

请教一下，delta是不是可以理解为，是基于hdfs的行级别的数据库？然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制？

是的，可以大致这样理解。是行级别的，但下面存储格式基本上还是以 Parquet/ORC 列式为主；delta 小文件要及时合并的，否则性能很差。数据库这个提法不一定好，因为并不会用于 OLTP；可以说是数据仓库，OLAP 场景为主的。关于这个区别，我的一篇文章里面讲得比较细。可以看看。https://yq.aliyun.com/articles/699919?spm=a2c4e.11153959.0.0.4f427507ntu6fX

赞0 踩0 评论0
回答了问题 2019-07-17

workflow这个功能很期待，想问下他的工作流之间的依赖关系是怎么建立的，是用户自己定义么？

这个问题很高级，你们是不是已经在玩了？不过工作流的定义过程里面，必然会形成各个工作流节点之间的依赖关系，定义工作流本身就是定义各个节点和他们之间的上下游关系，也就形成了这些依赖关系。如果你问的是多个工作流之间是不是还可以形成更高层次的依赖关系，我没有深入去看，感觉目前还比较早一点，不一定已经支持了。

赞1 踩0 评论0
回答了问题 2019-07-17

spark 与 tensorflow 结合有没有方案？

分享里面(4月28日钉钉群分享）提到的 Hydrogen 项目就是要系统支持这些深度学习框架的。Spark 3.0 会包含进去。你找到相关 SPIP，JIRA 和 PPT 挖一下。

赞0 踩0 评论0
提交了问题 2019-04-26

E-MapReduce 集群 header 节点有公网 IP，存在安全风险，是否可以通过 ECS 控制台关闭公网 IP，关闭公网 IP 是否会对 E-MapReduce 服务产生影响?
提交了问题 2019-04-26

如何登陆 Core 节点，并进行 root 权限操作
提交了问题 2019-04-26

E-Mapreduce 主节点不允许安装其它软件？
提交了问题 2019-04-26

已有/现存 ECS 是否可以用到 EMR 集群中
提交了问题 2019-04-26

自动续费
提交了问题 2019-04-26

集群续费问题
提交了问题 2019-04-26

创建集群失败，构建失败 "The specified instance Type exceeds the maximum limit for the PostPaid instances. "
提交了问题 2019-04-26

创建大数据机型（D1）的问题
提交了问题 2019-04-26

高安全集群
提交了问题 2019-04-26

E-MapReduce 按量高配节点问题
提交了问题 2019-04-26

错误提示：指定的 InstanceType 未授权使用
提交了问题 2019-04-26

错误提示：zone 或者 Cluster 的库存不够了
提交了问题 2019-04-26

错误提示：The Node Controller is temporarily unavailable

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据EMR_个人页

个人介绍

擅长的技术

微软发布 .Net for Apache Spark ：用什么语言开发大数据都可以

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

使用Relational Cache加速EMR Spark数据分析

什么是数据湖？有什么用？

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

钉钉群直播【Delta Lake：一种新型的数据湖方案】

Spark on Kubernetes原生支持浅析

Koalas：让 pandas 轻松切换 Apache Spark

请教一下，delta是不是可以理解为，是基于hdfs的行级别的数据库？然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制？

workflow这个功能很期待，想问下他的工作流之间的依赖关系是怎么建立的，是用户自己定义么？

spark 与 tensorflow 结合有没有方案？

E-MapReduce 集群 header 节点有公网 IP，存在安全风险，是否可以通过 ECS 控制台关闭公网 IP，关闭公网 IP 是否会对 E-MapReduce 服务产生影响?

如何登陆 Core 节点，并进行 root 权限操作

E-Mapreduce 主节点不允许安装其它软件？

已有/现存 ECS 是否可以用到 EMR 集群中

自动续费

集群续费问题

创建集群失败，构建失败 "The specified instance Type exceeds the maximum limit for the PostPaid instances. "

创建大数据机型（D1）的问题

高安全集群

E-MapReduce 按量高配节点问题

错误提示：指定的 InstanceType 未授权使用

错误提示：zone 或者 Cluster 的库存不够了

错误提示：The Node Controller is temporarily unavailable

错误提示：The request processing has failed due to some unknown error, exception or failure.

Region 暂时停售按量实例

ThriftServer 进程正常，但链接出现异常，报错Connection refused telnet emr-header-1 10001 无法连接

Hive/Impala 作业读取 SparkSQL 导入的 Parquet 表报错

创建低配置机型集群注意事项

Spark SQL连RDS出现“Invalid authorization specification, message from server: ip not in whitelist”

Spark SQL抛出“Exception in thread “main” java.sql.SQLException: No suitable driver found for jdbc:mysql:xxx”报错

如何在 MR/Spark 作业中指定 OSS 数据源文件路径

如何在 MR 作业中使用本地共享库

集群机器分工使用说明

"Error: Could not find or load main class"

Spark Streaming 作业已经结束，但是 E-MapReduce 控制台显示作业还处于“运行中”状态

Spark Streaming 作业运行一段时间后无故结束

Hive 创建外部表，没有数据

钉钉群直播Spark + AI 北美峰会参会分享

从数砖开源 Delta Lake 说起

浅谈 Spark 的多语言支持（修订版）

Apache Avro as a Built-in Data Source in Apache Spark 2.4

Alluxio技术内幕：如何百倍加速云端元数据操作

如何从根源上解决 HDFS 小文件问题

Apache Spark 3.0 将内置支持 GPU 调度

Spark+Alluxio性能调优十大技巧

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

通过WebUI查看Structured Streaming作业统计信息

Apache Spark + Intel Analytics Zoo 进行深度学习

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

Apache Spark 3.0 中的向量化 IO

7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】

大神带练， 0基础Spark训练营限时免费抢报！

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

再出王牌：阿里云 Jindo DistCp 全面开放使用，成为阿里云数据迁移利器

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

我们欠国内Spark开发者的，用一场掷地有声的中文峰会来还

Spark Packages寻宝（一）：简单易用的数据准备工具Optimus

直播 | Delta Lake 如何帮助云用户解决数据实时入库问题

6月11日 JindoFS 系列直播【JindoFS 存储策略和读写优化】

Spark-TFRecord: Spark将全面支持TFRecord