开源大数据EMR_个人页

个人头像照片 开源大数据EMR
个人头像照片 个人头像照片
269
74
0

个人介绍

暂无个人介绍

擅长的技术

  • Java
  • Python
  • 前端开发
  • Linux
  • 数据库
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2019年10月

2019年09月

  • 09.27 13:45:14
    发表了文章 2019-09-27 13:45:14

    Apache Flink : Checkpoint 原理剖析与应用实践

    本文将分享 Flink 中 Checkpoint 的应用实践,包括四个部分,分别是 Checkpoint 与 state 的关系、什么是 state、如何在 Flink 中使用 state 和 Checkpoint 的执行机制
  • 09.24 18:11:35
    发表了文章 2019-09-24 18:11:35

    太难了!我耗费心力终于规划出了一张云栖大会日程表

    十年前,参加云栖大会还只是程序员的杭州朝圣之旅,而如今,它依然成了透视和分析云计算产业和窥见数字经济的窗口。一切你想看见的、期待看见的,甚至未曾预见的,都会在未来的三天中扑面而来。
  • 09.20 16:12:35
    发表了文章 2019-09-20 16:12:35

    实时 OLAP 系统 Druid

    整体来看,Druid 算是一个优秀的实时 OLAP 系统,虽然有一些地方设计的并不是尽善尽美,但是瑕不掩瑜。这篇文章简单介绍一些 Druid 的整体情况,希望可以给使用 Druid 的同学做一些参考。下一篇文章将会介绍一下我们过去一年基于 Druid 的实践情况以及一些踩过的坑。
  • 09.19 11:39:39
    发表了文章 2019-09-19 11:39:39

    Apache Spark中国技术交流社区历次直播回顾(持续更新)

    Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉入群 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jmHATP9Tk+okK7QZ5sw2oWSNLhkt2lCRvfHRdW7XhUQ=&_dt_no_comment=1&origin=11 更多视频和ppt资料请入群获得。
  • 09.18 16:32:21
    发表了文章 2019-09-18 16:32:21

    7月24日阿里云峰会.上海 开发者大会回看

    阿里云峰会.上海 开发者大会将在上海世博中心盛大启程,与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势,分析阿里云在一线生产场景的最佳实践,携手合作伙伴及广大开发者们共建云上开发新时代,让我们一起code up!
  • 09.17 14:24:58
    发表了文章 2019-09-17 14:24:58

    【译】Hadoop发生了什么?我们该如何做?

    许多组织都关注Hadoop生态系统的最新发展,并承受着展示数据湖价值的压力。对于企业来说,至关重要的是确定如何在Hadoop失败后成功地实现应用程序的现代化,以及实现这一目标的最佳策略。Hadoop曾经是最被炒作的技术,如今属于人工智能。当心炒作周期,有一天你可能不得不为它的影响负责。
  • 09.16 14:10:40
    发表了文章 2019-09-16 14:10:40

    【译】Hadoop发生了什么?我们该如何做?

    原文:https://insidebigdata.com/2019/08/10/what-happened-to-hadoop-and-where-do-we-go-from-here/ Apache Hadoop出现在IT领域是在2006年,它可以支持使用廉价的商用硬件来存储海量数据。
  • 09.12 13:44:03
    发表了文章 2019-09-12 13:44:03

    在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

    预聚合是高性能分析中的常用技术,通过预先聚合降低纬度,从而在查询时大幅减少计算量,提升响应速度。本文介绍了 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能,并且探讨它是如何解决大数据中数据聚合的问题。
  • 09.11 16:40:19
    发表了文章 2019-09-11 16:40:19

    深入剖析 Delta Lake:详解事务日志

    事务日志(Transaction log)是理解 Delta Lake 的一个关键点,很多 Delta Lake 的重要特性都是基于事务日志实现的,包括 ACID 事务性、可扩展元数据处理、时间回溯等等。本文将探讨什么是事务日志,如何在文件层面实现,以及怎样优雅地解决并发读写的问题。
  • 09.02 11:47:16
    发表了文章 2019-09-02 11:47:16

    Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

    Koalas项目基于Apache Spark实现了pandas DataFrame API,从而使数据科学家能够更有效率的处理大数据。一份代码可以同时在pandas(用于测试,小数据集)和Spark(用于分布式datasets)两个平台上运行。
  • 09.02 10:26:55
    发表了文章 2019-09-02 10:26:55

    EMR 升级Hadoop 2.8.5

    信息摘要: EMR 提供Hadoop 2.8.5,方便开发者使用新版Hadoop功能。适用客户: 所有客户版本/规格功能: EMR-3.18.0及以后版本,Hadoop升级为2.8.5,开发者可以方便地使用新版Hadoop的功能。
  • 09.02 10:26:50
    发表了文章 2019-09-02 10:26:50

    EMR 最新版 EMR-3.22.0 发布

    信息摘要: EMR 升级到 EMR-3.22.0,包含多项重大更新及新增组件。适用客户: 所有客户版本/规格功能: EMR-3.22.0 发布多项重大更新,新增包括 Kudu、OpenLDAP,Spark新增支持 delta datasource。

2019年08月

  • 08.30 16:06:45
    发表了文章 2019-08-30 16:06:45

    HIVE优化浅谈

    HIVE是数据仓库和交互式查询的优秀框架,但随着数据的增多,join的复杂度和性能问题,需要花时间和精力解决性能优化的问题。除了基于HIVE本身优化,还可以接入计算性能更好的框架,SparkSQL relational cache对使用者透明,开发不需要关心底层优化逻辑,将更多精力放入业务设计开发。
  • 08.26 18:45:58
    发表了文章 2019-08-26 18:45:58

    8月28日社区直播【Spark Streaming SQL流式处理简介】

    本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示
  • 08.26 18:42:26
    发表了文章 2019-08-26 18:42:26

    8月28日社区直播【Spark Streaming SQL流式处理简介】

    本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示
  • 08.12 17:00:29
    发表了文章 2019-08-12 17:00:29

    8月14日Spark社区直播【Spark Shuffle 优化】

    本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据
  • 08.05 14:28:54
    发表了文章 2019-08-05 14:28:54

    海量监控日志基于EMR Spark Streaming SQL进行实时聚合

    从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。 本文以LogHub为数据源,收集ECS上的日志数据,通过Spark Streaming SQL进行聚合后,将流计算结果数据实时写入Tablestore,展示一个简单的日志监控场景。
  • 08.02 15:16:14
    发表了文章 2019-08-02 15:16:14

    Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

    阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。
  • 08.02 14:31:01
    发表了文章 2019-08-02 14:31:01

    Spark on Kubernetes 的现状与挑战

    被称为云上 OS 的 Kubernetes 是 Cloud Native 理念的一种技术承载与体现,但是如何通过 Kubernetes 来助力大数据应用还是有很多可以探索的地方。欢迎交流。

2019年07月

  • 07.29 17:33:03
    发表了文章 2019-07-29 17:33:03

    7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

    在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法,并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。
  • 07.29 15:33:47
    发表了文章 2019-07-29 15:33:47

    使用EMR-Kafka Connect进行数据迁移

    本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移,使用distributed模式。
  • 07.23 14:15:35
    发表了文章 2019-07-23 14:15:35

    7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】

    Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开,本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。
  • 07.16 14:46:51
    发表了文章 2019-07-16 14:46:51

    【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法

    现在还没有一个统一的流式SQL语法标准,各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题,社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持,也会在后续的更新中吸收和支持这些优秀的设计建议。
  • 07.08 18:48:24
    发表了文章 2019-07-08 18:48:24

    E-MapReduce产品探秘,扩展开源生态云上的能力

    E-MapReduce的产品能力介绍,通过EMR来构建高效的云上大数据平台,优化云上的使用成本,更快的计算效率。
  • 07.08 10:47:05
    发表了文章 2019-07-08 10:47:05

    使用Spark Streaming SQL基于时间窗口进行数据统计

    使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理,同时Spark Streaming SQL提供的时间窗口函数可以将事件时间按照一定的时间区间对数据进行统计操作。 本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例,介绍如何使用Spark Streaming SQL对事件时间进行操作。
  • 07.07 14:06:25
    发表了文章 2019-07-07 14:06:25

    【译】使用Spark SQL 运行大规模基因组工作流

    https://databricks.com/blog/2019/06/26/scaling-genomic-workflows-with-spark-sql-bgen-and-vcf-readers.html 使用Spark SQL 运行大规模基因组工作流 在过去十年中,随着基因组测序价格下降,可用基因组数据的数量逐渐激增。
  • 07.07 13:01:30
    发表了文章 2019-07-07 13:01:30

    【译】数据湖正在成为新的数据仓库

    原文链接 https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html?upd=1561666042410 译者:诚历,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。
  • 07.02 14:31:09
    发表了文章 2019-07-02 14:31:09

    钉钉群直播【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台】

    E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群,常见的使用场景和硬件选型指南。
  • 07.02 11:10:00
    发表了文章 2019-07-02 11:10:00

    钉钉群直播【Koalas 介绍】

    将每个关联结果都作为relational cache构建代价太大,并不现实,我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式,从而在加速用户查询的同时,减少创建和更新relational cache的代价。
  • 07.01 10:46:03
    发表了文章 2019-07-01 10:46:03

    【译】Spark-Alchemy:HyperLogLog的使用介绍

    原文链接: [https://databricks.com/blog/2019/05/08/advanced-analytics-with-apache-spark.html] 译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。
  • 07.01 09:46:00
    发表了文章 2019-07-01 09:46:00

    【译】Spark NLP使用入门

    原文链接: [https://www.kdnuggets.com/2019/06/spark-nlp-getting-started-with-worlds-most-widely-used-nlp-library-enterprise.html) 译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

2019年06月

  • 06.26 14:34:05
    发表了文章 2019-06-26 14:34:05

    Spark内置图像数据源初探

    在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算。
  • 06.24 10:43:26
    发表了文章 2019-06-24 10:43:26

    钉钉群直播【Spark Relational Cache 原理和实践】

    主要介绍Relational Cache/物化视图的历史和背景,以及EMR Spark基于Relational Cache加速Spark查询的技术方案,及如何通过基于Relational Cache的数据预计算和预组织,使用Spark支持亚秒级响应的交互式分析使用场景。
  • 06.20 22:53:32
    发表了文章 2019-06-20 22:53:32

    【译】Spark Streaming 框架在 5G 中的应用

    原文链接: Applying the Spark Streaming framework to 5G 我们已经很长时间没有更新流处理框架的相关博客(apache-storm-vs-spark-streaming 和 apache-storm-performance-tuners),这次想分享一下我们关于当前流处理引擎及其在 5G 和 IoT 场景适用性的一些观点。
  • 06.17 16:09:35
    发表了文章 2019-06-17 16:09:35

    钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】

    直播主题:【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】 时间:6月19日 19:30-20:30 分享嘉宾:江宇,阿里云EMR技术专家。
  • 06.17 16:07:32
    发表了文章 2019-06-17 16:07:32

    EMR Spark Relational Cache的执行计划重写

    作者:王道远,花名健身, 阿里巴巴计算平台EMR技术专家。 背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。
  • 06.05 17:32:08
    发表了文章 2019-06-05 17:32:08

    使用EMR Spark Relational Cache跨集群同步数据

    Relational Cache是EMR Spark支持的一个重要特性,主要通过对数据进行预组织和预计算加速数据分析,提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度,Relational Cache还可以应用于其他很多场景,本文主要介绍如何使用Relational Cache跨集群同步数据表。
  • 06.04 12:10:13
    发表了文章 2019-06-04 12:10:13

    钉钉群直播【Structured Steaming的进阶与实践 】

    structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用,作为实时计算的首选。 本次分享structured steaming的使用,包含spark 2.4 structured streaming的新特性,API原理和使用场景等的介绍。

2019年05月

  • 05.30 10:42:38
    发表了文章 2019-05-30 10:42:38

    使用Apache Arrow助力PySpark数据处理

    Apache Arrow从Spark 2.3版本开始被引入,通过列式存储,zero copy等技术,JVM 与Python 之间的数据传输效率得到了大量的提升。本文主要介绍一下Apache Arrow以及Spark中的使用方法。
  • 发表了文章 2020-07-17

    Apache Spark 3.0 中的向量化 IO

  • 发表了文章 2020-07-17

    7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】

  • 发表了文章 2020-07-16

    大神带练, 0基础Spark训练营限时免费抢报!

  • 发表了文章 2020-07-15

    SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

  • 发表了文章 2020-07-14

    再出王牌:阿里云 Jindo DistCp 全面开放使用,成为阿里云数据迁移利器

  • 发表了文章 2020-06-16

    EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

  • 发表了文章 2020-06-16

    我们欠国内Spark开发者的,用一场掷地有声的中文峰会来还

  • 发表了文章 2020-06-12

    Spark Packages寻宝(一):简单易用的数据准备工具Optimus

  • 发表了文章 2020-06-11

    直播 | Delta Lake 如何帮助云用户解决数据实时入库问题

  • 发表了文章 2020-06-09

    6月11日 JindoFS 系列直播【JindoFS 存储策略和读写优化】

  • 发表了文章 2020-06-09

    Spark-TFRecord: Spark将全面支持TFRecord

  • 发表了文章 2020-06-08

    不通过 Spark 获取 Delta Lake Snapshot

  • 发表了文章 2020-06-04

    直播 | 阿里、快手、Databricks、网易云音乐...国内外大数据大佬齐聚一堂要聊啥?

  • 发表了文章 2020-06-04

    阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康

  • 发表了文章 2020-05-21

    首届 Apache Spark AI智能诊断大赛重磅来袭!

  • 发表了文章 2020-05-20

    SparkSQL与Hive metastore Parquet转换

  • 发表了文章 2020-05-19

    5月21日 Spark 社区直播【Spark on Zeppelin】

  • 发表了文章 2020-05-18

    物化视图在 SparkSQL 中的实践

  • 发表了文章 2020-05-14

    招聘!招聘!招聘!计算平台解决方案架构师专场

  • 发表了文章 2020-05-14

    Spark + AI Summit 2020 中文议题有奖征集

正在加载, 请稍后...
滑动查看更多
  • 回答了问题 2020-03-16

    怎样进钉钉2个群

    踩0 评论0
  • 回答了问题 2019-07-17

    请教一下,delta是不是可以理解为,是基于hdfs的行级别的数据库?然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制?

    是的,可以大致这样理解。是行级别的,但下面存储格式基本上还是以 Parquet/ORC 列式为主;delta 小文件要及时合并的,否则性能很差。数据库这个提法不一定好,因为并不会用于 OLTP;可以说是数据仓库,OLAP 场景为主的。关于这个区别,我的一篇文章里面讲得比较细。可以看看。https://yq.aliyun.com/articles/699919?spm=a2c4e.11153959.0.0.4f427507ntu6fX
    踩0 评论0
  • 提交了问题 2019-05-05

    请教一下,delta是不是可以理解为,是基于hdfs的行级别的数据库?然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制?

  • 回答了问题 2019-07-17

    workflow这个功能很期待,想问下他的工作流之间的依赖关系是怎么建立的,是用户自己定义么?

    这个问题很高级,你们是不是已经在玩了?不过工作流的定义过程里面,必然会形成各个工作流节点之间的依赖关系,定义工作流本身就是定义各个节点和他们之间的上下游关系,也就形成了这些依赖关系。如果你问的是多个工作流之间是不是还可以形成更高层次的依赖关系,我没有深入去看,感觉目前还比较早一点,不一定已经支持了。
    踩0 评论0
  • 提交了问题 2019-05-05

    workflow这个功能很期待,想问下他的工作流之间的依赖关系是怎么建立的,是用户自己定义么?

  • 回答了问题 2019-07-17

    spark 与 tensorflow 结合有没有方案?

    分享里面(4月28日钉钉群分享)提到的 Hydrogen 项目就是要系统支持这些深度学习框架的。Spark 3.0 会包含进去。你找到相关 SPIP,JIRA 和 PPT 挖一下。
    踩0 评论0
  • 提交了问题 2019-05-05

    spark 与 tensorflow 结合有没有方案?

  • 回答了问题 2019-07-17

    E-MapReduce 集群 header 节点有公网 IP,存在安全风险,是否可以通过 ECS 控制台关闭公网 IP,关闭公网 IP 是否会对 E-MapReduce 服务产生影响?

    如果您没有使用 EMR 的统一元数据库功能,可以关闭公网 IP。
    踩0 评论0
  • 提交了问题 2019-04-26

    E-MapReduce 集群 header 节点有公网 IP,存在安全风险,是否可以通过 ECS 控制台关闭公网 IP,关闭公网 IP 是否会对 E-MapReduce 服务产生影响?

  • 回答了问题 2019-07-17

    如何登陆 Core 节点,并进行 root 权限操作

    请参考文档创建集群登录 Core 节点部分
    踩0 评论0
  • 提交了问题 2019-04-26

    如何登陆 Core 节点,并进行 root 权限操作

  • 回答了问题 2019-07-17

    E-Mapreduce 主节点不允许安装其它软件?

    理论上可以在不破坏集群环境的前提下安装。但是这些软件的运行可能会影响到集群的稳定可靠性,不建议进行此类操作。
    踩0 评论0
  • 提交了问题 2019-04-26

    E-Mapreduce 主节点不允许安装其它软件?

  • 回答了问题 2019-07-17

    已有/现存 ECS 是否可以用到 EMR 集群中

    目前还不能支持,用户要创建 EMR 集群需要在 EMR 控制台上来创建 ECS。
    踩0 评论0
  • 提交了问题 2019-04-26

    已有/现存 ECS 是否可以用到 EMR 集群中

  • 回答了问题 2019-07-17

    自动续费

    EMR 支持自动续费操作,支持 EMR 和 ECS 的自动续费。
    踩0 评论0
  • 提交了问题 2019-04-26

    自动续费

  • 回答了问题 2019-07-17

    集群续费问题

    续费操作请参考集群续费。经常会有用户反馈续费了但是还是会通知说没有续费。这是因为 EMR 现在有 2 块,一块是 EMR,一块是 ECS,大部分的用户都只是续费了 ECS 而没有续费 EMR。您可以打开续费界面查看 ECS 和 EMR 到期时间。
    踩0 评论0
  • 提交了问题 2019-04-26

    集群续费问题

  • 回答了问题 2019-07-17

    创建集群失败,构建失败 "The specified instance Type exceeds the maximum limit for the PostPaid instances. "

    一般是用户的按量节点数量的上限到了。ECS 根据不同用户,按量节点上限是不一样的。需要用户去申请加大。如果确认不是上述的原因,还有一种可能是用户是没有创建的机型的权限,需要去 ECS 开通这个机型的使用权限。
    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息