阿里云E-MapReduce团队_个人页

个人头像照片 阿里云E-MapReduce团队
个人头像照片 个人头像照片 个人头像照片
217
14
0

个人介绍

暂无个人介绍

擅长的技术

  • Java
  • Python
  • 前端开发
  • Linux
  • 数据库
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2020年06月

  • 06.04 18:05:17
    发表了文章 2020-06-04 18:05:17

    阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康

    2020年6月4日,首届 Apache Spark AI 智能诊断大赛在天池官网上线。Spark “数字人体” AI 挑战赛——脊柱疾病智能诊断大赛,聚焦医疗领域应用,召集全球开发者利用人工智能技术探索高效准确的脊柱退化性疾病自动诊断。现已面向全社会开放,为所有大数据技术爱好者以及相关的科研企业提供挑战平台,个人参赛或高等院校、科研单位、互联网企业等人员均可报名参赛。本次挑战的目标是通过核磁共振成像来检测和分类脊柱的退行性改变,形成一批创新性强、复用率高的算法案例,并积极推动相关技术的临床应用,用科技造福医疗事业,鼓励人工智能与疾病预防深度融合的应用落地,由点到面驱动国内人工智能医疗产业发展。
  • 06.03 21:28:17
    发表了文章 2020-06-03 21:28:17

    对象存储和新型分布式文件系统 - 填补Hadoop存储的空白

    IT软硬件架构、企业部署已经发生了翻天覆地的变化,在这些新的变革下,HDFS露出了一定的颓势。但是云上对象存储是唯一的选择吗?面向on-premise,云环境以及混合云环境,在这新旧存储架构交替之际,数据存储会如何发展呢,如何填补Hadoop存储留下的空白?

2020年04月

2020年03月

  • 03.03 13:52:17
    发表了文章 2020-03-03 13:52:17

    3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

    Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。
  • 03.03 13:07:14
    发表了文章 2020-03-03 13:07:14

    3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

    Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。

2020年01月

  • 01.09 17:16:42
    发表了文章 2020-01-09 17:16:42

    2019年Apache Spark技术交流社区原创文章回顾

    整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。
  • 01.09 12:44:54
    发表了文章 2020-01-09 12:44:54

    自建Hadoop数据迁移到阿里云EMR

    客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建部署架构图 Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。

2019年12月

  • 12.11 16:27:45
    发表了文章 2019-12-11 16:27:45

    Tablestore结合Spark的流批一体SQL实战

    本文将通过结合Tablestore和Spark的流批一体存储和计算,来自建电商大屏完成电商数据的分析和可视化,
  • 12.10 11:41:46
    发表了文章 2019-12-10 11:41:46

    12月11日Spark社区直播【实时数仓建设以及典型场景应用】

    本次分享会介绍实时数仓的思路以及一些实践,包括SparkStreaming SQL引擎,以及对Delta/Kudu/Druid/阿里云多种存储组件的深度整合;同时会在这个基础上介绍一些典型案例应用
  • 12.02 17:06:52
    发表了文章 2019-12-02 17:06:52

    12月5日Spark社区直播【是时候改变你数仓的增量同步方案了】

    本分享会先介绍传统数据增量同步方案,之后对比新方案(完全基于Spark无需额外组件),介绍新方案如何结合最新的数据湖(delta lake)实现,同时引入spark-binlog,极大的简化了数据增量的门槛和架构。如果时间允许,我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。

2019年11月

  • 11.27 15:37:27
    发表了文章 2019-11-27 15:37:27

    阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

    11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。
  • 11.12 22:28:51
    发表了文章 2019-11-12 22:28:51

    Spark Operator浅析

    Spark Operator浅析 本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构 经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.
  • 11.05 14:47:04
    发表了文章 2019-11-05 14:47:04

    阿里云大数据+AI技术沙龙上海站

    EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合Intel及开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。首站上海开站,请猛戳链接报名!https://www.slidestalk.com/m/61

2019年10月

2019年09月

  • 09.20 18:52:29
    发表了文章 2019-09-20 18:52:29

    实时 OLAP 系统 Druid

    整体来看,Druid 算是一个优秀的实时 OLAP 系统,虽然有一些地方设计的并不是尽善尽美,但是瑕不掩瑜。这篇文章简单介绍一些 Druid 的整体情况,希望可以给使用 Druid 的同学做一些参考。下一篇文章将会介绍一下我们过去一年基于 Druid 的实践情况以及一些踩过的坑。
  • 09.01 18:27:26
    发表了文章 2019-09-01 18:27:26

    Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

    Virgin Hyperloop One(超级高铁公司)是一家从事超级高铁研究的公司,致力于能让高铁达到飞机的速度并且拥有更低的成本。为了能够制造一个商业的系统,我们需要收集并且分析非常大量的各种不同的数据,包括各种运行测试数据,多种模拟数据,技术设施数据,甚至社会经济数据等等。

2019年08月

  • 08.28 16:54:15
    发表了文章 2019-08-28 16:54:15

    玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源

    利用阿里云EMR生态定制化集群,实现数据仓库满足商业/运营的查询需求,并提供横向扩展提升性能的空间,结合多样服务达到数据交互查询及统一数据源下的最佳成本控制。
  • 08.28 16:37:47
    发表了文章 2019-08-28 16:37:47

    玩转阿里云EMR三部曲-中级篇 集成自有服务

    利用EMR引导操作可以使用自定义脚本安装任意自有服务和环境,隔离计算和生产资源,并在极致成本控制下最大化并发和可扩展性。完整的自定义设计可以满足任意自有服务构建的集成需要。
  • 08.28 16:19:08
    发表了文章 2019-08-28 16:19:08

    列式存储系列(二): Vertica

    本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说,Vertica 是一个纯正的列式存储数据库,为此,Vertica 设计实现了 projection 这一数据模型,并围绕该模型设计实现了一套大数据分析管理引擎。
  • 08.26 18:35:21
    发表了文章 2019-08-26 18:35:21

    8月28日社区直播【Spark Streaming SQL流式处理简介】

    本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示
  • 08.16 16:20:41
    发表了文章 2019-08-16 16:20:41

    使用spark-redis组件访问云数据库Redis

    本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis。
  • 08.12 16:56:58
    发表了文章 2019-08-12 16:56:58

    8月14日Spark社区直播【Spark Shuffle 优化】

    本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据
  • 08.12 10:53:27
    发表了文章 2019-08-12 10:53:27

    EMR Spark Relational Cache 利用数据预组织加速查询

    本文介绍了EMR Spark的Relational Cache如何从数据量较大的Cube中快速提取出所需数据加速查询的原理。通过列式存储、文件索引、Z-Order等技术,我们可以快速过滤数据,大大减少实际发生的IO数据量,避免IO瓶颈的出现,从而优化整体查询性能。
  • 08.05 15:13:02
    发表了文章 2019-08-05 15:13:02

    海量监控日志基于EMR Spark Streaming SQL进行实时聚合

    从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。 本文以LogHub为数据源,收集ECS上的日志数据,通过Spark Streaming SQL进行聚合后,将流计算结果数据实时写入Tablestore,展示一个简单的日志监控场景。
  • 08.02 15:24:51
    发表了文章 2019-08-02 15:24:51

    Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

    阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。
  • 08.02 11:29:42
    发表了文章 2019-08-02 11:29:42

    玩转阿里云EMR三部曲-入门篇

    优异的自动化创建集群让小伙伴可以专心于业务开发,不再纠结于hadoop版本,spark版本,甚至某些jar版本引发的各种奇怪问题,按需集群按小时计费模式替小伙伴们极大节省了开支,可以50个节点执行1小时,也可以3个节点执行5小时,非常灵活。

2019年07月

  • 07.31 15:07:25
    回答了问题 2019-07-31 15:07:25
  • 07.31 15:06:20
  • 07.29 17:43:47
    发表了文章 2019-07-29 17:43:47

    7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

    在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法,并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。
  • 07.26 17:41:42
    发表了文章 2019-07-26 17:41:42

    Flink在快手的应用实践与技术演进之路

    Flink 在快手应用场景与规模 1. Flink 在快手应用场景 快手计算链路是从 DB/Binlog 以及 WebService Log 实时入到 Kafka 中,然后接入 Flink 做实时计算,其中包括实时 ETL、实时分析、Interval Join 以及实时训练,最后的结果存到 Druid、ES 或者 HBase 里面,后面接入一些数据应用产品;同时这一份 Kafka 数据实时 Dump 一份到 Hadoop 集群,然后接入离线计算。
  • 07.26 16:58:12
    发表了文章 2019-07-26 16:58:12

    HDFS Federation简介

    背景 熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的,如下: 从上面可以看出 HDFS 的架构其实大致可以分为两层: Namespace:由目录,文件和数据块组成,支持常见的文件系统操作,例如创建,删除,修改和列出文件和目录。
  • 07.23 14:11:58
    发表了文章 2019-07-23 14:11:58

    7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】

    Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开,本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。
  • 07.15 10:29:41
    发表了文章 2019-07-15 10:29:41

    【译】使用Spark SQL 运行大规模基因组工作流

    将数据提取到Spark中是大多数大数据作业的第一步,但这并不是大数据旅途的终点。
  • 07.08 18:52:16
    发表了文章 2019-07-08 18:52:16

    7月10日直播【E-MapReduce产品探秘,扩展开源生态云上的能力】

    E-MapReduce的产品能力介绍,通过EMR来构建高效的云上大数据平台,优化云上的使用成本,更快的计算效率。
  • 07.08 10:58:25
    发表了文章 2019-07-08 10:58:25

    数据湖正在成为新的数据仓库

    新一代数据仓库实际上是数据湖,对那些用于构建和训练机器学习模型的清洗,整合和验证的数据进行管理。例如,去年秋天在Amazon re:Invent 大会上,亚马逊网络服务公布了AWS Lake Formation。
  • 07.05 11:17:37
    发表了文章 2019-07-05 11:17:37

    EMR Spark Runtime Filter性能优化

    Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查询性能,另一方面也可以减少资源的消耗(网络/IO/CPU等),在同样的资源的情况下可以支撑更多的查询。
  • 07.02 14:27:52
    发表了文章 2019-07-02 14:27:52

    钉钉群直播【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台】

    E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群,常见的使用场景和硬件选型指南。
  • 07.02 11:02:49
    发表了文章 2019-07-02 11:02:49

    钉钉群直播【Koalas 介绍】

    Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。
  • 07.01 11:24:07
    发表了文章 2019-07-01 11:24:07

    EMR Spark Relational Cache如何支持雪花模型中的关联匹配

    我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式,从而在加速用户查询的同时,减少创建和更新relational cache的代价。Record Preserve Join是支持这种优化的非常有效的方式。

2019年06月

  • 06.27 11:17:42
    发表了文章 2019-06-27 11:17:42

    使用Spark SQL进行流式机器学习计算(上)

    什么是流式机器学习, 机器学习模型获取途径, 系统演示
  • 06.24 10:39:30
    发表了文章 2019-06-24 10:39:30

    钉钉群直播【Spark Relational Cache 原理和实践】

    主要介绍Relational Cache/物化视图的历史和背景,以及EMR Spark基于Relational Cache加速Spark查询的技术方案,及如何通过基于Relational Cache的数据预计算和预组织,使用Spark支持亚秒级响应的交互式分析使用场景。
  • 06.21 10:48:15
    发表了文章 2019-06-21 10:48:15

    Spark Streaming 框架在 5G 中的应用

    在发展 5G 和 IoT 场景的准备阶段,爱立信研究了各种可扩展和灵活的流处理框架,以解决数据流水线问题以及提升整体性能。我们通过机器学习流数据进行自适应学习和智能决策从而实现各个领域的自动化。其中使用机器学习算法从流数据中逐步学习模型和获取信息是一个巨大的挑战。
  • 06.17 15:47:19
    发表了文章 2019-06-17 15:47:19

    钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】

    mlflow为企业提供一套开源的机器学习端到端工具,同时,project hydrogen项目旨在将AI框架与Spark更好的结合。本次直播介绍mlflow的场景和使用方式,project hydrogen的进展以及我们如何通过project hydrogen提供的能力更好的将Spark与AI结合。
  • 发表了文章 2021-12-22

    Lakehouse 架构解析与云上实践

  • 发表了文章 2021-12-17

    ClickHouse Keeper 源码解析

  • 发表了文章 2021-12-17

    【月刊】E-MapReduce 2021-11 产品月刊

  • 发表了文章 2021-12-16

    【月刊】E-MapReduce 2021-11 产品月刊

  • 发表了文章 2021-12-14

    【ClickHouse 技术系列】- ClickHouse 中的嵌套数据结构

  • 发表了文章 2021-12-14

    【ClickHouse 技术系列】- ClickHouse 聚合函数和聚合状态

  • 发表了文章 2021-12-09

    【ClickHouse 技术系列】- 在 ClickHouse 物化视图中使用 Join

  • 发表了文章 2021-12-08

    【ClickHouse 技术系列】- 使用新的 TTL move,将数据存储在合适的地方

  • 发表了文章 2021-12-06

    【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新

  • 发表了文章 2021-11-24

    基于 EMR OLAP 的开源实时数仓解决方案之 ClickHouse 事务实现

  • 发表了文章 2021-11-18

    如何构建云原生的开源大数据平台 | 产品新功能速递

  • 发表了文章 2021-11-18

    企业级数据湖最佳实践

  • 发表了文章 2021-11-11

    【月刊】E-MapReduce 2021-10 产品月刊

  • 发表了文章 2021-11-10

    如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践

  • 发表了文章 2021-11-09

    如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践

  • 发表了文章 2021-11-05

    如何构建云原生的开源大数据平台 | 云原生开源大数据应用实战

  • 发表了文章 2021-11-05

    百草味基于“ EMR+Databricks+DLF ”构建云上数据湖的最佳实践

  • 发表了文章 2021-11-02

    数据湖构建与计算

  • 发表了文章 2021-10-28

    云湖共生-释放企业数据价值

  • 发表了文章 2021-10-27

    贾扬清:云原生让数据湖加速迈入3.0时代

正在加载, 请稍后...
滑动查看更多
  • 提交了问题 2019-07-31

    阿里的EMR里推出了JindoFS, 也简称 jfs, 有用过的吗

  • 回答了问题 2019-07-31

    阿里的EMR里推出了JindoFS, 也简称 jfs, 有用过的吗

    Jindo 是阿里云 EMR 的技术代号,寓意在云上会玩的弹性计算,JindoFS 是这个技术体系下的存储解决方案。 阿里云 HDFS 是一款云存储产品,跟 OSS 是同一级别的。JindoFS 是 EMR 产品内部的一个统一存储解决方案,对接各种存储系统。 JindoFS 是个多模系统,缓存这种模式是支持的。 JindoFS和smartFS是同类功能。 JindoFS 跟 Alluxio可能有些类似。不过我们希望更轻量,对计算和业务更透明。毕竟 Alluxio 要满足业界的各种存储系统,但是阿里云 EMR 不需要考虑那么多。
    踩0 评论0
  • 提交了问题 2019-05-29

    读取emr高安全集群的hbase数据

  • 回答了问题 2019-07-17

    读取emr高安全集群的hbase数据

    公网环境 怎么理解走公网验证?为何不走vpn/nat方式1、本地环境和EMR交互 不在一个vpc下EMR在线上环境 vpn没有打通线上环境结果集有多大?,运算倒是可以这样搞,如果是频繁的业务交互 不建议这样,还不如 本地集群 想办法 利用 oss
    踩0 评论0
  • 提交了问题 2019-04-26

    Spark Streaming 作业运行一段时间后无故结束

  • 提交了问题 2019-04-26

    多个 ConsumerID 消费同一个 Topic 时出现 TPS 不一致问题

  • 提交了问题 2019-04-26

    第一次使用执行计划时没有安全组可选

  • 提交了问题 2019-04-26

    如何查看作业日志

  • 提交了问题 2019-04-26

    作业和执行计划的区别

  • 回答了问题 2019-07-17

    E-MapReduce与ODPS的区别

    E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
    踩0 评论0
  • 回答了问题 2019-07-17

    使用emapreduce集群,怎么访问公网呢?包括计费等能详细解析下吗?

    1.E-MapReduce目前默认会给集群的master节点开通公网IP,classic网络下按照流量收费,vpc网络下使用的是EIP,eip会收取使用费和流量费用,使用费按照小时计费(每个region不一样,看了一下大概0.05元/小时),但是如果绑定了ecs,那么不会收取使用费,只收取流量费 2.用户自己购买的ECS(不是从E-MapReduce购买),如果想访问E-MapReduce集群: a) classic网络的ECS -> classic网络的E-MapReduce集群,可以给E-MapReduce集群设置安全组,通过内网访问,不收取流量费用 b) classic网络的ECS -> vpc网络的E-MapReduce集群,只能通过公网访问E-MapReduce集群 c) vpc网络的ECS -> classic网络的E-MapReduce集群,只能通过公网访问E-MapReduce集群 d) vpc网络的ECS -> vpc网络的E-MapReduce集群,通过阿里云的高速通道产品进行连接访问 3.线下机器访问E-MapReduce集群,只能通过高速通道,而且E-MapReduce集群必须是VPC的 4.E-MapReduce集群访问公网 master节点默认有公网IP,可以直接访问公网,slave节点可以自己挂一个EIP,或者通过自己搭建一个NAT网关(详见https://help.aliyun.com/document_detail/27738.html)
    踩1 评论0
  • 回答了问题 2019-07-17

    我刚才提了个问题,postgresql的,说有敏感词汇,能否审核通过。

    应该很快就能通过
    踩0 评论0
  • 提交了问题 2016-05-26

    如何导出HBase的表的数据

  • 回答了问题 2019-07-17

    使用E-MapReduce,spark中读取oss文件

    看了你的日志,感觉是你的endpoint写错了把,你再确认一下。
    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息