阿里云E-MapReduce团队_个人页

个人头像照片 阿里云E-MapReduce团队
个人头像照片 个人头像照片 个人头像照片
217
14
0

个人介绍

暂无个人介绍

擅长的技术

  • Java
  • Python
  • 前端开发
  • Linux
  • 数据库
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2020年11月

  • 11.03 15:54:48
    发表了文章 2020-11-03 15:54:48

    精彩回顾 | 大数据+AI Meetup 2020 第二季 ·上海站(附PPT下载)

    开源届前浪后浪全员凶猛,合体也成为主流。此次 Meetup 分享了 Flink 和 Iceberg,Flink 和 Hologres,Flink 和 Pulsar 的深度融合探索实践、Spark 高性能向量化查询引擎解析、热度冲天的数据湖存储架构选型、bilibili 和滴滴的 kafka 平台优化方案;还 有Elasticsearch、开源流式存储系统 Pravega 的企业级实践。

2020年10月

2020年09月

  • 09.28 15:35:38
    发表了文章 2020-09-28 15:35:38

    如何实现Spark on Kubernetes?

    大数据时代,以Oracle为代表的数据库中间件已经逐渐无法适应企业数字化转型的需求,Spark将会是比较好的大数据批处理引擎。而随着Kubernetes越来越火,很多数字化企业已经把在线业务搬到了Kubernetes之上,并希望在此之上建设一套统一的、完整的大数据基础架构。那么Spark on Kubernetes面临哪些挑战?又该如何解决?
  • 09.28 14:42:02
    发表了文章 2020-09-28 14:42:02

    数据湖架构,为什么需要“湖加速”?

    湖加速即为数据湖加速,是指在数据湖架构中,为了统一支持各种计算,对数据湖存储提供适配支持,进行优化和缓存加速的中间层技术。那么为什么需要湖加速?数据湖如何实现“加速”?本文将从三个方面来介绍湖加速背后的原因,分享阿里云在湖加速上的实践经验和技术方案。
  • 09.18 11:24:41
    发表了文章 2020-09-18 11:24:41
  • 09.18 11:01:39
    发表了文章 2020-09-18 11:01:39
  • 09.15 20:55:03
    发表了文章 2020-09-15 20:55:03

    JindoFS 存储策略和读写优化

    本次分享主要介绍数据读写在计算存储分离的场景下所面临的常见问题以及相关的优化手段,并结合JindoFS应用场景介绍对数据缓存加速的相关技术和策略。
  • 09.14 23:14:33
    发表了文章 2020-09-14 23:14:33

    官宣!阿里云重磅发布云原生数据湖体系

    介绍如何基于阿里云 OSS 、JindoFS 和数据湖构建(Data Lake Formation,DLF)等基础服务,同时结合阿里云上丰富的计算引擎,打造一个全新云原生数据湖体系。
  • 09.14 23:04:45
    发表了文章 2020-09-14 23:04:45

    【数据湖开发治理篇】——数据湖开发治理平台DataWorks

    元数据管理、数据集成、数据开发是数据湖需要解决的三大问题,阿里云的DataWorks作为一个通用的大数据平台,除了很好的解决了数仓场景的各类问题,也同样解决了数据湖场景中的核心痛点。
  • 09.14 22:58:36
    发表了文章 2020-09-14 22:58:36

    Serverless Spark的弹性利器 - EMR Shuffle Service

    在传统计算存储混合的架构中,为了兼顾计算和存储,CPU和存储设备都不能太差,因此牺牲了灵活性,提高了成本。在计算存储分离架构中,可以独立配置计算机型和存储机型,具有极大的灵活性,从而降低成本。
  • 09.14 22:42:20
    发表了文章 2020-09-14 22:42:20

    云原生计算引擎挑战与解决方案

    云原生比较有前景的实现就是Kubernetes,所以有时候我们一提到云原生,几乎就等价于是Kubernetes。
  • 09.14 22:30:37
    发表了文章 2020-09-14 22:30:37

    数据湖构建服务搭配Delta Lake玩转CDC实时入湖

    Change Data Capture(CDC)用来跟踪捕获数据源的数据变化,并将这些变化同步到目标存储(如数据湖或数据仓库),用于数据备份或后续分析,同步过程可以是分钟/小时/天等粒度,也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-intrusive manner)两种。
  • 09.14 22:14:07
    发表了文章 2020-09-14 22:14:07

    多数据源一站式入湖

    通过一站式入湖,将不同数据源的数据统一归并到以OSS对象存储为基础架构的集中式数据湖存储中,解决了企业面临的数据孤岛问题,为统一的数据分析打好了基础.
  • 09.14 22:05:32
    发表了文章 2020-09-14 22:05:32

    多引擎集成挖掘湖上数据价值

    在 EMR 集群创建阶段已经自动安装了数据构建服务的相关SDK,同时EMR上的开源计算引擎 Spark、Hive 和 Presto 都完成了对数据湖构建服务的兼容支持,所以用户通过 EMR 引擎可获得数据湖分析的最佳体验。
  • 09.14 21:59:56
    发表了文章 2020-09-14 21:59:56

    数据湖元数据服务的实现和挑战

    数据湖元数据服务为大数据而生,为互通生态而生,期望后续继续完善其服务能力和支撑更多的大数据引擎,通过开放的服务能力、存储能力、统一的权限及元数据管理能力,为客户节省管理/人力/存储等各项成本,实现客户自己的业务价值。
  • 09.14 21:48:23
    发表了文章 2020-09-14 21:48:23

    JindoDistCp数据湖离线数据迁移最佳实践

    JindoDistCp是阿里云E-MapReduce团队开发的大规模集群内部和集群之间分布式文件拷贝的工具
  • 09.14 21:02:54
    发表了文章 2020-09-14 21:02:54

    JindoTable数据湖优化与查询加速

    近几年,数据湖架构的概念逐渐兴起,很多企业都在尝试构建数据湖。相比较大数据平台,数据湖在数据治理方面提出了更高的要求。对于数据湖场景所提出的新需求,“传统”的大数据工具在很多方面都面临着新的挑战。JindoTable 正是专为解决数据湖管理结构化数据甚至是半结构化数据的痛点而设计的,包括数据治理功能和查询加速功能。
  • 09.14 20:53:47
    发表了文章 2020-09-14 20:53:47

    JindoFS缓存加速数据湖上的机器学习训练

    JindoFS提供了一个计算侧的分布式缓存系统,可以有效利用计算集群上的本地存储资源(磁盘或者内存)缓存OSS上的热数据,从而减少对OSS上数据的反复拉取,消耗网络带宽。
  • 09.14 20:38:00
    发表了文章 2020-09-14 20:38:00

    基于JindoFS+OSS构建高效数据湖

    Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎
  • 09.14 20:16:54
    发表了文章 2020-09-14 20:16:54

    基于OSS的EB级数据湖

    数据湖无缝对接多种计算分析平台,对Hadoop生态支持良好,存储在数据湖中的数据可以直接对其进行数据分析、处理、查询,通过对数据深入挖掘与分析,洞察数据中蕴含的价值。
  • 09.14 18:39:09
    发表了文章 2020-09-14 18:39:09

    阿里巴巴数据湖技术对外公布

    数据湖构建·Data Lake Formation是阿里巴巴数据湖团队带来的最新一站式入湖解决方案,助力企业无缝对接多种计算引擎,打破孤岛,洞察业务价值。本技术圈会持续发布最新产品动向和技术解读,更有不定期视频直播,与您一起完成企业大数据架构转型。敬请关注
  • 09.14 10:58:47
    发表了文章 2020-09-14 10:58:47

    阿里云 EMR 产品内部培训课程首次免费对外公开!

    EMR产品技术团队将在这四节课中,循序渐进的为大家介绍一个开源大数据平台的产品产生背景、使用场景、操作规则等,更多的是面对企业实际需求时,阿里云大数据团队的一些思考方式。
  • 09.09 11:57:18
    发表了文章 2020-09-09 11:57:18

    9月10日 Spark 社区直播【利用持久内存提速Spark】

    主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。
  • 09.04 22:37:03
    发表了文章 2020-09-04 22:37:03

    EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

    EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳。来自阿里云EMR团队的周克勇将详细介绍Native Codegen框架。

2020年08月

2020年07月

  • 07.30 14:06:47
    发表了文章 2020-07-30 14:06:47

    7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】

    EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳,本次直播将详细介绍Native Codegen框架。
  • 07.30 12:16:12
    发表了文章 2020-07-30 12:16:12

    Databricks数据洞察 限时免费开启公测!

    企业级批流一体的Spark大数据分析平台,无论是数据分析师、数据开发工程师还是数据科学家,均可以通过Databricks数据洞察(DDI)分析平台,实现协同合作和数据共享,满足在大数据下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。
  • 07.09 14:28:38
    发表了文章 2020-07-09 14:28:38

    重磅:阿里云 JindoFS SDK 全面开放使用,OSS 文件各项操作性能得到大幅提升

    本文主要介绍如何使用JindoFS SDK来访问OSS对象存储,以及使用它来提升我们操作OSS文件的性能。值得一提的是,此前JindoFS SDK 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。
  • 07.08 16:55:36
    发表了文章 2020-07-08 16:55:36

    7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】

    为什么要优化spark时间窗口 - 未加速前面临问题 - 为什么要使用llvm加速而不是继续优化jvm codegen - 实现介绍-llvm 版本sql引擎设计 - 如何与spark集成 - benchmark数据 vs spark3.0
  • 07.07 11:24:15
    发表了文章 2020-07-07 11:24:15
  • 07.05 23:17:59
    发表了文章 2020-07-05 23:17:59

    SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

    SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
  • 07.03 15:57:54
    发表了文章 2020-07-03 15:57:54

    Delta Lake 如何帮助云用户解决数据实时入库问题

    Delta Lake 自发布以来得到了业界广泛的关注,其提供的 ACID 支持、历史版本回溯、UPDATE/DELETE/MERGE INTO 语法支持等功能完美契合了用户对数据湖内容管理的需求;其 Multi-Hop 架构 的流批一体设计极大简化了用户运维数据管道的成本,使得传统的 ETL 流程进化为更灵活的 ELT+ 流程。 在本次演讲中,我们将分享 EMR 是如何利用 Delta Lake 帮助用户解决数据实时入库的问题,以及在这个过程中我们对 Delta Lake 做了哪些有益的提升和探索。
  • 07.02 17:42:54
    发表了文章 2020-07-02 17:42:54

    JindoFS - 分层存储

    JindoFS 存储内部我们是通过分层存储来降低这部分冷数据的存储成本,提高热数据的访问性能。
  • 07.01 15:10:58
    发表了文章 2020-07-01 15:10:58

    SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

    SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

2020年06月

  • 发表了文章 2021-12-22

    Lakehouse 架构解析与云上实践

  • 发表了文章 2021-12-17

    ClickHouse Keeper 源码解析

  • 发表了文章 2021-12-17

    【月刊】E-MapReduce 2021-11 产品月刊

  • 发表了文章 2021-12-16

    【月刊】E-MapReduce 2021-11 产品月刊

  • 发表了文章 2021-12-14

    【ClickHouse 技术系列】- ClickHouse 中的嵌套数据结构

  • 发表了文章 2021-12-14

    【ClickHouse 技术系列】- ClickHouse 聚合函数和聚合状态

  • 发表了文章 2021-12-09

    【ClickHouse 技术系列】- 在 ClickHouse 物化视图中使用 Join

  • 发表了文章 2021-12-08

    【ClickHouse 技术系列】- 使用新的 TTL move,将数据存储在合适的地方

  • 发表了文章 2021-12-06

    【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新

  • 发表了文章 2021-11-24

    基于 EMR OLAP 的开源实时数仓解决方案之 ClickHouse 事务实现

  • 发表了文章 2021-11-18

    如何构建云原生的开源大数据平台 | 产品新功能速递

  • 发表了文章 2021-11-18

    企业级数据湖最佳实践

  • 发表了文章 2021-11-11

    【月刊】E-MapReduce 2021-10 产品月刊

  • 发表了文章 2021-11-10

    如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践

  • 发表了文章 2021-11-09

    如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践

  • 发表了文章 2021-11-05

    如何构建云原生的开源大数据平台 | 云原生开源大数据应用实战

  • 发表了文章 2021-11-05

    百草味基于“ EMR+Databricks+DLF ”构建云上数据湖的最佳实践

  • 发表了文章 2021-11-02

    数据湖构建与计算

  • 发表了文章 2021-10-28

    云湖共生-释放企业数据价值

  • 发表了文章 2021-10-27

    贾扬清:云原生让数据湖加速迈入3.0时代

正在加载, 请稍后...
滑动查看更多
  • 回答了问题 2019-07-31

    阿里的EMR里推出了JindoFS, 也简称 jfs, 有用过的吗

    Jindo 是阿里云 EMR 的技术代号,寓意在云上会玩的弹性计算,JindoFS 是这个技术体系下的存储解决方案。

    阿里云 HDFS 是一款云存储产品,跟 OSS 是同一级别的。JindoFS 是 EMR 产品内部的一个统一存储解决方案,对接各种存储系统。

    JindoFS 是个多模系统,缓存这种模式是支持的。

    JindoFS和smartFS是同类功能。

    JindoFS 跟 Alluxio可能有些类似。不过我们希望更轻量,对计算和业务更透明。毕竟 Alluxio 要满足业界的各种存储系统,但是阿里云 EMR 不需要考虑那么多。

    架构图.png

    二维码.JPG

    踩0 评论0
  • 提交了问题 2019-07-31

    阿里的EMR里推出了JindoFS, 也简称 jfs, 有用过的吗

  • 回答了问题 2019-07-17

    读取emr高安全集群的hbase数据

    1. 公网环境 怎么理解
    2. 走公网验证?

    为何不走vpn/nat方式

    1、本地环境和EMR交互 不在一个vpc下
    EMR在线上环境 vpn没有打通线上环境

    结果集有多大?,运算倒是可以这样搞,如果是频繁的业务交互 不建议这样,还不如 本地集群 想办法 利用 oss

    踩0 评论0
  • 提交了问题 2019-05-29

    读取emr高安全集群的hbase数据

  • 提交了问题 2019-04-26

    Spark Streaming 作业运行一段时间后无故结束

  • 提交了问题 2019-04-26

    多个 ConsumerID 消费同一个 Topic 时出现 TPS 不一致问题

  • 提交了问题 2019-04-26

    第一次使用执行计划时没有安全组可选

  • 提交了问题 2019-04-26

    如何查看作业日志

  • 提交了问题 2019-04-26

    作业和执行计划的区别

  • 回答了问题 2019-07-17

    E-MapReduce与ODPS的区别

    E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。

    大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

    踩2 评论0
  • 回答了问题 2019-07-17

    使用emapreduce集群,怎么访问公网呢?包括计费等能详细解析下吗?

    1.E-MapReduce目前默认会给集群的master节点开通公网IP,classic网络下按照流量收费,vpc网络下使用的是EIP,eip会收取使用费和流量费用,使用费按照小时计费(每个region不一样,看了一下大概0.05元/小时),但是如果绑定了ecs,那么不会收取使用费,只收取流量费

    2.用户自己购买的ECS(不是从E-MapReduce购买),如果想访问E-MapReduce集群:
    a) classic网络的ECS -> classic网络的E-MapReduce集群,可以给E-MapReduce集群设置安全组,通过内网访问,不收取流量费用
    b) classic网络的ECS -> vpc网络的E-MapReduce集群,只能通过公网访问E-MapReduce集群
    c) vpc网络的ECS -> classic网络的E-MapReduce集群,只能通过公网访问E-MapReduce集群
    d) vpc网络的ECS -> vpc网络的E-MapReduce集群,通过阿里云的高速通道产品进行连接访问

    3.线下机器访问E-MapReduce集群,只能通过高速通道,而且E-MapReduce集群必须是VPC的

    4.E-MapReduce集群访问公网
    master节点默认有公网IP,可以直接访问公网,slave节点可以自己挂一个EIP,或者通过自己搭建一个NAT网关(详见https://help.aliyun.com/document_detail/27738.html)

    踩0 评论0
  • 回答了问题 2019-07-17

    我刚才提了个问题,postgresql的,说有敏感词汇,能否审核通过。

    应该很快就能通过

    踩0 评论0
  • 提交了问题 2016-05-26

    如何导出HBase的表的数据

  • 回答了问题 2019-07-17

    使用E-MapReduce,spark中读取oss文件

    看了你的日志,感觉是你的endpoint写错了把,你再确认一下。

    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息