阿里云E-MapReduce团队_个人页

阿里云E-MapReduce团队

文章

220

问答

视频

个人介绍

暂无个人介绍

擅长的技术

Java
Python
前端开发
Linux
数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

2020年11月

11.03 15:54:48

发表了文章 2020-11-03 15:54:48

精彩回顾 | 大数据+AI Meetup 2020 第二季 ·上海站（附PPT下载）

开源届前浪后浪全员凶猛，合体也成为主流。此次 Meetup 分享了 Flink 和 Iceberg，Flink 和 Hologres，Flink 和 Pulsar 的深度融合探索实践、Spark 高性能向量化查询引擎解析、热度冲天的数据湖存储架构选型、bilibili 和滴滴的 kafka 平台优化方案；还有Elasticsearch、开源流式存储系统 Pravega 的企业级实践。

2020年10月

10.26 20:16:21

发表了文章 2020-10-26 20:16:21

10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】

介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。
10.19 16:16:06

发表了文章 2020-10-19 16:16:06

下半年你关心的行业热点都在这里，BIGDATA+AI Meetup 2020第二站·上海站开启报名！

本次活动汇集2020年下半年开发者最关心的开源主题，搜罗了数据湖、数仓架构、实时计算等热门议题，9位行业资深专家，硬核输出，用实践说话。
10.19 11:20:03

发表了文章 2020-10-19 11:20:03

大数据上手实战！Spark 实战训练营第三季开启

首期大数据“9营齐开”计划吸引了10000+开发者报名参与，成为今夏最火爆的大数据训练营！伴随着第一季训练营的完美落幕，大数据训练营“九营齐开”第二季，暨Spark 实战训练营第三季开启！蓄势待发！
10.12 17:42:53

发表了文章 2020-10-12 17:42:53

10月15日社区直播【Intel MLlib：构建平台优化的Spark机器学习】

Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时，在底层利用原生算法库来实现在CPU和GPU上的最优化算法，同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明，该软件包在最小化应用改动的基础上，可以极大地提升MLlib算法的性能。

2020年09月

09.28 15:35:38

发表了文章 2020-09-28 15:35:38

如何实现Spark on Kubernetes？

大数据时代，以Oracle为代表的数据库中间件已经逐渐无法适应企业数字化转型的需求，Spark将会是比较好的大数据批处理引擎。而随着Kubernetes越来越火，很多数字化企业已经把在线业务搬到了Kubernetes之上，并希望在此之上建设一套统一的、完整的大数据基础架构。那么Spark on Kubernetes面临哪些挑战？又该如何解决？
09.28 14:42:02

发表了文章 2020-09-28 14:42:02

数据湖架构，为什么需要“湖加速”？

湖加速即为数据湖加速，是指在数据湖架构中，为了统一支持各种计算，对数据湖存储提供适配支持，进行优化和缓存加速的中间层技术。那么为什么需要湖加速？数据湖如何实现“加速”？本文将从三个方面来介绍湖加速背后的原因，分享阿里云在湖加速上的实践经验和技术方案。
09.18 11:24:41

发表了文章 2020-09-18 11:24:41

欢迎加入 databricks 数据洞察产品交流钉钉群

一起大数据吧！
09.18 11:01:39

发表了文章 2020-09-18 11:01:39

欢迎加入 E- MapReduce 钉钉产品交流群

一起大数据吧
09.15 20:55:03

发表了文章 2020-09-15 20:55:03

JindoFS 存储策略和读写优化

本次分享主要介绍数据读写在计算存储分离的场景下所面临的常见问题以及相关的优化手段，并结合JindoFS应用场景介绍对数据缓存加速的相关技术和策略。
09.14 23:14:33

发表了文章 2020-09-14 23:14:33

官宣！阿里云重磅发布云原生数据湖体系

介绍如何基于阿里云 OSS 、JindoFS 和数据湖构建（Data Lake Formation，DLF）等基础服务，同时结合阿里云上丰富的计算引擎，打造一个全新云原生数据湖体系。
09.14 23:04:45

发表了文章 2020-09-14 23:04:45

【数据湖开发治理篇】——数据湖开发治理平台DataWorks

元数据管理、数据集成、数据开发是数据湖需要解决的三大问题，阿里云的DataWorks作为一个通用的大数据平台，除了很好的解决了数仓场景的各类问题，也同样解决了数据湖场景中的核心痛点。
09.14 22:58:36

发表了文章 2020-09-14 22:58:36

Serverless Spark的弹性利器 - EMR Shuffle Service

在传统计算存储混合的架构中，为了兼顾计算和存储，CPU和存储设备都不能太差，因此牺牲了灵活性，提高了成本。在计算存储分离架构中，可以独立配置计算机型和存储机型，具有极大的灵活性，从而降低成本。
09.14 22:42:20

发表了文章 2020-09-14 22:42:20

云原生计算引擎挑战与解决方案

云原生比较有前景的实现就是Kubernetes，所以有时候我们一提到云原生，几乎就等价于是Kubernetes。
09.14 22:30:37

发表了文章 2020-09-14 22:30:37

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

Change Data Capture(CDC)用来跟踪捕获数据源的数据变化，并将这些变化同步到目标存储(如数据湖或数据仓库)，用于数据备份或后续分析，同步过程可以是分钟/小时/天等粒度，也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-intrusive manner)两种。
09.14 22:14:07

发表了文章 2020-09-14 22:14:07

多数据源一站式入湖

通过一站式入湖，将不同数据源的数据统一归并到以OSS对象存储为基础架构的集中式数据湖存储中，解决了企业面临的数据孤岛问题，为统一的数据分析打好了基础.
09.14 22:05:32

发表了文章 2020-09-14 22:05:32

多引擎集成挖掘湖上数据价值

在 EMR 集群创建阶段已经自动安装了数据构建服务的相关SDK，同时EMR上的开源计算引擎 Spark、Hive 和 Presto 都完成了对数据湖构建服务的兼容支持，所以用户通过 EMR 引擎可获得数据湖分析的最佳体验。
09.14 21:59:56

发表了文章 2020-09-14 21:59:56

数据湖元数据服务的实现和挑战

数据湖元数据服务为大数据而生，为互通生态而生，期望后续继续完善其服务能力和支撑更多的大数据引擎，通过开放的服务能力、存储能力、统一的权限及元数据管理能力，为客户节省管理/人力/存储等各项成本，实现客户自己的业务价值。
09.14 21:48:23

发表了文章 2020-09-14 21:48:23

JindoDistCp数据湖离线数据迁移最佳实践

JindoDistCp是阿里云E-MapReduce团队开发的大规模集群内部和集群之间分布式文件拷贝的工具
09.14 21:02:54

发表了文章 2020-09-14 21:02:54

JindoTable数据湖优化与查询加速

近几年，数据湖架构的概念逐渐兴起，很多企业都在尝试构建数据湖。相比较大数据平台，数据湖在数据治理方面提出了更高的要求。对于数据湖场景所提出的新需求，“传统”的大数据工具在很多方面都面临着新的挑战。JindoTable 正是专为解决数据湖管理结构化数据甚至是半结构化数据的痛点而设计的，包括数据治理功能和查询加速功能。
09.14 20:53:47

发表了文章 2020-09-14 20:53:47

JindoFS缓存加速数据湖上的机器学习训练

JindoFS提供了一个计算侧的分布式缓存系统，可以有效利用计算集群上的本地存储资源（磁盘或者内存）缓存OSS上的热数据，从而减少对OSS上数据的反复拉取，消耗网络带宽。
09.14 20:38:00

发表了文章 2020-09-14 20:38:00

基于JindoFS+OSS构建高效数据湖

Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎
09.14 20:16:54

发表了文章 2020-09-14 20:16:54

基于OSS的EB级数据湖

数据湖无缝对接多种计算分析平台，对Hadoop生态支持良好，存储在数据湖中的数据可以直接对其进行数据分析、处理、查询，通过对数据深入挖掘与分析，洞察数据中蕴含的价值。
09.14 18:39:09

发表了文章 2020-09-14 18:39:09

阿里巴巴数据湖技术对外公布

数据湖构建·Data Lake Formation是阿里巴巴数据湖团队带来的最新一站式入湖解决方案，助力企业无缝对接多种计算引擎，打破孤岛，洞察业务价值。本技术圈会持续发布最新产品动向和技术解读，更有不定期视频直播，与您一起完成企业大数据架构转型。敬请关注
09.14 10:58:47

发表了文章 2020-09-14 10:58:47

阿里云 EMR 产品内部培训课程首次免费对外公开！

EMR产品技术团队将在这四节课中，循序渐进的为大家介绍一个开源大数据平台的产品产生背景、使用场景、操作规则等，更多的是面对企业实际需求时，阿里云大数据团队的一些思考方式。
09.09 11:57:18

发表了文章 2020-09-09 11:57:18

9月10日 Spark 社区直播【利用持久内存提速Spark】

主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。
09.04 22:37:03

发表了文章 2020-09-04 22:37:03

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

EMR团队探索并开发了SparkSQL Native Codegen框架，为SparkSQL换了引擎，新引擎带来最高4倍性能提升，为EMR再次获取世界第一立下汗马功劳。来自阿里云EMR团队的周克勇将详细介绍Native Codegen框架。

2020年08月

08.25 14:33:42

发表了文章 2020-08-25 14:33:42

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化，使用索引和缓存来解决交互式查询性能挑战。
08.21 18:04:32

发表了文章 2020-08-21 18:04:32

使用 E-MapReduce 构建云上数据湖

本篇来自于阿里巴巴E-MapReduce(简称为EMR)产品经理子关，分享云上使用E-MapReduce快速构建企业数据湖的落地方案以及客户最佳实践。
08.20 15:29:11

发表了文章 2020-08-20 15:29:11

文末有福利！Spark 实战训练营新增1000名额，8月24日正式开课

Spark 实战训练营新增1000名额，8月24日正式开课
08.19 14:58:00

发表了文章 2020-08-19 14:58:00

Apache Spark™ 3.0中全新的Structured Streaming UI

Spark 3.0中新的Structured Streaming UI会提供一些有用的信息和统计数据，以此来监视所有流作业，便于在开发调试过程中排除故障。同时，开发者还能够获得实时的监测数据，这能使生产流程更直观。
08.18 11:03:08

发表了文章 2020-08-18 11:03:08

9大训练营免费开营！阿里云大数据团队的独门绝学全在这了

阿里云智能高级研究员贾扬清出品，实时计算 Flink、Hologres、EMR、机器学习 PAI、MaxCompute、DataWorks、ElasticSearch 等多个技术/产品一线专家齐上阵，核心开发阵容在线直播教学。
08.13 17:00:16

发表了文章 2020-08-13 17:00:16

Spark 3.0 对于 DATE 和 TIMESTAMP 的改进

本文将会深入介绍DATE和TIMESTAMP
08.11 13:04:19

发表了文章 2020-08-11 13:04:19

深入研究Apache Spark 3.0的新功能

分享嘉宾 Apache Spark PMC李潇，就职于 Databricks，Spark 研发部主管，领导 Spark，Koalas，Databricks runtime，OEM 的研发团队，在直播中为大家深入讲解了Apache Spark 3.0的新功能。
08.05 19:17:54

发表了文章 2020-08-05 19:17:54

稳赚不赔～Spark社区招募志愿者！

可能是21世纪唯一不看颜值只看人品的招募

2020年07月

07.30 14:06:47

发表了文章 2020-07-30 14:06:47

7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】

EMR团队探索并开发了SparkSQL Native Codegen框架，为SparkSQL换了引擎，新引擎带来最高4倍性能提升，为EMR再次获取世界第一立下汗马功劳，本次直播将详细介绍Native Codegen框架。
07.30 12:16:12

发表了文章 2020-07-30 12:16:12

Databricks数据洞察限时免费开启公测！

企业级批流一体的Spark大数据分析平台，无论是数据分析师、数据开发工程师还是数据科学家，均可以通过Databricks数据洞察（DDI)分析平台，实现协同合作和数据共享，满足在大数据下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。
07.09 14:28:38

发表了文章 2020-07-09 14:28:38

重磅：阿里云 JindoFS SDK 全面开放使用，OSS 文件各项操作性能得到大幅提升

本文主要介绍如何使用JindoFS SDK来访问OSS对象存储，以及使用它来提升我们操作OSS文件的性能。值得一提的是，此前JindoFS SDK 仅限于E-MapReduce产品内部使用，此次全方位面向整个阿里云OSS用户放开，并提供官方维护和支持技术，欢迎广大用户集成和使用。
07.08 16:55:36

发表了文章 2020-07-08 16:55:36

7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】

为什么要优化spark时间窗口 - 未加速前面临问题 - 为什么要使用llvm加速而不是继续优化jvm codegen - 实现介绍-llvm 版本sql引擎设计 - 如何与spark集成 - benchmark数据 vs spark3.0
07.07 11:24:15

发表了文章 2020-07-07 11:24:15

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

超乎你想象的干货合集打包带走！
07.05 23:17:59

发表了文章 2020-07-05 23:17:59

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
07.03 15:57:54

发表了文章 2020-07-03 15:57:54

Delta Lake 如何帮助云用户解决数据实时入库问题

Delta Lake 自发布以来得到了业界广泛的关注，其提供的 ACID 支持、历史版本回溯、UPDATE/DELETE/MERGE INTO 语法支持等功能完美契合了用户对数据湖内容管理的需求；其 Multi-Hop 架构的流批一体设计极大简化了用户运维数据管道的成本，使得传统的 ETL 流程进化为更灵活的 ELT+ 流程。在本次演讲中，我们将分享 EMR 是如何利用 Delta Lake 帮助用户解决数据实时入库的问题，以及在这个过程中我们对 Delta Lake 做了哪些有益的提升和探索。
07.02 17:42:54

发表了文章 2020-07-02 17:42:54

JindoFS - 分层存储

JindoFS 存储内部我们是通过分层存储来降低这部分冷数据的存储成本，提高热数据的访问性能。
07.01 15:10:58

发表了文章 2020-07-01 15:10:58

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

2020年06月

06.30 14:19:24

发表了文章 2020-06-30 14:19:24

SPARK中文峰会上海会场预告篇｜Ray On Spark

SPARK + AI SUMMIT 2020 中文精华版线上峰会，上海会场的讲师议题介绍来咯～
06.29 16:27:26

发表了文章 2020-06-29 16:27:26

7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响，严重时甚至影响业务稳定性，这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法，并基于分析结果可以采取哪些处理措施。
06.28 18:21:30

发表了文章 2020-06-28 18:21:30

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
06.25 12:29:18

发表了文章 2020-06-25 12:29:18

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

在Spark + AI Summit 2020上， Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰，在性能上大幅超越 Presto。在过去几年，我们见过了太多的 benchmark，大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心，可谓及时雨。
06.23 18:07:30

发表了文章 2020-06-23 18:07:30

【程序员（媛）国人之光】知（美）识（色）贩卖贴】非标题党】

6月spark社区活动ing～
06.22 14:35:58

发表了文章 2020-06-22 14:35:58

6月23日 Spark 社区技术直播【半小时，将你的Spark SQL模型变为在线服务】

SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大我们是如何解决这些问题相对传统实现方式我们优势 SparkSQL实时上线demo

发表了文章 2021-12-22

Lakehouse 架构解析与云上实践
发表了文章 2021-12-17

ClickHouse Keeper 源码解析
发表了文章 2021-12-17

【月刊】E-MapReduce 2021-11 产品月刊
发表了文章 2021-12-16

【月刊】E-MapReduce 2021-11 产品月刊
发表了文章 2021-12-14

【ClickHouse 技术系列】- ClickHouse 中的嵌套数据结构
发表了文章 2021-12-14

【ClickHouse 技术系列】- ClickHouse 聚合函数和聚合状态
发表了文章 2021-12-09

【ClickHouse 技术系列】- 在 ClickHouse 物化视图中使用 Join
发表了文章 2021-12-08

【ClickHouse 技术系列】- 使用新的 TTL move，将数据存储在合适的地方
发表了文章 2021-12-06

【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新
发表了文章 2021-11-24

基于 EMR OLAP 的开源实时数仓解决方案之 ClickHouse 事务实现
发表了文章 2021-11-18

如何构建云原生的开源大数据平台 | 产品新功能速递
发表了文章 2021-11-18

企业级数据湖最佳实践
发表了文章 2021-11-11

【月刊】E-MapReduce 2021-10 产品月刊
发表了文章 2021-11-10

如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践
发表了文章 2021-11-09

如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践
发表了文章 2021-11-05

如何构建云原生的开源大数据平台 | 云原生开源大数据应用实战
发表了文章 2021-11-05

百草味基于“ EMR+Databricks+DLF ”构建云上数据湖的最佳实践
发表了文章 2021-11-02

数据湖构建与计算
发表了文章 2021-10-28

云湖共生-释放企业数据价值
发表了文章 2021-10-27

贾扬清：云原生让数据湖加速迈入3.0时代

正在加载, 请稍后...

滑动查看更多

提交了问题 2019-07-31

阿里的EMR里推出了JindoFS, 也简称 jfs, 有用过的吗
回答了问题 2019-07-31

阿里的EMR里推出了JindoFS, 也简称 jfs, 有用过的吗

Jindo 是阿里云 EMR 的技术代号，寓意在云上会玩的弹性计算，JindoFS 是这个技术体系下的存储解决方案。阿里云 HDFS 是一款云存储产品，跟 OSS 是同一级别的。JindoFS 是 EMR 产品内部的一个统一存储解决方案，对接各种存储系统。 JindoFS 是个多模系统，缓存这种模式是支持的。 JindoFS和smartFS是同类功能。 JindoFS 跟 Alluxio可能有些类似。不过我们希望更轻量，对计算和业务更透明。毕竟 Alluxio 要满足业界的各种存储系统，但是阿里云 EMR 不需要考虑那么多。

赞0 踩0 评论0
提交了问题 2019-05-29

读取emr高安全集群的hbase数据
回答了问题 2019-07-17

读取emr高安全集群的hbase数据

公网环境怎么理解走公网验证？为何不走vpn/nat方式1、本地环境和EMR交互不在一个vpc下EMR在线上环境 vpn没有打通线上环境结果集有多大？，运算倒是可以这样搞，如果是频繁的业务交互不建议这样，还不如本地集群想办法利用 oss

赞0 踩0 评论0
提交了问题 2019-04-26

Spark Streaming 作业运行一段时间后无故结束
提交了问题 2019-04-26

多个 ConsumerID 消费同一个 Topic 时出现 TPS 不一致问题
提交了问题 2019-04-26

第一次使用执行计划时没有安全组可选
提交了问题 2019-04-26

如何查看作业日志
提交了问题 2019-04-26

作业和执行计划的区别
回答了问题 2019-07-17

E-MapReduce与ODPS的区别

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。大数据计算服务(MaxCompute，原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。

赞0 踩0 评论0
回答了问题 2019-07-17

使用emapreduce集群，怎么访问公网呢？包括计费等能详细解析下吗？

1.E-MapReduce目前默认会给集群的master节点开通公网IP，classic网络下按照流量收费，vpc网络下使用的是EIP，eip会收取使用费和流量费用，使用费按照小时计费(每个region不一样，看了一下大概0.05元/小时)，但是如果绑定了ecs，那么不会收取使用费，只收取流量费 2.用户自己购买的ECS(不是从E-MapReduce购买)，如果想访问E-MapReduce集群： a) classic网络的ECS -> classic网络的E-MapReduce集群,可以给E-MapReduce集群设置安全组,通过内网访问，不收取流量费用 b) classic网络的ECS -> vpc网络的E-MapReduce集群,只能通过公网访问E-MapReduce集群 c) vpc网络的ECS -> classic网络的E-MapReduce集群,只能通过公网访问E-MapReduce集群 d) vpc网络的ECS -> vpc网络的E-MapReduce集群,通过阿里云的高速通道产品进行连接访问 3.线下机器访问E-MapReduce集群，只能通过高速通道，而且E-MapReduce集群必须是VPC的 4.E-MapReduce集群访问公网 master节点默认有公网IP，可以直接访问公网，slave节点可以自己挂一个EIP，或者通过自己搭建一个NAT网关(详见https://help.aliyun.com/document_detail/27738.html)

赞0 踩1 评论0
回答了问题 2019-07-17

我刚才提了个问题，postgresql的，说有敏感词汇，能否审核通过。

应该很快就能通过

赞0 踩0 评论0
提交了问题 2016-05-26

如何导出HBase的表的数据
回答了问题 2019-07-17

使用E-MapReduce,spark中读取oss文件

看了你的日志，感觉是你的endpoint写错了把，你再确认一下。

赞0 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

阿里云E-MapReduce团队_个人页

个人介绍

擅长的技术

Lakehouse 架构解析与云上实践

ClickHouse Keeper 源码解析

【月刊】E-MapReduce 2021-11 产品月刊

【月刊】E-MapReduce 2021-11 产品月刊

【ClickHouse 技术系列】- ClickHouse 中的嵌套数据结构

【ClickHouse 技术系列】- ClickHouse 聚合函数和聚合状态

【ClickHouse 技术系列】- 在 ClickHouse 物化视图中使用 Join

【ClickHouse 技术系列】- 使用新的 TTL move，将数据存储在合适的地方

【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新

基于 EMR OLAP 的开源实时数仓解决方案之 ClickHouse 事务实现

如何构建云原生的开源大数据平台 | 产品新功能速递

企业级数据湖最佳实践

【月刊】E-MapReduce 2021-10 产品月刊

如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践

如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践

如何构建云原生的开源大数据平台 | 云原生开源大数据应用实战

百草味基于“ EMR+Databricks+DLF ”构建云上数据湖的最佳实践

数据湖构建与计算

云湖共生-释放企业数据价值

贾扬清：云原生让数据湖加速迈入3.0时代

阿里的EMR里推出了JindoFS, 也简称 jfs, 有用过的吗

阿里的EMR里推出了JindoFS, 也简称 jfs, 有用过的吗

读取emr高安全集群的hbase数据

读取emr高安全集群的hbase数据

Spark Streaming 作业运行一段时间后无故结束

多个 ConsumerID 消费同一个 Topic 时出现 TPS 不一致问题

第一次使用执行计划时没有安全组可选

如何查看作业日志

作业和执行计划的区别

E-MapReduce与ODPS的区别

使用emapreduce集群，怎么访问公网呢？包括计费等能详细解析下吗？

我刚才提了个问题，postgresql的，说有敏感词汇，能否审核通过。

如何导出HBase的表的数据

使用E-MapReduce,spark中读取oss文件