3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

简介: Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。

相关阅读推荐:【通过Job Committer保证Mapreduce/Spark任务数据一致性】

主题:

Hadoop Job committer 的演化和发展

点击这里是直播间直达链接(回看链接)

时间

2020.3.5(周四)19:00

直播介绍:

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。

主讲人:

李呈祥,花名司麟 ,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。

请钉钉扫码至群内观看直播,与嘉宾互动有机会获得社区礼物一份。
Hadoop Job committer 的演化和发展3.5.png

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
分布式计算 Hadoop
|
分布式计算 Hadoop 索引
hadoop之多job串联(倒排索引案例)(15)
hadoop之多job串联(倒排索引案例)(15)
hadoop之多job串联(倒排索引案例)(15)
|
存储 分布式计算 Hadoop
Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中,设置自定义Partitioner、Partition 分区案例
Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中,设置自定义Partitioner、Partition 分区案例
Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中,设置自定义Partitioner、Partition 分区案例
|
存储 XML 缓存
Hadoop中的MapReduce框架原理、Job提交流程源码断点在哪断并且介绍相关源码、切片与MapTask并行度决定机制、MapTask并行度决定机制
Hadoop中的MapReduce框架原理、Job提交流程源码断点在哪断并且介绍相关源码、切片与MapTask并行度决定机制、MapTask并行度决定机制
Hadoop中的MapReduce框架原理、Job提交流程源码断点在哪断并且介绍相关源码、切片与MapTask并行度决定机制、MapTask并行度决定机制
|
分布式计算 Hadoop 大数据
7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】
庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。
7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】
|
SQL 存储 分布式计算
3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】
Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。
3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】
|
大数据 数据库 分布式计算
大数据(一) - hadoop生态系统及版本演化
大数据系列文章汇总链接 - 更新到15篇 HDFS:分布式存储系统(Hadoop Distributed File System):提供了高可靠性、高扩展性和高吞吐率的数据存储服务            HDFS源自于Google的GFS论文 (发表于2003年10月 ),是GFS克隆版YARN...
2149 0
|
存储 分布式计算 资源调度
从 hadoop 1.0 到 hadoop 2.0 的演化
Hadoop 1.0 到 Hadoop 2.0 的演化是怎样的呢,从中我们又能学到什么。。。
1329 0
|
存储 分布式计算 Hadoop
Hadoop客户端Job提交流程
从源码层面,总结下Hadoop客户端提交作业的流程:   1. 选择使用分布式环境通信协议,还是本地调试通信协议      org.apache.hadoop.mapreduce.Job#connect   2. 上传作业代码jobjar, libjar等,从本地文件系统到HDFS中去。     &nbsp
1804 0
|
4天前
|
存储 分布式计算 Hadoop
大数据之hadoop3入门到精通(一)
大数据之hadoop3入门到精通(一)