开发者社区

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

2020-03-03 1612

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分，为分布式任务的写入提供一致性的保证，本次分享主要介绍Job Committer的演进历史，以及社区和EMR在S3/OSS等云存储上的最新进展。

相关阅读推荐：【通过Job Committer保证Mapreduce/Spark任务数据一致性】

主题：

Hadoop Job committer 的演化和发展

点击这里是直播间直达链接（回看链接）

时间

2020.3.5（周四）19:00

直播介绍：

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分，为分布式任务的写入提供一致性的保证，本次分享主要介绍Job Committer的演进历史，以及社区和EMR在S3/OSS等云存储上的最新进展。

主讲人：

李呈祥，花名司麟，阿里云智能EMR团队高级技术专家，Apache Hive Committer， Apache Flink Committer，目前主要专注于EMR产品中开源计算引擎的优化工作。

请钉钉扫码至群内观看直播，与嘉宾互动有机会获得社区礼物一份。
Hadoop Job committer 的演化和发展3.5.png

文章标签：

开源大数据平台 E-MapReduce

流计算

分布式计算

SQL

对象存储

Spark

Apache

Hadoop

HIVE

存储

关键词：

hadoop job

jindofs直播hadoop job committer

hadoop演化

相关实践学习

数据湖构建DLF快速入门

本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析，介绍数据湖构建DLF产品的数据发现和数据探索功能。

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

阿里云E-MapReduce团队

目录

相关文章

auqbllxiu

|

分布式计算 Hadoop

《Why is my Hadoop job slow》电子版地址

Why is my Hadoop* job slow

auqbllxiu

47 0 0

《Why is my Hadoop job slow》电子版地址

怒放de生命

|

分布式计算 Hadoop 索引

hadoop之多job串联(倒排索引案例）(15)

hadoop之多job串联(倒排索引案例）(15)

怒放de生命

67 0 0

hadoop之多job串联(倒排索引案例）(15)

游客dk64xrhekz3ko

|

存储分布式计算 Hadoop

Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

游客dk64xrhekz3ko

154 0 0

Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

游客dk64xrhekz3ko

|

存储 XML 缓存

Hadoop中的MapReduce框架原理、Job提交流程源码断点在哪断并且介绍相关源码、切片与MapTask并行度决定机制、MapTask并行度决定机制

Hadoop中的MapReduce框架原理、Job提交流程源码断点在哪断并且介绍相关源码、切片与MapTask并行度决定机制、MapTask并行度决定机制

游客dk64xrhekz3ko

111 0 0

Hadoop中的MapReduce框架原理、Job提交流程源码断点在哪断并且介绍相关源码、切片与MapTask并行度决定机制、MapTask并行度决定机制

阿里云E-MapReduce团队

|

SQL 存储分布式计算

3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分，为分布式任务的写入提供一致性的保证，本次分享主要介绍Job Committer的演进历史，以及社区和EMR在S3/OSS等云存储上的最新进展。

阿里云E-MapReduce团队

612 0 0

3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

金鑫工程师

|

大数据数据库分布式计算

大数据(一) - hadoop生态系统及版本演化

大数据系列文章汇总链接 - 更新到15篇 HDFS：分布式存储系统（Hadoop Distributed File System）：提供了高可靠性、高扩展性和高吞吐率的数据存储服务 HDFS源自于Google的GFS论文 (发表于2003年10月 )，是GFS克隆版YARN...

金鑫工程师

2142 0 0

终日而思一

|

存储分布式计算资源调度

从 hadoop 1.0 到 hadoop 2.0 的演化

Hadoop 1.0 到 Hadoop 2.0 的演化是怎样的呢，从中我们又能学到什么。。。

终日而思一

1300 0 0

hyjshanghai

|

存储分布式计算 Hadoop

Hadoop客户端Job提交流程

从源码层面，总结下Hadoop客户端提交作业的流程： 1. 选择使用分布式环境通信协议，还是本地调试通信协议 org.apache.hadoop.mapreduce.Job#connect 2. 上传作业代码jobjar, libjar等，从本地文件系统到HDFS中去。 &nbsp

hyjshanghai

1781 0 0

技术小哥哥

|

分布式计算 Java Hadoop

Hadoop MapReduce编程 API入门系列之多个Job迭代式MapReduce运行（十二）

技术小哥哥

1686 0 0

听风de歌

|

4天前

|

存储分布式计算 Hadoop

大数据处理架构Hadoop

【4月更文挑战第10天】Hadoop是开源的分布式计算框架，核心包括MapReduce和HDFS，用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势，但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统，DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。

听风de歌

22 2 2

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

JindoFS: 云上大数据的高性能数据湖存储方案

Spark in action on Kubernetes - Playground搭建与架构浅析

JindoFS解析 - 云上大数据高性能数据湖存储方案

漫谈分布式计算框架

JindoFS概述：云原生的大数据计算存储分离方案

5W1H(六何分析法)全景洞察大数据

助力云上开源生态 - 阿里云开源大数据平台的发展

Apache Spark 3.0 将内置支持 GPU 调度

钉钉群直播【Spark Relational Cache 原理和实践】

通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统

EMR Notebook 开启公测，提供交互式数据分析平台

Apache Hadoop入门指南：搭建分布式大数据处理平台

阿里云向量检索 Milvus 版开启公测，助力企业打造高质量 AI 服务

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

实用工具推荐：适用于 TypeScript 网络爬取的常用爬虫框架与库

1688API接口推荐：1688按图搜索拍立淘数据接口

【玩转幻兽帕鲁部署】阿里云幻兽帕鲁服务器搭建1分钟搞定：从入门到精通

轻喜到家基于 EMR-StarRocks 构建实时湖仓分析平台实践

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

基于Hologres+Flink搭建GitHub实时数据大屏

基于EMR Serverless StarRocks一键玩转世界杯

使用Flink实时发现最热Github项目

EMR数据湖开发治理之用户画像分析

使用EMR+DLF+OSS-HDFS进行数据湖分析

XXL-JOB零改造迁移

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）