文档备案控制台

开发者社区问答正文

Hive中Tez相比于MapReduce的重大改进有哪些？

Hive中Tez相比于MapReduce的重大改进有哪些？

展开

收起

游客5n3d3br4o5qn4 2021-12-06 23:44:33 638 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客3htxdkat3ir3e

当查询需要有多个reduce逻辑时，Hive的MapReduce引擎会将计划分解，每个Redcue提交一个MR作业。这个链中的所有MR作业都需要逐个调度，每个作业都必须从HDFS中重新读取上一个作业的输出并重新洗牌。而在Tez中，几个reduce接收器可以直接连接，数据可以流水线传输，而不需要临时HDFS文件，这种模式称为MRR（Map-reduce-reduce*）。

Tez还允许一次发送整个查询计划，实现应用程序动态规划，从而使框架能够更智能地分配资源，并通过各个阶段流水线传输数据。对于更复杂的查询来说，这是一个巨大的改进，因为它消除了IO/sync障碍和各个阶段之间的调度开销。

在MapReduce计算引擎中，无论数据大小，在洗牌阶段都以相同的方式执行，将数据序列化到磁盘，再由下游的程序去拉取，并反序列化。Tez可以允许小数据集完全在内存中处理，而MapReduce中没有这样的优化。仓库查询经常需要在处理完大量的数据后对小型数据集进行排序或聚合，Tez的优化也能极大地提升效率。

2021-12-06 23:46:22

赞同展开评论

问答分类：

SQL HIVE

问答标签：

Hive mapreduce mapreduce hive 开源大数据平台 E-MapReduce hive 开源大数据平台 E-MapReduce tez

问答地址：

开发者社区 > 数据库 > 问答

相关问答

E-MapReduce Hive元数据介绍与对比

179

1

0

E-MapReduce能不使用原有固定的hive版本自行安装吗

156

1

0

E-MapReduce通过hive jdbc方式向集群提交多条不同类型的sql任务会偶发报错 ...

267

1

0

E-MapReduce使用hue上传本地excel文件到hive表中报错'metastore'...

228

1

0

E-MapReduce开启使用DLF统一元数据后本地开发spark程序想访问emr hive中...

175

0

0

E-MapReduce集群sqoop采集PG库数据到hive报错

220

1

0

阿里云E-MapReduce用自己搭建的DS，调用hive执行sql时，报这个错，是什么原因呢？

310

0

0

大数据计算MaxCompute是可以用hdfs和hive和mapreduce的吗？

224

0

0

E-MapReduce集群的Hive指标介绍

166

1

0

E-MapReduce中的Hive组件只能使用MR引擎吗

170

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

需要支持自定义Kimi k3 API

WordPress站点怎么进行速度优化？

电脑下载有https证书问题，浏览器有时加载不出网页显示ERR_SSL_VERSION_OR_CIP

Qoder如何自主打开浏览器？

关于国际版和国内版客户端购买套餐问题

相关文章

阿里云 EMR AI 助手正式发布：从问答工具到全栈智能运维助手

批量DML的性能与一致性：不是所有“批量操作”都应该用批量SQL

深度体验：2026外呼agent产品推荐

阿里云 Lindorm vs InfluxDB vs TDengine：时序数据库全维度对比，多模融合降本 90%

5层通信栈：多Agent集群为什么不能用一种方式通信

还有其他疑问?