备案控制台

开发者社区大数据文章正文

一个简单的HQL优化

2017-11-08 881

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

线上做Job迁移：从GP迁移到Hadoop，发现有些Job原来跑了2-3分钟到Hadoop上跑到10分钟左右，这样的话会影响到迁移的效果；一个明显的Query如下：

Insertinto table_big partition(dt=today) select xxx from table_hour_incrementala,table_big b where a.id=b.id and b.dt=yesterday;

查看一下grace:

显然瓶颈集中在第二个MAP上，reduce的shuffle time执行了207秒，计算了300s不到；这个table_big是个外部表，查看一下文件发现是一个250MB左右的gz文件，原因基础上清楚了，在该Job设置了一下mapred.reduce.tasks=8就可以解决了：

首先是降低每个reduce的计算时间，其次是today分区的文件增加进而增加MAP数，这个要明天才能看到效果了：P

可以看到每个reduce的计算时间已经降到30秒；同时，产生today分区的文件也是8个30MB的小文件，为接下来增加MAP做好准备

本文转自MIKE老毕 51CTO博客，原文链接：http://blog.51cto.com/boylook/1301072，如需转载请自行联系原作者

文章标签：

分布式计算

Hadoop

科技小先锋

目录

相关文章

aliyun8384184978-26286

|

7月前

|

SQL 关系型数据库 MySQL

探索Gorm - Golang流行的数据库ORM框架

探索Gorm - Golang流行的数据库ORM框架

aliyun8384184978-26286

81 2 2

云深知何处

|

7月前

|

SQL 缓存关系型数据库

一次sql改写优化子查询的案例

在生产环境中，一个MySQL RDS实例遭遇了高CPU使用率问题，原因是执行了一条复杂的UPDATE SQL语句，该语句涉及一个无法缓存的子查询（UNCACHEABLE SUBQUERY），导致子查询需要针对每一行数据重复执行，极大地影响了性能。SQL语句的目标是更新一行数据，但执行时间长达30秒。优化方法是将子查询转换为内连接形式，优化后的语句执行时间降低到毫秒级别，显著减少了CPU消耗。通过示例数据和执行计划对比，展示了优化前后的时间差异和执行效率的提升。

云深知何处

255 2 2

Maynor

|

SQL 存储负载均衡

工作常用之Hive 调优【四】HQL 语法优化

列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。当列很多或者数据量很大时，如果 select * 或者不指定分区，全列扫描和全表扫描效率都很低。

Maynor

303 0 0

工作常用之Hive 调优【四】HQL 语法优化

xaubllxwtvaqiu

|

SQL 存储并行计算

SQL调优指南—SQL调优进阶—查询改写与下推

下推是查询改写的一项重要优化，利用PolarDB-X的拆分信息来优化执行计划，使得算子尽量下推以达到提前过滤数据、减少网络传输、并行计算等目的。

xaubllxwtvaqiu

134 0 0

SQL调优指南—SQL调优进阶—查询改写与下推

CBeann

|

Java 数据库连接

HQL数据查询（Hibernate推荐）

HQL数据查询（Hibernate推荐）

CBeann

128 0 0

琦彦

|

SQL XML 缓存

HQL(Hibernate Query Language) 是面向对象的查询语言, 它和 SQL 查询语言有些相似. 在 Hibernate 提供的各种检索方式中, HQL 是使用最广的一种检索方式

琦彦

346 0 0

干货满满张哈希

|

存储缓存 Java

Java 堆外内存、零拷贝、直接内存以及针对于NIO中的FileChannel的思考（上）

Java 堆外内存、零拷贝、直接内存以及针对于NIO中的FileChannel的思考（上）

干货满满张哈希

397 0 0

Java 堆外内存、零拷贝、直接内存以及针对于NIO中的FileChannel的思考（上）

技术小能手

|

SQL 机器学习/深度学习 Oracle

查看SQL执行计划的方法及优劣

技术小能手

12779 0 0

玄学酱

玄学酱

898 0 0

玄学酱

玄学酱

1047 0 0

热门文章

最新文章

使用cProfile等工具来提高python的执行速度

四大触点，教你从“用户视角”构建数据分析体系

Spring-boot+Dubbo应用启停源码分析

docker阿里云镜像加速

《Stata统计分析与应用（第2版）》一3.4 图形的保存、合并及修改

语言设计中的鸭子类型风格

ActionBar的使用

[20150529]ORA-16664.txt

25个优秀的国外单页网站设计作品欣赏

人际风格的四大分类

【SpringFramework】Spring初体验

「Mac畅玩鸿蒙与硬件46」UI互动应用篇23 - 自定义天气预报组件

CDP与Selenium相结合——玩转网页端自动化数据采集/爬取程序

解决Redis缓存数据类型丢失问题

Flink 2.0 存算分离状态存储 — ForSt DB

RDS通用云盘核心能力

体验云数据库RDS通用云盘核心能力

产品动态丨阿里云弹性计算产品月刊（2024年11月）

确保 Active Directory 安全性的方法

【实践】快速学会使用云消息队列RabbitMQ版

相关课程

更多

SQL调优与架构优化

SQL进阶及查询

相关电子书

更多

MySQL查询优化实战

Blink SQL关键技术及实现原理

MaxCompute SQL计算成本调优以及优化方法

相关实验场景

更多

使用SQL语句实现数据查询操作

SQL进阶之约束、索引

SQL的增删改查及函数应用

下一篇