备案控制台

开发者社区大数据文章正文

大数据调优经验

2023-12-29 131

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 大数据调优经验

1.Mapreduce 调优

根据maps/reduces个数、对应的avg time调整mapreduce.job.maps、mapreduce.job.reduces，控制平均时间在30分钟左右（比如maps 数调小一半，avg time增加一倍）

因为设置太多maps/reduces了，每个map/reduce都得去抢资源，都浪费在排队上了

2.hive 调优

增加Map数量——减小分片

set mapreduce.input.fileinputformat.split.minsize=4096000000;

set mapreduce.input.fileinputformat.split.maxsize=4096000000;

reduce 控制

set mapred.reduce.tasks=1000;

set hive.exec.reducers.max=1000;

控制平均时间在30分钟左右（比如maps 数调小一半，avg time增加一倍）

2.spark 任务调优

3.Flink 任务调优

反压（Backpressure）排查办法：

1）在监控图上找到有反压的最下游Task节点，去Job DAG图中找到该Task的直接下游，问题就出在这个Task

——这个任务里是Flat Map ...

2）在监控图的顶部，Task处选择该Task，过滤掉无关信息

3）查看接收端buffer总体利用率的图，观察各subtask之间是否平衡（都100%表示平衡，部分100%部分0%表示不平衡）

4）选择接收端buffer最高的subtask，找到它所在的container id（如一样高，随意选择一个）

5）去Flink UI打开Task Managers页面，找到这个container，点进去，再点Thread Dump

6）在Thread dump页面里搜索：英文引号+Task名称前缀，找到最后一个匹配的线程

7）如调用栈显示不全且不足够用于分析，获取完整的调用栈

文章标签：

云原生大数据计算服务 MaxCompute

大数据

容器

监控

流计算

分布式计算

关键词：

云原生大数据计算服务 MaxCompute调优

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

诸葛子房

目录

相关文章

青云交（Java大数据AI云原生Python）

|

6月前

|

SQL 关系型数据库 MySQL

大数据新视界--大数据大厂之MySQL数据库课程设计：MySQL 数据库 SQL 语句调优方法详解（2-1）

本文深入介绍 MySQL 数据库 SQL 语句调优方法。涵盖分析查询执行计划，如使用 EXPLAIN 命令及理解关键指标；优化查询语句结构，包括避免子查询、减少函数使用、合理用索引列及避免 “OR”。还介绍了索引类型知识，如 B 树索引、哈希索引等。结合与 MySQL 数据库课程设计相关文章，强调 SQL 语句调优重要性。为提升数据库性能提供实用方法，适合数据库管理员和开发人员。

青云交（Java大数据AI云原生Python）

287 11 11

青云交（Java大数据AI云原生Python）

|

6月前

|

关系型数据库 MySQL 大数据

大数据新视界--大数据大厂之MySQL 数据库课程设计：MySQL 数据库 SQL 语句调优的进阶策略与实际案例（2-2）

本文延续前篇，深入探讨 MySQL 数据库 SQL 语句调优进阶策略。包括优化索引使用，介绍多种索引类型及避免索引失效等；调整数据库参数，如缓冲池、连接数和日志参数；还有分区表、垂直拆分等其他优化方法。通过实际案例分析展示调优效果。回顾与数据库课程设计相关文章，强调全面认识 MySQL 数据库重要性。为读者提供综合调优指导，确保数据库高效运行。

青云交（Java大数据AI云原生Python）

220 5 5

西瓜味的敌敌畏

|

分布式计算资源调度 Hadoop

大数据Hadoop集群部署与调优讨论

大数据Hadoop集群部署与调优讨论

西瓜味的敌敌畏

265 6 6

三分钟热度的鱼

|

机器学习/深度学习分布式计算大数据

MaxCompute产品使用合集之官方的调优文档在哪里看

MaxCompute作为一款全面的大数据处理平台，广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践，可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集，涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

三分钟热度的鱼

171 2 2

Maynor

|

分布式计算资源调度大数据

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day30】——Spark数据调优(文末附完整文档)

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day30】——Spark数据调优(文末附完整文档)

Maynor

205 0 0

赵广陆

|

存储缓存大数据

大数据HBase调优

大数据HBase调优

赵广陆

215 1 1

大数据流动

|

人工智能资源调度大数据

Apache DolphinScheduler 在大数据环境中的应用与调优

Apache DolphinScheduler 在大数据环境中的应用与调优

大数据流动

699 0 0

安然AR

|

存储监控负载均衡

大数据数据存储的搜索引擎Elasticsearch的调优的集群部署优化

Elasticsearch是一个可扩展的搜索引擎，可以在同一个集群中部署多个Elasticsearch节点，以提高性能和可用性。

安然AR

508 2 2

安然AR

|

存储监控负载均衡

大数据数据存储的搜索引擎Elasticsearch的调优的检索/聚合优化

Elasticsearch是一个可扩展的搜索引擎，可以在同一个集群中部署多个Elasticsearch节点，以提高性能和可用性。

安然AR

195 2 2

赵延东的一亩三分地

|

XML 存储缓存

【大数据开发运维解决方案】Solr公共读写调优建议

Solr是一个开源搜索平台，用于构建搜索应用程序。是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口它建立在Lucene(全文搜索引擎)之上。 Solr是企业级的，快速的和高度可扩展的。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。

赵延东的一亩三分地

278 0 0

【大数据开发运维解决方案】Solr公共读写调优建议

热门文章

最新文章

阿里云大数据AI产品月刊-2025年9月

企业大数据的“超级大脑”：AIIData数据中台

拔俗云原生 AI 临床大数据平台：赋能医学科研的开发者实践

拔俗多模态跨尺度大数据AI分析平台：让复杂数据“开口说话”的智能引擎

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

数据下田，庄稼不“瞎种”——聊聊大数据如何帮农业提效

数据分析真能让音乐产业更好听吗？——聊聊大数据在音乐里的那些事

别再靠拍脑袋进货了！用大数据让电商库存“自己会算”

拔俗AI临床大数据科研分析平台：让医学研究更智能、更高效

大数据时代，法律该咋护住咱的隐私？

闲侃数仓优化-大数据治理和优化

探索大数据技术：Hadoop与Spark的奥秘之旅

AI与大数据：智慧城市安全的护航者与变革引擎

大数据用户画像之基本概念

大数据之 Solr 集群搭建

大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

【阿里云云原生专栏】云原生下的数据湖建设：阿里云MaxCompute与DataWorks解决方案

【PolarDB 开源】PolarDB 在大数据分析中的应用：海量数据处理方案

JAVA与大数据处理

一些MaxCompute日常优化案例分享

相关课程

更多

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

大数据Spark2020版（知识精讲与实战演练）第三阶段

大数据Spark2020版（知识精讲与实战演练）第四阶段

2020版大数据实战项目之DMP广告系统（第四阶段）

2020版大数据实战项目之DMP广告系统（第六阶段）

2020版大数据实战项目之DMP广告系统（第七阶段）

相关电子书

更多

MaxCompute Serverless 架构演进

Data+AI时代大数据平台应该如何建设

大数据AI一体化的解读

下一篇

一文了解：阿里云对象存储OSS是什么？