Hadoop任务scan Hbase 导出数据量变小分析

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDSClaw,2核4GB
简介: Hadoop任务scan Hbase 导出数据量变小分析

背景:

一个MR任务scan hbase 导出hive 文件,但是发现某些天数据突然变小,而且里面数据行数也变小(hbase里面的数据只增不减)

原因定位:

日志非常隐蔽,需要去MR 任务里面看 mapper 里面的log 日志,发现有error 日志,进一步定位

发现有mysql 连接数过多,可以看到如下代码非常关键(这个是每次都需要去读取mysql 的配置信息)

如果mapper 数比较多,就需要多次连接mysql,导致连接数过多

修复方案:

在main 函数里面读取mysql配置信息,然后通过参数的方式传递给mapper,避免每次mapper 都进行读mysql 取配置 信息。


相关文章
|
分布式计算 Hadoop 调度
Hadoop节点的任务重试机制
【5月更文挑战第15天】
313 4
|
Shell 分布式数据库 Hbase
如何使用 HBase Shell 进行数据的批量导入和导出?
如何使用 HBase Shell 进行数据的批量导入和导出?
1191 5
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
321 2
|
分布式计算 资源调度 数据可视化
Hadoop-06-Hadoop集群 历史服务器配置 超详细 执行任务记录 JobHistoryServer MapReduce执行记录 日志聚合结果可视化查看
Hadoop-06-Hadoop集群 历史服务器配置 超详细 执行任务记录 JobHistoryServer MapReduce执行记录 日志聚合结果可视化查看
380 1
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
294 1
|
存储 SQL 分布式计算
Hadoop生态系统概述:构建大数据处理与分析的基石
【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。
|
分布式计算 监控 Hadoop
Hadoop任务执行失败
【7月更文挑战第12天】
774 10
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
685 0
|
存储 分布式计算 Hadoop
hadoop格式化前数据导出
【7月更文挑战第23天】
197 5
|
Shell 分布式数据库 Hbase
使用 HBase Shell 进行数据的批量导入和导出
使用 HBase Shell 进行数据的批量导入和导出
1427 6

相关实验场景

更多
下一篇
开通oss服务