Sqoop fetchsize失效-阿里云开发者社区

Sqoop fetchsize失效

2017-11-14 2139

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL DuckDB 分析主实例，基础系列 4核8GB

RDS MySQL DuckDB 分析主实例，集群系列 4核8GB

RDS AI 助手，专业版

简介：

前几天线上Sqoop的一个Job（从MySQL抽取数据到Hadoop）突然报了OOME,后重跑并做java trace发现内存占用都是byte[]，同时cpu top 3的方法都是com.mysql.jdbc.ByteArraryBuffer.getBytes即内存都是被数据消耗掉了；很奇怪，为什么在option里指定了fetch-size=100怎么会OOME呢（平均记录长度不到1kb）；

再看昨天成功的发现100W条记录，发现占用了860MB内存，明显是fetch-size没有生效

+---------+---------+------------+----------+-------------+--------------+

+---------+---------+------------+----------+-------------+--------------+

|CLEANUP | SUCCESS | A | 0.3400 | NULL | 191.84765625 |

|MAP | SUCCESS | A | 335.6400 | 1006942 | 862.39843750 |

|SETUP | SUCCESS | B | 0.2000 | NULL | 179.34765625 |

+---------+---------+------------+----------+-------------+--------------+

没办法，把sqoop源码翻出来终于发现RC了：fetchsize被忽略掉了

protectedvoidinitOptionDefaults() {

if(options.getFetchSize() == null) {

LOG.info("Preparing to use a MySQL streaming resultset.");

options.setFetchSize(Integer.MIN_VALUE);

} elseif(

!options.getFetchSize().equals(Integer.MIN_VALUE)

&&!options.getFetchSize().equals(0)) {

LOG.info("Argument '--fetch-size "+ options.getFetchSize()

+ "' will probably get ignored by MySQL JDBC driver.");

}

究其原因是MySQL提供的API只支持row-by-row和all模式：

By default,ResultSets are completely retrieved and stored in memory. In most cases this isthe most efficient way to operate, and due to the design of the MySQL networkprotocol is easier to implement. If you are working with ResultSets that have alarge number of rows or large values, and cannot allocate heap space in yourJVM for the memory required, you can tell the driver to stream the results backone row at a time.

http://dev.mysql.com/doc/refman/5.5/en/connector-j-reference-implementation-notes.html

最后把fetchsize给去掉了，Job执行成功，700W行占用内存400MB；

+---------+---------+------------+----------+-------------+--------------+

+---------+---------+------------+----------+-------------+--------------+

| CLEANUP | SUCCESS | A | 0.4200 | NULL | 183.49218750 |

| MAP | SUCCESS | A | 377.1200 | 7195560 | 408.08593750 |

| SETUP | SUCCESS | C | 0.2900| NULL | 188.64843750 |

+---------+---------+------------+----------+-------------+--------------+

本文转自MIKE老毕 51CTO博客，原文链接：http://blog.51cto.com/boylook/1298634，如需转载请自行联系原作者

Sqoop fetchsize失效

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Sqoop fetchsize失效

热门文章

最新文章

相关电子书