背景:有几个结构相同的文章表,每个表数据不足10万,其中的 文章内容字段 保存文章的 HTML 代码。由于文章中有很多图片,所以 文章内容字段 里面有很多的<img> 标签。
数据库:Mysql
数据量:几个表总共加起来的文章数在20万左右,文章内容字段 平均每个字段包括10个 <IMG> 标签。
意图:取出所有的文章表内容字段里面的图片 URL,保存到单独一张表中。
思路:执行Mysql分页查询,每次取出100条数据,分析其中的content字段,用正则匹配出所有的<img>标签的 src 属性,然后插入到另外一个表中。
环境:Win7 64 bit
运行:指定了1G内存
java -Xms256m -Xmx1024m -XX:-UseGCOverheadLimit com.example.tools.ImgsTable
问题:指定50条记录分页查询的时候,总共的数据插入到50万条左右的时候就内存溢出了。报在了MD5方法。指定200条记录分页查询的时候,同样是数据插入到50万条左右的时候就内存溢出了。异常报在了prepareStatement。
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at sun.nio.cs.ext.GBK.newEncoder(GBK.java:36) at java.lang.StringCoding$StringEncoder.<init>(StringCoding.java:215) at java.lang.StringCoding$StringEncoder.<init>(StringCoding.java:207) at java.lang.StringCoding.encode(StringCoding.java:266) at java.lang.StringCoding.encode(StringCoding.java:284) at java.lang.String.getBytes(String.java:986) at com.ytt.tools.ImgsTable.md5(ImgsTable.java:29) at com.ytt.tools.ImgsTable.main(ImgsTable.java:102)
完整程序代码:
注:其中ConnectionPool 是个连接池
package com.example.tools; import java.math.BigInteger; import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; import java.sql.Connection; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.SQLException; import java.text.SimpleDateFormat; import java.util.ArrayList; import java.util.Date; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; public class ImgsTable { private final static String IMGROOT = "IMGS/"; private final static String PATH_SEP = "/"; private final static int page_size = 50; //主方法入口 public static void main(String[] args) { //匹配img标签的src Pattern p = Pattern .compile("<IMG....."); //几个表 List<String> tables = new ArrayList<String>(); tables.add("post01"); tables.add("post02"); tables.add("post03"); SimpleDateFormat dateFormat = new SimpleDateFormat("yyyyMMddHHmmss"); try { //循环操作几个表 for (int ti = 0; ti < tables.size(); ti++) { String tablename = tables.get(ti); String now = dateFormat.format(new Date()); //每次取出50条记录 String sql = "select dt_id,dt_channel,dt_content from " + tablename + " where dt_status is null order by dt_id limit ?,?"; int page = 0; boolean continueWork = true; while (continueWork) { Connection conn = ConnetionPool.getConnection(); PreparedStatement ps = conn.prepareStatement(sql); ps.setInt(1, page * page_size); ps.setInt(2, page_size); ResultSet rs = ps.executeQuery(); if (!rs.next()) { continueWork = false; break; } rs.beforeFirst(); //开始事务 conn.setAutoCommit(false); while (rs.next()) { String content = rs.getString("dt_content"); String dt_channel = rs.getString("dt_channel"); int id = rs.getInt("dt_id"); Matcher m = p.matcher(content); while (m.find()) { String imgUrl = m.group(1); if (imgUrl.length() <= 248) { String md5Url = md5(imgUrl); String img_localpath = IMGROOT + tablename + PATH_SEP + dt_channel + PATH_SEP + id + PATH_SEP + md5Url + "." + getExtensionName(imgUrl); String iSql = "insert into imgs(img_url,img_md5,img_localpath,img_halt,img_stable,img_schannel,img_skey,img_addtime) values(?,?,?,?,?,?,?,?)"; now = dateFormat.format(new Date()); try { ps = conn.prepareStatement(iSql); ps.setString(8, now); if (img_localpath.length() <= 120) { ps.execute(); } } catch (SQLException e) { e.printStackTrace(); } } } } //提交事务 conn.commit(); rs.close(); rs = null; ps.close(); ps = null; conn.close(); conn = null; page++; } } } catch (Exception e) { e.printStackTrace(); } } }
不知道我的代码问题出在了哪里?为什么分明我每次是只取出50条记录出来操作,但是内存使用量还是不断增长,到增长到1G的时候,持续一段时间,就会报错,最终的数据处理量只能达到50万左右。
请问,是我的变量定义有问题吗?或者其他问题??
求高手解答!
、目测下来,很有可能是数据库连接过大消耗完了内存!
曾经我的项目也出现过此问题!加入开源的proxool就ok了!
建议楼主项目加入缓存!
是在不行,用eclipse提供的堆栈跟踪tool看看!
因为我每次事务下来都关闭了结果集、PreparedStatement和数据库连接,而且我每次取连接是用的连接池。不知道是不是因为连接过多的原因?、目测下来,很有可能是数据库连接过大消耗完了内存!
曾经我的项目也出现过此问题!加入开源的proxool就ok了!
建议楼主项目加入缓存!
是在不行,用eclipse提供的堆栈跟踪tool看看!
全局只采用一个连接的方法已经测试过了,问题是同样的。因为就数据情况而言这段代码始终都不会报SQL异常,所以没有写finally,前期的代码中已经排除掉SQL插入的异常了,现在每次关闭连接是没有问题的。visualvm你可以用 Java自带的工具visualvm查看一下内存使用情况 看看具体是哪里出了问题
很明显是拼接string啊,用stringbuilder
同意楼上string,非常明显了,string类型,还是循环
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。