java如何高效地读取一个超大文件?(四种方式分析对比)

简介: 我最近在优化我的PDF转word的开源小工具,有时候会遇到一个问题,就是如果我的PDF文件比较大,几百兆,如何更快更节省内存的读取它。于是我分析对比了四种常见的读取文件的方式,并使用javaVisualVM工具进行了分析。最后的出的结论是commons-io时间和空间都更加的高效。

读取大文件的四种方式


首先我自己在本地压缩了一个文件夹,大概500M左右。虽然不是很大但是,相对还可以。


方法1:Guava读取


String path = "G:\\java书籍及工具.zip";
Files.readLines(new File(path), Charsets.UTF_8);

使用guava读取比较简单,一行代码就搞定了。

下面去jdk的bin目录找到javaVisualVM工具,然后双击运行即可。

v2-69574a05e5db28fa4f546af279c89251_1440w.jpg从上图可以看到:


  • 时间消耗:20秒
  • 堆内存:最高2.5G
  • CPU消耗:最高50%


我们一个500M的文件,堆内存最高竟然2.5G,如果我们读取一个2G的文件,可能我们的电脑直接死机了就。


方式2:Apache Commons IO普通方式


String path = "G:\\java书籍及工具.zip";
FileUtils.readLines(new File(path), Charsets.UTF_8);

这种方式也比较简单,同样是一行代码。下面运行,也分析一波:

v2-06639ad11a24cb85d89235d055701f23_1440w.jpg

从上图可以看到:


  • 时间消耗:17秒
  • 堆内存:最高2.5G
  • CPU消耗:最高50%,平稳运行25%左右


这种方式和上面那种基本上消耗差不多,肯定不是我想要的。


方式3:java文件流

FileInputStream inputStream = null;
Scanner sc = null;
try {
     inputStream = new FileInputStream(path);
     sc = new Scanner(inputStream, "UTF-8");
     while (sc.hasNextLine()) {
          String line = sc.nextLine();
          //System.out.println(line);
     }
     if (sc.ioException() != null) {
          throw sc.ioException();
     }
} finally {
     if (inputStream != null) {
          inputStream.close();
     }
     if (sc != null) {
           sc.close();
     }
}

这种方式其实就是java中最常见的方式,然后我们运行分析一波:

v2-e2cdb11aaa203294473a47f27523325f_1440w.jpg

从上图可以看到:


  • 时间消耗:32秒,增加了一倍
  • 堆内存:最高1G,少了一半
  • CPU消耗:平稳运行25%左右


这种方式确实很优秀,但是时间上开销更大。


方式4:Apache Commons IO流


LineIterator it = FileUtils.lineIterator(new File(path), "UTF-8");
try {
      while (it.hasNext()) {
          String line = it.nextLine();
      }
} finally {
     LineIterator.closeQuietly(it);
}

这种方式代码看起来比较简单,所以直接运行一波吧:

v2-8bd577b0a09ab51a0f9d6783046d8a1e_1440w.jpg

从上图可以看到:


  • 时间消耗:16秒,最低
  • 堆内存:最高650M,少了一半
  • CPU消耗:平稳运行25%左右


OK,就它了,牛。


结论


通过以上的分析,我们可以得出一个结论,如果我们想要读取一个大文件,选择了错误的方式,就有可能极大地占用我的内存和CPU,当文件特别大时,会造成意向不到的问题。

因此为了去解决这样的问题,有四种常见的读取大文件的方式。通过分析对比,发现,Apache Commons IO流是最高效的一种方式。

相关文章
|
9月前
|
Java Go 开发工具
【Java】(9)抽象类、接口、内部的运用与作用分析,枚举类型的使用
抽象类必须使用abstract修饰符来修饰,抽象方法也必须使用abstract修饰符来修饰,抽象方法不能有方法体。抽象类不能被实例化,无法使用new关键字来调用抽象类的构造器创建抽象类的实例。抽象类可以包含成员变量、方法(普通方法和抽象方法都可以)、构造器、初始化块、内部类(接 口、枚举)5种成分。抽象类的构造器不能用于创建实例,主要是用于被其子类调用。抽象类中不一定包含抽象方法,但是有抽象方法的类必定是抽象类abstract static不能同时修饰一个方法。
351 1
|
9月前
|
Java Unix Go
【Java】(8)Stream流、文件File相关操作,IO的含义与运用
Java 为 I/O 提供了强大的而灵活的支持,使其更广泛地应用到文件传输和网络编程中。!但本节讲述最基本的和流与 I/O 相关的功能。我们将通过一个个例子来学习这些功能。
331 1
|
9月前
|
存储 Java Go
【Java】(3)8种基本数据类型的分析、数据类型转换规则、转义字符的列举
牢记类型转换规则在脑海中将编译和运行两个阶段分开,这是两个不同的阶段,不要弄混!
379 2
|
10月前
|
数据采集 存储 弹性计算
高并发Java爬虫的瓶颈分析与动态线程优化方案
高并发Java爬虫的瓶颈分析与动态线程优化方案
|
11月前
|
安全 Java 编译器
new出来的对象,不一定在堆上?聊聊Java虚拟机的优化技术:逃逸分析
逃逸分析是一种静态程序分析技术,用于判断对象的可见性与生命周期。它帮助即时编译器优化内存使用、降低同步开销。根据对象是否逃逸出方法或线程,分析结果分为未逃逸、方法逃逸和线程逃逸三种。基于分析结果,编译器可进行同步锁消除、标量替换和栈上分配等优化,从而提升程序性能。尽管逃逸分析计算复杂度较高,但其在热点代码中的应用为Java虚拟机带来了显著的优化效果。
328 4
|
11月前
|
机器学习/深度学习 安全 Java
Java 大视界 -- Java 大数据在智能金融反洗钱监测与交易异常分析中的应用(224)
本文探讨 Java 大数据在智能金融反洗钱监测与交易异常分析中的应用,介绍其在数据处理、机器学习建模、实战案例及安全隐私等方面的技术方案与挑战,展现 Java 在金融风控中的强大能力。
|
12月前
|
存储 Java 大数据
Java 大视界 -- Java 大数据在智能家居能源消耗模式分析与节能策略制定中的应用(198)
简介:本文探讨Java大数据技术在智能家居能源消耗分析与节能策略中的应用。通过数据采集、存储与智能分析,构建能耗模型,挖掘用电模式,制定设备调度策略,实现节能目标。结合实际案例,展示Java大数据在智能家居节能中的关键作用。
|
12月前
|
存储 Java 编译器
深入理解Java虚拟机--类文件结构
本内容介绍了Java虚拟机与Class文件的关系及其内部结构。Class文件是一种与语言无关的二进制格式,包含JVM指令集、符号表等信息。无论使用何种语言,只要能生成符合规范的Class文件,即可在JVM上运行。文章详细解析了Class文件的组成,包括魔数、版本号、常量池、访问标志、类索引、字段表、方法表和属性表等,并说明其在Java编译与运行过程中的作用。
339 0
|
12月前
|
存储 人工智能 Java
java之通过Http下载文件
本文介绍了使用Java实现通过文件链接下载文件到本地的方法,主要涉及URL、HttpURLConnection及输入输出流的操作。
782 0
|
12月前
|
监控 Java API
Java语言按文件创建日期排序及获取最新文件的技术
这段代码实现了文件创建时间的读取、文件列表的获取与排序以及获取最新文件的需求。它具备良好的效率和可读性,对于绝大多数处理文件属性相关的需求来说足够健壮。在实际应用中,根据具体情况,可能还需要进一步处理如访问权限不足、文件系统不支持某些属性等边界情况。
485 14