使用Java内存映射(Memory-Mapped Files)处理大文件

简介: NIO中的内存映射 (1)什么是内存映射文件 内存映射文件,是由一个文件到一块内存的映射,可以理解为将一个文件映射到进程地址,然后可以通过操作内存来访问文件数据。说白了就是使用虚拟内存将磁盘的文件数据加载到虚拟内存的内存页,然后就可以直接操作内存页数据。

NIO中的内存映射

(1)什么是内存映射文件
内存映射文件,是由一个文件到一块内存的映射,可以理解为将一个文件映射到进程地址,然后可以通过操作内存来访问文件数据。说白了就是使用虚拟内存将磁盘的文件数据加载到虚拟内存的内存页,然后就可以直接操作内存页数据。
我们读写一个文件使用read()和write()方法,这两个方法是调用系统底层接口来传输数据,因为内核空间的文件页和用户空间的缓冲区没有一一对应,所以读写数据时会在内核空间和用户空间之间进行数据拷贝,在操作大量文件数据时会导致性能很低,使用内存映射文件可以非常高效的操作大量文件数据。
通过内存映射机制操作文件比使用常规方法和使用FileChannel读写高效的多。
内存映射文件使用文件系统建立从用户空间到可用文件系统页的虚拟内存映射,这样做有以下好处:

  • 用户进程把文件数据当内存数据,无需调用read()或write()
  • 当用户进程接触到映射内存空间,会自动产生页错误,从而将文件数据从磁盘读到内存;若用户空间进程修改了内存页数据,相关页会自动标记并刷新到磁盘,文件被更新
  • 操作系统的虚拟内存对内存页进行高速缓存,自动根据系统负载进行内存管理
  • 用户空间和内核空间的数据总是一一对应,无需执行缓冲区拷贝
  • 大数据的文件使用映射,无需消耗大量内存即可进行数据拷贝

(2)如何创建内存映射文件

1
2
3
4
RandomAccessFile raf =  new  RandomAccessFile( "test.txt" "rw" );
FileChannel fc = raf.getChannel();
//将test.txt文件所有数据映射到虚拟内存,并只读
MappedByteBuffer mbuff = fc.map(MapMode.READ_ONLY,  0 , fc.size());

(3)MappedByteBuffer API

MappedByteBuffer是ByteBuffer的子类,所以可被通道读写。MappedByteBuffer提供的方法:
load():加载整个文件到内存
isLoaded():判断文件数据是否全部加载到了内存
force():将缓冲区的更改刷新到磁盘

 

>>读取大文件

下面的测试转自 Java中用内存映射处理大文件 

在处理大文件时,如果利用普通的FileInputStream 或者FileOutputStream 抑或RandomAccessFile 来进行频繁的读写操作,都将导致进程因频繁读写外存而降低速度.

如下为一个对比实验:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
import  java.io.BufferedInputStream;
import  java.io.FileInputStream;
import  java.io.FileNotFoundException;
import  java.io.IOException;
import  java.io.RandomAccessFile;
import  java.nio.MappedByteBuffer;
import  java.nio.channels.FileChannel;
 
public  class  Test {
 
 
public  static  void  main(String[] args) {
try  {
FileInputStream fis= new  FileInputStream( "/home/tobacco/test/res.txt" );
int  sum= 0 ;
int  n;
long  t1=System.currentTimeMillis();
try  {
while ((n=fis.read())>= 0 ){
sum+=n;
}
catch  (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
long  t=System.currentTimeMillis()-t1;
System.out.println( "sum:" +sum+ " time:" +t);
catch  (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
 
try  {
FileInputStream fis= new  FileInputStream( "/home/tobacco/test/res.txt" );
BufferedInputStream bis= new  BufferedInputStream(fis);
int  sum= 0 ;
int  n;
long  t1=System.currentTimeMillis();
try  {
while ((n=bis.read())>= 0 ){
sum+=n;
}
catch  (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
long  t=System.currentTimeMillis()-t1;
System.out.println( "sum:" +sum+ " time:" +t);
catch  (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
 
MappedByteBuffer buffer= null ;
try  {
buffer= new  RandomAccessFile( "/home/tobacco/test/res.txt" , "rw" ).getChannel().map(FileChannel.MapMode.READ_WRITE,  0 1253244 );
int  sum= 0 ;
int  n;
long  t1=System.currentTimeMillis();
for ( int  i= 0 ;i< 1253244 ;i++){
n= 0x000000ff &buffer.get(i);
sum+=n;
}
long  t=System.currentTimeMillis()-t1;
System.out.println( "sum:" +sum+ " time:" +t);
catch  (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
catch  (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
 
}
 
}

测试文件为一个大小为1253244字节的文件。测试结果:

sum:220152087 time:1464
sum:220152087 time:72
sum:220152087 time:25

 

说明读数据无误。删去其中的数据处理部分:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
import  java.io.BufferedInputStream;
import  java.io.FileInputStream;
import  java.io.FileNotFoundException;
import  java.io.IOException;
import  java.io.RandomAccessFile;
import  java.nio.MappedByteBuffer;
import  java.nio.channels.FileChannel;
 
public  class  Test {
 
 
public  static  void  main(String[] args) {
try  {
FileInputStream fis= new  FileInputStream( "/home/tobacco/test/res.txt" );
int  sum= 0 ;
int  n;
long  t1=System.currentTimeMillis();
try  {
while ((n=fis.read())>= 0 ){
//sum+=n;
}
catch  (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
long  t=System.currentTimeMillis()-t1;
System.out.println( "sum:" +sum+ " time:" +t);
catch  (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
 
try  {
FileInputStream fis= new  FileInputStream( "/home/tobacco/test/res.txt" );
BufferedInputStream bis= new  BufferedInputStream(fis);
int  sum= 0 ;
int  n;
long  t1=System.currentTimeMillis();
try  {
while ((n=bis.read())>= 0 ){
//sum+=n;
}
catch  (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
long  t=System.currentTimeMillis()-t1;
System.out.println( "sum:" +sum+ " time:" +t);
catch  (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
 
MappedByteBuffer buffer= null ;
try  {
buffer= new  RandomAccessFile( "/home/tobacco/test/res.txt" , "rw" ).getChannel().map(FileChannel.MapMode.READ_WRITE,  0 1253244 );
int  sum= 0 ;
int  n;
long  t1=System.currentTimeMillis();
for ( int  i= 0 ;i< 1253244 ;i++){
//n=0x000000ff&buffer.get(i);
//sum+=n;
}
long  t=System.currentTimeMillis()-t1;
System.out.println( "sum:" +sum+ " time:" +t);
catch  (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
catch  (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
 
}
 
}

  

测试结果:

sum:0 time:1458
sum:0 time:67
sum:0 time:8

由此可见,将文件部分或者全部映射到内存后进行读写,速度将提高很多。
这是因为内存映射文件首先将外存上的文件映射到内存中的一块连续区域,被当成一个字节数组进行处理,读写操作直接对内存进行操作,而后再将内存区域重新映射到外存文件,这就节省了中间频繁的对外存进行读写的时间,大大降低了读写时间。


目录
相关文章
|
23天前
|
存储 算法 Java
深入浅出Java内存管理
【8月更文挑战第28天】Java的内存管理是每个Java开发者都绕不过去的技术话题。本文将通过生动的比喻和直观的例子,带你走进Java内存管理的奇妙世界。我们将一起探索对象在Java虚拟机中的生命周期,了解栈与堆的区别,以及垃圾回收机制如何默默守护着我们的应用程序。准备好,我们即将启程!
45 14
|
14天前
|
算法 安全 Java
Java内存管理:深入理解垃圾收集器
在Java的世界里,内存管理是一块基石,它支撑着应用程序的稳定运行。本文将带你走进Java的垃圾收集器(GC),探索它是如何默默守护着我们的内存安全。我们将从垃圾收集的基本概念出发,逐步深入到不同垃圾收集器的工作机制,并通过实例分析它们在实际应用中的表现。文章不仅旨在提升你对Java内存管理的认识,更希望你能通过这些知识优化你的代码,让程序运行更加高效。
34 3
|
23天前
|
监控 算法 Java
Java内存管理:垃圾收集器的工作原理与调优实践
在Java的世界里,内存管理是一块神秘的领域。它像是一位默默无闻的守护者,确保程序顺畅运行而不被无用对象所困扰。本文将带你一探究竟,了解垃圾收集器如何在后台无声地工作,以及如何通过调优来提升系统性能。让我们一起走进Java内存管理的迷宫,寻找提高应用性能的秘诀。
|
20天前
|
Kubernetes Cloud Native Java
云原生之旅:从容器到微服务的演进之路Java 内存管理:垃圾收集器与性能调优
【8月更文挑战第30天】在数字化时代的浪潮中,企业如何乘风破浪?云原生技术提供了一个强有力的桨。本文将带你从容器技术的基石出发,探索微服务架构的奥秘,最终实现在云端自由翱翔的梦想。我们将一起见证代码如何转化为业务的翅膀,让你的应用在云海中高飞。
|
15天前
|
Arthas Java 测试技术
Java字节码文件、组成,jclasslib插件、阿里arthas工具,Java注解
Java字节码文件、组成、详解、分析;常用工具,jclasslib插件、阿里arthas工具;如何定位线上问题;Java注解
Java字节码文件、组成,jclasslib插件、阿里arthas工具,Java注解
|
5天前
|
监控 算法 Java
Java中的内存管理:理解垃圾回收机制的深度剖析
在Java编程语言中,内存管理是一个核心概念。本文将深入探讨Java的垃圾回收(GC)机制,解析其工作原理、重要性以及优化方法。通过本文,您不仅会了解到基础的GC知识,还将掌握如何在实际开发中高效利用这一机制。
|
5天前
|
存储 监控 算法
Java中的内存管理与垃圾回收机制解析
本文深入探讨了Java编程语言中的内存管理策略和垃圾回收机制。首先介绍了Java内存模型的基本概念,包括堆、栈以及方法区的划分和各自的功能。进一步详细阐述了垃圾回收的基本原理、常见算法(如标记-清除、复制、标记-整理等),以及如何通过JVM参数调优垃圾回收器的性能。此外,还讨论了Java 9引入的接口变化对垃圾回收的影响,以及如何通过Shenandoah等现代垃圾回收器提升应用性能。最后,提供了一些编写高效Java代码的实践建议,帮助开发者更好地理解和管理Java应用的内存使用。
|
13天前
|
安全 Java API
【性能与安全的双重飞跃】JDK 22外部函数与内存API:JNI的继任者,引领Java新潮流!
【9月更文挑战第7天】JDK 22外部函数与内存API的发布,标志着Java在性能与安全性方面实现了双重飞跃。作为JNI的继任者,这一新特性不仅简化了Java与本地代码的交互过程,还提升了程序的性能和安全性。我们有理由相信,在外部函数与内存API的引领下,Java将开启一个全新的编程时代,为开发者们带来更加高效、更加安全的编程体验。让我们共同期待Java在未来的辉煌成就!
41 11
|
14天前
|
安全 Java API
【本地与Java无缝对接】JDK 22外部函数和内存API:JNI终结者,性能与安全双提升!
【9月更文挑战第6天】JDK 22的外部函数和内存API无疑是Java编程语言发展史上的一个重要里程碑。它不仅解决了JNI的诸多局限和挑战,还为Java与本地代码的互操作提供了更加高效、安全和简洁的解决方案。随着FFM API的逐渐成熟和完善,我们有理由相信,Java将在更多领域展现出其强大的生命力和竞争力。让我们共同期待Java编程新纪元的到来!
37 11
|
11天前
|
监控 Java 大数据
【Java内存管理新突破】JDK 22:细粒度内存管理API,精准控制每一块内存!
【9月更文挑战第9天】虽然目前JDK 22的确切内容尚未公布,但我们可以根据Java语言的发展趋势和社区的需求,预测细粒度内存管理API可能成为未来Java内存管理领域的新突破。这套API将为开发者提供前所未有的内存控制能力,助力Java应用在更多领域发挥更大作用。我们期待JDK 22的发布,期待Java语言在内存管理领域的持续创新和发展。