Java大文件排序(有手就能学会)

简介: 注意,这里是为了演示方便,便于小白理解过程,每次直接从文件中读取一个,实际操作中我们不可能每次都只读取一个,IO操作是很耗时的,也不用每次只对比5个

背景

如果你的机儿内存只有8个G,现在要对一个10个G的文件进行排序,嘤嘤嘤。


思路

这是小白最能理解的一种方案,我们先把10个G大文件分成5个2G的小文件

假设原文件:2 15 4 18 1 9 7 12 6 5 8 4 7 16 3

小文件一:2 15 4

小文件二:18 1 9

小文件三:7 12 6

小文件四:5 8 4

小文件五:7 16 3


对每个小文件进行排序,这个就很多方法了,你可以直接读到内存进行排序,排完了再写回;

小文件一:2 4 15

小文件二:1 9 18

小文件三:6 7 12

小文件四:4 5 8

小文件五:3 7 16


5个小文件都排序好了后,我们依次从5个小文件中读取第一个元素,5个元素比较,选择最小的值min,新建一个文件,将min写入新文件


min(2 1 6 4 3)=1

存入LinkedList,此时LinkedList值为{1}

继续从小文件二中读取下一个元素9

min(2 9 6 4 3)=2

存入LinkedList,此时LinkedList值为{1,2}

继续从小文件一中读取下一个元素4

min(4 9 6 4 3)=3

存入LinkedList,此时LinkedList值为{1,2,3}

继续从小文件五中读取下一个元素7

min(4 9 6 4 7)=4

存入LinkedList,此时LinkedList值为{1,2,3,4}

继续从小文件一中读取下一个元素15

min(15 9 6 4 7)=4

存入LinkedList,此时LinkedList值为{1,2,3,4,4}

继续从小文件四中读取下一个元素5

min(15 9 6 5 7)=5

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5}

继续从小文件四中读取下一个元素8

min(15 9 6 8 7)=6

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6}

继续从小文件三中读取下一个元素7

min(15 9 7 8 7)=7

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7}

继续从小文件三中读取下一个元素12

min(15 9 12 8 7)=7

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7}

继续从小文件五中读取下一个元素16

min(15 9 12 8 16)=8

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8}

小文件四读取完毕

min(15 9 12 16)=9

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9}

继续从小文件二中读取下一个元素18

min(15 18 12 16)=12

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12}

小文件三读取完毕

min(15 18 16)=15

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15}

小文件一读取完毕

min(18 16)=16

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15,16}

小文件五读取完毕

min(18)=18

小文件二读取完毕

存入LinkedList,最终LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15,16,18}


注意,这里是为了演示方便,便于小白理解过程,每次直接从文件中读取一个,实际操作中我们不可能每次都只读取一个,IO操作是很耗时的,也不用每次只对比5个,所以

优化


为了避免频繁IO,我们可以依次从每个小文件中读取一部分到内存,比如读取每个小文件的前1000条(读取的数量视情况而定,总之为了避免io,最好是在服务器顶得住的情况下尽量多读取一些到内存,因为一次内存操作和一次io操作耗时比起来几乎可以忽略),读取到内存后,用5个linkedList来接收,,我们对这5000条数据在内存中进行排序,排序算法自选,排好序写入新文件;写完后清空内存中的5000条数据,继续从每个新文件中读取一部分到内存,比如这次读取每个小文件的1001-2000条,以此类推…skr


ok我话讲完

相关文章
|
30天前
|
Java
有关Java发送邮件信息(支持附件、html文件模板发送)
有关Java发送邮件信息(支持附件、html文件模板发送)
30 1
|
1月前
|
Java
java中替换文件内容
java中替换文件内容
14 1
|
1月前
|
Java API
Java中文件与输入输出
Java中文件与输入输出
|
1月前
|
Java
java实现遍历树形菜单方法——映射文件VoteTree.hbm.xml
java实现遍历树形菜单方法——映射文件VoteTree.hbm.xml
10 0
|
1月前
|
Java
java程序导出堆文件
java程序导出堆文件
|
1月前
|
SQL Oracle Java
sql文件批处理程序-java桌面应用
sql文件批处理程序-java桌面应用
25 0
|
1月前
|
存储 Java 文件存储
如何用 Java 压缩 ZIP 文件?
【2月更文挑战第21天】
33 1
|
1月前
|
Java
Java实现文件和目录的管理
Java实现文件和目录的管理
29 0
|
4天前
|
Java 关系型数据库 MySQL
Elasticsearch【问题记录 01】启动服务&停止服务的2类方法【及 java.nio.file.AccessDeniedException: xx/pid 问题解决】(含shell脚本文件)
【4月更文挑战第12天】Elasticsearch【问题记录 01】启动服务&停止服务的2类方法【及 java.nio.file.AccessDeniedException: xx/pid 问题解决】(含shell脚本文件)
29 3
|
1月前
|
Java 数据库连接 API
Java 学习路线:基础知识、数据类型、条件语句、函数、循环、异常处理、数据结构、面向对象编程、包、文件和 API
Java 是一种广泛使用的、面向对象的编程语言,始于1995年,以其跨平台性、安全性和可靠性著称,应用于从移动设备到数据中心的各种场景。基础概念包括变量(如局部、实例和静态变量)、数据类型(原始和非原始)、条件语句(if、else、switch等)、函数、循环、异常处理、数据结构(如数组、链表)和面向对象编程(类、接口、继承等)。深入学习还包括包、内存管理、集合框架、序列化、网络套接字、泛型、流、JVM、垃圾回收和线程。构建工具如Gradle、Maven和Ant简化了开发流程,Web框架如Spring和Spring Boot支持Web应用开发。ORM工具如JPA、Hibernate处理对象与数
93 3