背景
如果你的机儿内存只有8个G,现在要对一个10个G的文件进行排序,嘤嘤嘤。
思路
这是小白最能理解的一种方案,我们先把10个G大文件分成5个2G的小文件
假设原文件:2 15 4 18 1 9 7 12 6 5 8 4 7 16 3
小文件一:2 15 4
小文件二:18 1 9
小文件三:7 12 6
小文件四:5 8 4
小文件五:7 16 3
对每个小文件进行排序,这个就很多方法了,你可以直接读到内存进行排序,排完了再写回;
小文件一:2 4 15
小文件二:1 9 18
小文件三:6 7 12
小文件四:4 5 8
小文件五:3 7 16
5个小文件都排序好了后,我们依次从5个小文件中读取第一个元素,5个元素比较,选择最小的值min,新建一个文件,将min写入新文件
min(2 1 6 4 3)=1
存入LinkedList,此时LinkedList值为{1}
继续从小文件二中读取下一个元素9
min(2 9 6 4 3)=2
存入LinkedList,此时LinkedList值为{1,2}
继续从小文件一中读取下一个元素4
min(4 9 6 4 3)=3
存入LinkedList,此时LinkedList值为{1,2,3}
继续从小文件五中读取下一个元素7
min(4 9 6 4 7)=4
存入LinkedList,此时LinkedList值为{1,2,3,4}
继续从小文件一中读取下一个元素15
min(15 9 6 4 7)=4
存入LinkedList,此时LinkedList值为{1,2,3,4,4}
继续从小文件四中读取下一个元素5
min(15 9 6 5 7)=5
存入LinkedList,此时LinkedList值为{1,2,3,4,4,5}
继续从小文件四中读取下一个元素8
min(15 9 6 8 7)=6
存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6}
继续从小文件三中读取下一个元素7
min(15 9 7 8 7)=7
存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7}
继续从小文件三中读取下一个元素12
min(15 9 12 8 7)=7
存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7}
继续从小文件五中读取下一个元素16
min(15 9 12 8 16)=8
存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8}
小文件四读取完毕
min(15 9 12 16)=9
存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9}
继续从小文件二中读取下一个元素18
min(15 18 12 16)=12
存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12}
小文件三读取完毕
min(15 18 16)=15
存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15}
小文件一读取完毕
min(18 16)=16
存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15,16}
小文件五读取完毕
min(18)=18
小文件二读取完毕
存入LinkedList,最终LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15,16,18}
注意,这里是为了演示方便,便于小白理解过程,每次直接从文件中读取一个,实际操作中我们不可能每次都只读取一个,IO操作是很耗时的,也不用每次只对比5个,所以
优化
为了避免频繁IO,我们可以依次从每个小文件中读取一部分到内存,比如读取每个小文件的前1000条(读取的数量视情况而定,总之为了避免io,最好是在服务器顶得住的情况下尽量多读取一些到内存,因为一次内存操作和一次io操作耗时比起来几乎可以忽略),读取到内存后,用5个linkedList来接收,,我们对这5000条数据在内存中进行排序,排序算法自选,排好序写入新文件;写完后清空内存中的5000条数据,继续从每个新文件中读取一部分到内存,比如这次读取每个小文件的1001-2000条,以此类推…skr
ok我话讲完