Java大文件排序(有手就能学会)

简介: 注意,这里是为了演示方便,便于小白理解过程,每次直接从文件中读取一个,实际操作中我们不可能每次都只读取一个,IO操作是很耗时的,也不用每次只对比5个

背景

如果你的机儿内存只有8个G,现在要对一个10个G的文件进行排序,嘤嘤嘤。


思路

这是小白最能理解的一种方案,我们先把10个G大文件分成5个2G的小文件

假设原文件:2 15 4 18 1 9 7 12 6 5 8 4 7 16 3

小文件一:2 15 4

小文件二:18 1 9

小文件三:7 12 6

小文件四:5 8 4

小文件五:7 16 3


对每个小文件进行排序,这个就很多方法了,你可以直接读到内存进行排序,排完了再写回;

小文件一:2 4 15

小文件二:1 9 18

小文件三:6 7 12

小文件四:4 5 8

小文件五:3 7 16


5个小文件都排序好了后,我们依次从5个小文件中读取第一个元素,5个元素比较,选择最小的值min,新建一个文件,将min写入新文件


min(2 1 6 4 3)=1

存入LinkedList,此时LinkedList值为{1}

继续从小文件二中读取下一个元素9

min(2 9 6 4 3)=2

存入LinkedList,此时LinkedList值为{1,2}

继续从小文件一中读取下一个元素4

min(4 9 6 4 3)=3

存入LinkedList,此时LinkedList值为{1,2,3}

继续从小文件五中读取下一个元素7

min(4 9 6 4 7)=4

存入LinkedList,此时LinkedList值为{1,2,3,4}

继续从小文件一中读取下一个元素15

min(15 9 6 4 7)=4

存入LinkedList,此时LinkedList值为{1,2,3,4,4}

继续从小文件四中读取下一个元素5

min(15 9 6 5 7)=5

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5}

继续从小文件四中读取下一个元素8

min(15 9 6 8 7)=6

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6}

继续从小文件三中读取下一个元素7

min(15 9 7 8 7)=7

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7}

继续从小文件三中读取下一个元素12

min(15 9 12 8 7)=7

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7}

继续从小文件五中读取下一个元素16

min(15 9 12 8 16)=8

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8}

小文件四读取完毕

min(15 9 12 16)=9

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9}

继续从小文件二中读取下一个元素18

min(15 18 12 16)=12

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12}

小文件三读取完毕

min(15 18 16)=15

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15}

小文件一读取完毕

min(18 16)=16

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15,16}

小文件五读取完毕

min(18)=18

小文件二读取完毕

存入LinkedList,最终LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15,16,18}


注意,这里是为了演示方便,便于小白理解过程,每次直接从文件中读取一个,实际操作中我们不可能每次都只读取一个,IO操作是很耗时的,也不用每次只对比5个,所以

优化


为了避免频繁IO,我们可以依次从每个小文件中读取一部分到内存,比如读取每个小文件的前1000条(读取的数量视情况而定,总之为了避免io,最好是在服务器顶得住的情况下尽量多读取一些到内存,因为一次内存操作和一次io操作耗时比起来几乎可以忽略),读取到内存后,用5个linkedList来接收,,我们对这5000条数据在内存中进行排序,排序算法自选,排好序写入新文件;写完后清空内存中的5000条数据,继续从每个新文件中读取一部分到内存,比如这次读取每个小文件的1001-2000条,以此类推…skr


ok我话讲完

相关文章
|
1月前
|
Java Unix Go
【Java】(8)Stream流、文件File相关操作,IO的含义与运用
Java 为 I/O 提供了强大的而灵活的支持,使其更广泛地应用到文件传输和网络编程中。!但本节讲述最基本的和流与 I/O 相关的功能。我们将通过一个个例子来学习这些功能。
158 1
|
4月前
|
存储 Java 编译器
深入理解Java虚拟机--类文件结构
本内容介绍了Java虚拟机与Class文件的关系及其内部结构。Class文件是一种与语言无关的二进制格式,包含JVM指令集、符号表等信息。无论使用何种语言,只要能生成符合规范的Class文件,即可在JVM上运行。文章详细解析了Class文件的组成,包括魔数、版本号、常量池、访问标志、类索引、字段表、方法表和属性表等,并说明其在Java编译与运行过程中的作用。
134 0
|
4月前
|
存储 人工智能 Java
java之通过Http下载文件
本文介绍了使用Java实现通过文件链接下载文件到本地的方法,主要涉及URL、HttpURLConnection及输入输出流的操作。
297 0
|
4月前
|
监控 Java API
Java语言按文件创建日期排序及获取最新文件的技术
这段代码实现了文件创建时间的读取、文件列表的获取与排序以及获取最新文件的需求。它具备良好的效率和可读性,对于绝大多数处理文件属性相关的需求来说足够健壮。在实际应用中,根据具体情况,可能还需要进一步处理如访问权限不足、文件系统不支持某些属性等边界情况。
251 14
|
5月前
|
存储 Java 数据安全/隐私保护
Java技术栈揭秘:Base64加密和解密文件的实战案例
以上就是我们今天关于Java实现Base64编码和解码的实战案例介绍。希望能对你有所帮助。还有更多知识等待你去探索和学习,让我们一同努力,继续前行!
467 5
|
5月前
|
网络协议 安全 Java
实现Java语言的文件断点续传功能的技术方案。
像这样,我们就完成了一项看似高科技、实则亲民的小工程。这样的技术实现不仅具备实用性,也能在面对网络不稳定的挑战时,稳稳地、不失乐趣地完成工作。
327 0
|
8月前
|
前端开发 Cloud Native Java
Java||Springboot读取本地目录的文件和文件结构,读取服务器文档目录数据供前端渲染的API实现
博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
Java||Springboot读取本地目录的文件和文件结构,读取服务器文档目录数据供前端渲染的API实现
|
9月前
|
Java API 数据处理
深潜数据海洋:Java文件读写全面解析与实战指南
通过本文的详细解析与实战示例,您可以系统地掌握Java中各种文件读写操作,从基本的读写到高效的NIO操作,再到文件复制、移动和删除。希望这些内容能够帮助您在实际项目中处理文件数据,提高开发效率和代码质量。
242 4
|
9月前
|
存储 算法 Java
解锁“分享文件”高效密码:探秘 Java 二叉搜索树算法
在信息爆炸的时代,文件分享至关重要。二叉搜索树(BST)以其高效的查找性能,为文件分享优化提供了新路径。本文聚焦Java环境下BST的应用,介绍其基础结构、实现示例及进阶优化。BST通过有序节点快速定位文件,结合自平衡树、多线程和权限管理,大幅提升文件分享效率与安全性。代码示例展示了文件插入与查找的基本操作,适用于大规模并发场景,确保分享过程流畅高效。掌握BST算法,助力文件分享创新发展。
|
10月前
|
前端开发 Java 开发工具
Git使用教程-将idea本地Java等文件配置到gitte上【保姆级教程】
本内容详细介绍了使用Git进行版本控制的全过程,涵盖从本地仓库创建到远程仓库配置,以及最终推送代码至远程仓库的步骤。
649 0