Java大文件排序(有手就能学会)

简介: 注意,这里是为了演示方便,便于小白理解过程,每次直接从文件中读取一个,实际操作中我们不可能每次都只读取一个,IO操作是很耗时的,也不用每次只对比5个

背景

如果你的机儿内存只有8个G,现在要对一个10个G的文件进行排序,嘤嘤嘤。


思路

这是小白最能理解的一种方案,我们先把10个G大文件分成5个2G的小文件

假设原文件:2 15 4 18 1 9 7 12 6 5 8 4 7 16 3

小文件一:2 15 4

小文件二:18 1 9

小文件三:7 12 6

小文件四:5 8 4

小文件五:7 16 3


对每个小文件进行排序,这个就很多方法了,你可以直接读到内存进行排序,排完了再写回;

小文件一:2 4 15

小文件二:1 9 18

小文件三:6 7 12

小文件四:4 5 8

小文件五:3 7 16


5个小文件都排序好了后,我们依次从5个小文件中读取第一个元素,5个元素比较,选择最小的值min,新建一个文件,将min写入新文件


min(2 1 6 4 3)=1

存入LinkedList,此时LinkedList值为{1}

继续从小文件二中读取下一个元素9

min(2 9 6 4 3)=2

存入LinkedList,此时LinkedList值为{1,2}

继续从小文件一中读取下一个元素4

min(4 9 6 4 3)=3

存入LinkedList,此时LinkedList值为{1,2,3}

继续从小文件五中读取下一个元素7

min(4 9 6 4 7)=4

存入LinkedList,此时LinkedList值为{1,2,3,4}

继续从小文件一中读取下一个元素15

min(15 9 6 4 7)=4

存入LinkedList,此时LinkedList值为{1,2,3,4,4}

继续从小文件四中读取下一个元素5

min(15 9 6 5 7)=5

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5}

继续从小文件四中读取下一个元素8

min(15 9 6 8 7)=6

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6}

继续从小文件三中读取下一个元素7

min(15 9 7 8 7)=7

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7}

继续从小文件三中读取下一个元素12

min(15 9 12 8 7)=7

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7}

继续从小文件五中读取下一个元素16

min(15 9 12 8 16)=8

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8}

小文件四读取完毕

min(15 9 12 16)=9

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9}

继续从小文件二中读取下一个元素18

min(15 18 12 16)=12

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12}

小文件三读取完毕

min(15 18 16)=15

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15}

小文件一读取完毕

min(18 16)=16

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15,16}

小文件五读取完毕

min(18)=18

小文件二读取完毕

存入LinkedList,最终LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15,16,18}


注意,这里是为了演示方便,便于小白理解过程,每次直接从文件中读取一个,实际操作中我们不可能每次都只读取一个,IO操作是很耗时的,也不用每次只对比5个,所以

优化


为了避免频繁IO,我们可以依次从每个小文件中读取一部分到内存,比如读取每个小文件的前1000条(读取的数量视情况而定,总之为了避免io,最好是在服务器顶得住的情况下尽量多读取一些到内存,因为一次内存操作和一次io操作耗时比起来几乎可以忽略),读取到内存后,用5个linkedList来接收,,我们对这5000条数据在内存中进行排序,排序算法自选,排好序写入新文件;写完后清空内存中的5000条数据,继续从每个新文件中读取一部分到内存,比如这次读取每个小文件的1001-2000条,以此类推…skr


ok我话讲完

相关文章
|
2月前
|
Java
java小工具util系列5:java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法
java小工具util系列5:java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法
84 9
|
2月前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
87 2
|
5天前
|
人工智能 自然语言处理 Java
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
51 9
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
|
26天前
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
86 34
|
2月前
|
消息中间件 存储 Java
RocketMQ文件刷盘机制深度解析与Java模拟实现
【11月更文挑战第22天】在现代分布式系统中,消息队列(Message Queue, MQ)作为一种重要的中间件,扮演着连接不同服务、实现异步通信和消息解耦的关键角色。Apache RocketMQ作为一款高性能的分布式消息中间件,广泛应用于实时数据流处理、日志流处理等场景。为了保证消息的可靠性,RocketMQ引入了一种称为“刷盘”的机制,将消息从内存写入到磁盘中,确保消息持久化。本文将从底层原理、业务场景、概念、功能点等方面深入解析RocketMQ的文件刷盘机制,并使用Java模拟实现类似的功能。
45 3
|
2月前
|
Java 测试技术 Maven
Maven clean 提示文件 java.io.IOException
在使用Maven进行项目打包时,遇到了`Failed to delete`错误,尝试手动删除目标文件也失败,提示`java.io.IOException`。经过分析,发现问题是由于`sys-info.log`文件被其他进程占用。解决方法是关闭IDEA和相关Java进程,清理隐藏的Java进程后重新尝试Maven clean操作。最终问题得以解决。总结:遇到此类问题时,可以通过任务管理器清理相关进程或重启电脑来解决。
|
2月前
|
存储 缓存 安全
在 Java 编程中,创建临时文件用于存储临时数据或进行临时操作非常常见
在 Java 编程中,创建临时文件用于存储临时数据或进行临时操作非常常见。本文介绍了使用 `File.createTempFile` 方法和自定义创建临时文件的两种方式,详细探讨了它们的使用场景和注意事项,包括数据缓存、文件上传下载和日志记录等。强调了清理临时文件、确保文件名唯一性和合理设置文件权限的重要性。
128 2
|
2月前
|
存储 安全 Java
如何保证 Java 类文件的安全性?
Java类文件的安全性可以通过多种方式保障,如使用数字签名验证类文件的完整性和来源,利用安全管理器和安全策略限制类文件的权限,以及通过加密技术保护类文件在传输过程中的安全。
71 4
|
2月前
|
存储 Java API
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
87 4
|
2月前
|
Java 数据格式 索引
使用 Java 字节码工具检查类文件完整性的原理是什么
Java字节码工具通过解析和分析类文件的字节码,检查其结构和内容是否符合Java虚拟机规范,确保类文件的完整性和合法性,防止恶意代码或损坏的类文件影响程序运行。
56 5