场景题:100G的文件里有很多id,用1G内存的机器排序,怎么做?

本文涉及的产品
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
容器镜像服务 ACR,镜像仓库100个 不限时长
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
简介: Java常见面试场景题之大文件排序问题

海量数据排序思路

核心方案:外排序(分治+多路归并)MapReduce

外排序是指数据量太大,无法全部加载到内存中,需要将数据分成多个小块进行排序,然后将排序后的小块合并成一个大的有序块

1.分块排序(Map阶段)

  • 分块策略
    按1G内存容量限制,将100G文件拆分为 200个500MB分块(保留内存用于排序计算和系统开销)
  • 内存排序
    每个分块加载至内存后:
    ① 使用快速排序(时间复杂度O(n log n))
    去重优化:若存在重复ID,排序时合并相同项(节省存储空间),根据要求是否去重
  • 临时文件写入
    排序后分块写入磁盘,命名规则:chunk_0001.sorted ~ chunk_0200.sorted

2. 多路归并(Reduce阶段)

使用K路归并算法合并这些排序好的小文件

具体实现方法:

  • 从每个小文件中读取一小部分数据到内存(例如每个文件读取几MB)
  • 建立最小堆(优先队列)来追踪当前每个文件的最小值
  • 每次从堆中取出最小值,写入输出文件
  • 从该最小值所在的文件再读入一个ID到堆中
  • 重复上述过程直到所有文件都处理完

具体示例:

  • 分批归并:每轮合并50个分块(50路归并),共需4轮(200/50)
  • 堆排序优化:使用 最小堆(PriorityQueue) 管理各分块当前读取值

内存管理:

区域 分配比例 说明
输入缓冲区 800MB 每个分块预读16MB(50分块×16MB)
输出缓冲区 200MB 写满后批量刷新至磁盘

3.核心代码(Java实现)

阶段1:分割大文件,并排序小文件,输出多个小文件排序后的结果

private static List<File> splitAndSort(String inputFile) throws IOException {
   
        List<File> chunks = new ArrayList<>();
        try (BufferedReader reader = new BufferedReader(new FileReader(inputFile))) {
   
            List<Long> buffer = new ArrayList<>(MAX_CHUNK_SIZE / 8);
            String line;

            while ((line = reader.readLine()) != null) {
   
                buffer.add(Long.parseLong(line));
                // 内存达到阈值时执行排序和写入
                if (buffer.size() >= MAX_CHUNK_SIZE / 8) {
   
                    chunks.add(sortAndWrite(buffer));
                    buffer.clear();
                }
            }
            // 处理剩余数据
            if (!buffer.isEmpty()) {
   
                chunks.add(sortAndWrite(buffer));
            }
        }
        return chunks;
    }

阶段2:多路归并,使用最小堆优化

 private static void mergeFiles(List<File> files, String output) throws IOException {
   
        PriorityQueue<FileEntry> minHeap = new PriorityQueue<>(
            files.size(), 
            Comparator.comparingLong(FileEntry::current)
        );

        // 初始化堆(每个文件读取一个元素)
        for (File file : files) {
   
            BufferedReader reader = new BufferedReader(new FileReader(file));
            String line = reader.readLine();
            if (line != null) {
   
                minHeap.offer(new FileEntry(Long.parseLong(line), reader));
            }
        }

        try (BufferedWriter writer = new BufferedWriter(new FileWriter(output))) {
   
            while (!minHeap.isEmpty()) {
   
                FileEntry entry = minHeap.poll();
                writer.write(entry.current.toString());
                writer.newLine();

                // 从当前文件读取下一个元素
                String line = entry.reader.readLine();
                if (line != null) {
   
                    entry.current = Long.parseLong(line);
                    minHeap.offer(entry);
                } else {
   
                    entry.reader.close(); // 关闭已读完的文件
                }
            }
        }
    }
相关文章
|
7月前
|
Arthas 存储 算法
深入理解JVM,包含字节码文件,内存结构,垃圾回收,类的声明周期,类加载器
JVM全称是Java Virtual Machine-Java虚拟机JVM作用:本质上是一个运行在计算机上的程序,职责是运行Java字节码文件,编译为机器码交由计算机运行类的生命周期概述:类的生命周期描述了一个类加载,使用,卸载的整个过类的生命周期阶段:类的声明周期主要分为五个阶段:加载->连接->初始化->使用->卸载,其中连接中分为三个小阶段验证->准备->解析类加载器的定义:JVM提供类加载器给Java程序去获取类和接口字节码数据类加载器的作用:类加载器接受字节码文件。
668 55
|
8月前
|
存储 缓存 编解码
阿里云服务器实例规格怎么选?经济型、通用算力型、计算型、通用型、内存型场景化选购指南
阿里云服务器的实例规格有经济型、通用型、计算型、内存型、通用算力型、大数据型、本地SSD型、高主频型、突发型、共享型等不同种类的实例规格,以满足不同用户和业务场景的需求。对于初次接触阿里云服务器的用户来说,如何选择合适的实例规格成为了一个重要的问题。本文将为大家解析阿里云的经济型、通用算力型、计算型、通用型和内存型实例规格的主要性能和适用场景情况,帮助用户根据实际需求选择合适的云服务器实例。
763 10
|
6月前
|
存储 缓存 分布式计算
高内存场景必读!阿里云r7/r9i/r8y/r8i实例架构、性能、价格多维度对比
阿里云针对高性能需求场景,一般会在活动中推出内存型r7、内存型r9i、内存型r8y和内存型r8i这几款内存型实例规格的云服务器。相比于活动内的经济型e和通用算力型u1等实例规格,这些内存型实例在性能上更为强劲,尤其适合对内存和计算能力有较高要求的应用场景。这些实例规格的云服务器在处理器与内存的配比上大多为1:8,但它们在处理器架构、存储性能、网络能力以及安全特性等方面各有千秋,因此适用场景也各不相同。本文将为大家详细介绍内存型r7、r9i、r8y、r8i实例的性能、适用场景的区别以及选择参考。
|
9月前
|
存储 大数据 BI
场景题:有40亿个QQ号如何去重?仅1GB内存
在处理大数据去重问题时,如40亿QQ号的去重(仅1GB内存),可采用Bitmap和布隆过滤器两种方法。Bitmap利用位图存储,每个QQ号占1位,总需512MB内存,适用于整型数据;布隆过滤器通过多个哈希函数计算下标,适合字符串或对象去重,但存在误判率。在线人员统计等场景也可使用类似思路,将ID作为偏移值标记在线状态或视频存在性。
318 4
|
存储 Java
JVM知识体系学习四:排序规范(happens-before原则)、对象创建过程、对象的内存中存储布局、对象的大小、对象头内容、对象如何定位、对象如何分配
这篇文章详细地介绍了Java对象的创建过程、内存布局、对象头的MarkWord、对象的定位方式以及对象的分配策略,并深入探讨了happens-before原则以确保多线程环境下的正确同步。
220 0
JVM知识体系学习四:排序规范(happens-before原则)、对象创建过程、对象的内存中存储布局、对象的大小、对象头内容、对象如何定位、对象如何分配
|
存储 安全 Linux
将文件映射到内存,像数组一样访问
将文件映射到内存,像数组一样访问
219 1
|
Linux C++
Linux c/c++文件虚拟内存映射
这篇文章介绍了在Linux环境下,如何使用虚拟内存映射技术来提高文件读写的速度,并通过C/C++代码示例展示了文件映射的整个流程。
370 0
|
程序员 Windows
程序员必备文件搜索工具 Everything 带安装包!!! 比windows自带的文件搜索快几百倍!!! 超级好用的文件搜索工具,仅几兆,不占内存,打开即用
文章推荐了程序员必备的文件搜索工具Everything,并提供了安装包下载链接,强调其比Windows自带搜索快且占用内存少。
337 0
|
5月前
|
存储
阿里云轻量应用服务器收费标准价格表:200Mbps带宽、CPU内存及存储配置详解
阿里云香港轻量应用服务器,200Mbps带宽,免备案,支持多IP及国际线路,月租25元起,年付享8.5折优惠,适用于网站、应用等多种场景。
1748 0