一个超级大的文件如何更快读

简介: # 一个超级大的文件如何更快读问题起因![](https://img2023.cnblogs.com/blog/2415052/202306/2415052-20230608110517159-989018809.png)一个有千万的数据的txt文件如何发挥IO的全部性能更快的读和写。## 方案一使用ChatGPT4的方案在C#中,我们可以使用多线程来处理大量的数据并将其写入数据库。在处理大数据时,我们需要将任务分解为多个子任务,这样我们可以在不同的线程中并行执行它们以提高性能。这里是一种可能的解决方案,使用了`Task Parallel Library (TPL

一个超级大的文件如何更快读

问题起因

一个有千万的数据的txt文件如何发挥IO的全部性能更快的读和写。

方案一

使用ChatGPT4的方案

在C#中,我们可以使用多线程来处理大量的数据并将其写入数据库。在处理大数据时,我们需要将任务分解为多个子任务,这样我们可以在不同的线程中并行执行它们以提高性能。

这里是一种可能的解决方案,使用了Task Parallel Library (TPL)来实现多线程。假设我们使用的是SQL Server数据库,并且我们正在处理的文件是TSV(Tab-Separated Values)文件。

using System;
using System.IO;
using System.Threading.Tasks;
using System.Data.SqlClient;
using System.Collections.Concurrent;

class Program
{
   
   
    static void Main()
    {
   
   
        string path = "yourFile.tsv";
        ConcurrentQueue<string[]> queue = new ConcurrentQueue<string[]>();

        var producer = Task.Run(() =>
        {
   
   
            using (var reader = new StreamReader(path))
            {
   
   
                string line;
                while ((line = reader.ReadLine()) != null)
                {
   
   
                    var fields = line.Split('\t');
                    queue.Enqueue(fields);
                }
            }
        });

        var consumers = new Task[4];
        for (int i = 0; i < consumers.Length; i++)
        {
   
   
            consumers[i] = Task.Run(() =>
            {
   
   
                string connString = "Your connection string";
                using (var conn = new SqlConnection(connString))
                {
   
   
                    conn.Open();
                    while (true)
                    {
   
   
                        if (queue.TryDequeue(out string[] fields))
                        {
   
   
                            using (var cmd = new SqlCommand("Your insert command", conn))
                            {
   
   
                                // Update parameters in cmd using fields
                                cmd.ExecuteNonQuery();
                            }
                        }
                        else if (producer.IsCompleted)
                        {
   
   
                            break;
                        }
                    }
                }
            });
        }

        Task.WaitAll(consumers);
    }
}

在上面的代码中,我们首先创建了一个生产者任务,该任务从TSV文件中读取每一行,然后将每一行分割为字段,并将结果存入队列。然后我们创建了4个消费者任务,每个消费者任务都从队列中

题外话题

如果这个文件是按照行去分割数据如何利用多线程去发挥更高性能?

讨论 采用偏移值去分多个任务读,并且需要解决偏移值不一定还在每一行中的位置,使用需要设计好如何解决偏移值的位置问题。

首先规定任务的偏移值提供案例:

[
    {
   
   
    "start":0,
    "end":10000
    },
    {
   
   
    "start":10001,
    "end":20000
    },
    {
   
   
    "start":20001,
    "end":30000
    },
    {
   
   
    "start":30000,
    "end":40000
    }
]

在这里提供了四个任务,每一个任务的偏移值都是固定的,请注意,我们的文件的数据是按照每个换行符去分割数据,如果使用了偏移值,我们无法保证偏移值的位置一定是每一行的开头,这个时候需要注意如何处理偏移值的问题,下面我提供一个简单的解决方法,采用伪代码

var data = new object []{
   
   

    {
   
   
    "start":0,
    "end":10000
    },
    {
   
   
    "start":10001,
    "end":20000
    },
    {
   
   
    "start":20001,
    "end":30000
    },
    {
   
   
    "start":30000,
    "end":40000
    }
}

// 处理偏移值的方法

// 提供多个线程任务去并发执行读

通过伪代码我们可以看到,解决偏移值的问题是由先提供一个方法,将每一个偏移值去先处理一边在去执行任务。这样就可以解决问题。

这个属于题外话题。如果大佬们有其他想法也可以讨论,话题不在意IO的瓶颈,如何更快的读

目录
相关文章
|
7月前
|
Linux 编译器 C++
C/C++性能优化:从根本上消除拷贝操作的浪费
C/C++性能优化:从根本上消除拷贝操作的浪费
942 1
|
7月前
|
监控 算法 前端开发
减少文件大小优化性能,你的姿势对吗?
优化文件体积需要理想与现实的搭配。这可是一门数字艺术,要找到最佳平衡点。 所以,让我们一同探讨:减少文件体积的姿势
136 0
|
1月前
|
存储 BI UED
提升系统性能:接口请求合并的高效技巧
在现代软件开发中,接口请求合并是一种提升系统性能的有效手段。它通过减少网络请求次数和服务器负载,显著提高了应用的响应速度和用户体验。以下是三种接口请求合并的技巧,它们在实际应用中表现出色,能够使性能直接爆表!
24 1
|
5月前
|
数据处理 数据库 索引
数据库索引策略如何影响数据的读取效率?
【7月更文挑战第3天】数据库索引策略如何影响数据的读取效率?
37 2
|
7月前
|
并行计算 索引 Python
讨论如何优化 DataFrame 操作,减少内存占用和提高执行速度
【5月更文挑战第19天】优化 DataFrame 操作涉及选择合适的数据类型、避免复制、使用向量化、高效迭代和设置索引。通过这些策略,如使用 `np.int8` 节省内存,直接修改列数据,利用 `itertuples`,设置分类数据类型,以及分块和并行计算,可以显著减少内存占用和提高执行速度,从而更好地处理大规模数据。实践中需结合具体情况综合运用,不断测试和优化。
228 2
|
7月前
|
存储 Python
文件缓冲区与I/O性能优化
文件缓冲区与I/O性能优化
93 0
|
自然语言处理 监控 C#
应用程序DDE读组态王的数据
应用程序DDE读组态王的数据
|
XML 缓存 API
百万级 Excel导入数据库 效率太低? 基于 SAX 的事件模型 导入,将会解决 效率问题
百万级 Excel导入数据库 效率太低? 基于 SAX 的事件模型 导入,将会解决 效率问题
100 0
|
C++
40.【C++最全文件操作,少一个你打我】(二)
40.【C++最全文件操作,少一个你打我】
46 0
|
C++
40.【C++最全文件操作,少一个你打我】(一)
40.【C++最全文件操作,少一个你打我】
82 0