modin.pandas通过多进程可以使得读取大文件的速度提高4倍左右(pandas替代方案)

简介: modin.pandas通过多进程可以使得读取大文件的速度提高4倍左右(pandas替代方案)
import time
# 引入正常的pandas的模块
import pandas as pd
# 引入该模块
import modin.pandas as mpd
def test_pd_time(path):
    start = time.time()
    data=pd.read_csv(path)
    end= time.time()
    print('pd consume time is:',end-start)
def test_mpd_time(path):
    start = time.time()
    data=mpd.read_csv(path)
    end = time.time()
    print('modin pd  consume time is:',end-start)
path1='/home/yjj/data_oanda/AUD_CAD.csv'
path2='/opt/oanda_pair_rate.csv'
# 测试一个大样本的数据
print('大样本测试')
test_pd_time(path1)
test_mpd_time(path1)
# 测试一个小样本
print('大样小测试')
test_pd_time(path2)
test_mpd_time(path2)

大样本测试(2.5G左右)

pd consume time is: 36.11769914627075

modin pd  consume time is: 8.59299921989441

大样小测试(100M左右)

pd consume time is: 0.00580286979675293

modin pd  consume time is: 0.028467655181884766

 

注:处理大文件的时候,1个G以上,建议用modin.pandas,处理小文件,建议用pandas



目录
相关文章
|
6月前
|
存储 JSON 关系型数据库
Pandas载入txt、csv、Excel、JSON、数据库文件讲解及实战(超详细 附源码)
Pandas载入txt、csv、Excel、JSON、数据库文件讲解及实战(超详细 附源码)
131 0
|
2月前
|
Python
Pandas读取处理大文件策略
Pandas读取处理大文件策略
37 2
|
数据挖掘 Python
【Python】数据分析:结构化数分工具 Pandas | Series 与 DataFrame | 读取CSV文件数据
【Python】数据分析:结构化数分工具 Pandas | Series 与 DataFrame | 读取CSV文件数据
77 1
|
3月前
|
Python
[pandas]从多个文件中构建dataframe
[pandas]从多个文件中构建dataframe
|
6月前
|
数据挖掘 数据处理 索引
使用Pandas从Excel文件中提取满足条件的数据并生成新的文件
使用Pandas从Excel文件中提取满足条件的数据并生成新的文件
136 1
|
6月前
|
数据采集 数据挖掘 数据处理
Python数据分析实战:使用Pandas处理Excel文件
Python数据分析实战:使用Pandas处理Excel文件
204 0
|
12月前
|
存储 数据处理 索引
Pandas读取Excel文件内容的方法使用正确的指南
Pandas读取Excel文件内容的方法使用正确的指南
|
Python
pandas 数据循环修改列后保存为csv文件
pandas 数据循环修改列后保存为csv文件
309 0
|
Python
Pandas读取CSV文件示例及常用方法
Pandas读取CSV文件示例及常用方法
295 0
|
Python
Python 帮同事用pandas快速筛选Excel文件
Python 帮同事用pandas快速筛选Excel文件
242 0