python大量excel文件处理的一点经验总结

简介: python大量excel文件处理的一点经验总结

首先,我的电脑是神舟笔记本超级战神,12线核(应该是6核切割成的12核),内存16G,CPU最大使用被限制在68%。


其次,数据时从oanda官网下载到的5s的31个货币对的bid和ask的K线报价,oanda限制每一次下载最多5000个K线(bar)。


最后,下载下来的结果得到80多万个csv文件,大小130多个G,每个文件是6小时时间长度的5s的bar数据

----


1、首先想的是使用os.listdir获取这个文件夹中的文件名称,做区分处理

   os.listdir基本上跑不出来结果,文件夹文件太多。在网上找到了替代方法,使用os.scandir可以得到所有的文件名称


2、考虑把文件名分组,不同品种不同的小的文件夹,把大的文件夹拆分成62个小的文件夹

  实际上,这个在下载的时候就应该考虑到,每下载一个,就直接放到子文件夹中


3、把每个文件夹中的文件,按照年份,形成每年每年的数据

   如果是单线程跑的话,估计能跑好多天。使用多进程,加快效率(也不能开太多,磁盘读写有限制)


4、把每年每年的数据合并一个文件,这样就得到几百个每年每年的文件了。


5、把每年的bid,ask的价格合成为time,bid,ask的模式,以5s钟的收盘价作为bid和ask的价格


6、把每年的合并,成为一个总体的全部的数据。


------------------------

感悟:当最初的目标太大的时候,当问题似乎不可能解决的时候,学会拆分,把大的化小,把难的变容易,一点一点去完成。



目录
相关文章
|
25天前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
|
3月前
|
Python
Python办公自动化:xlwings对Excel进行分类汇总
Python办公自动化:xlwings对Excel进行分类汇总
109 1
|
1月前
|
Java 测试技术 持续交付
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
本文重点讲解如何搭建App自动化测试框架的思路,而非完整源码。主要内容包括实现目的、框架设计、环境依赖和框架的主要组成部分。适用于初学者,旨在帮助其快速掌握App自动化测试的基本技能。文中详细介绍了从需求分析到技术栈选择,再到具体模块的封装与实现,包括登录、截图、日志、测试报告和邮件服务等。同时提供了运行效果的展示,便于理解和实践。
115 4
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
|
22天前
|
机器学习/深度学习 前端开发 数据处理
利用Python将Excel快速转换成HTML
本文介绍如何使用Python将Excel文件快速转换成HTML格式,以便在网页上展示或进行进一步的数据处理。通过pandas库,你可以轻松读取Excel文件并将其转换为HTML表格,最后保存为HTML文件。文中提供了详细的代码示例和注意事项,帮助你顺利完成这一任务。
34 0
|
2月前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
117 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
2月前
|
Python
python读写操作excel日志
主要是读写操作,创建表格
69 2
|
2月前
|
Python
Python 自动化操作 Excel - 02 - xlwt
Python 自动化操作 Excel - 02 - xlwt
45 14
|
2月前
|
Python
Python 自动化操作 Excel - 03 - xlutils
Python 自动化操作 Excel - 03 - xlutils
44 13
|
2月前
|
数据处理 Python
Python 高级技巧:深入解析读取 Excel 文件的多种方法
在数据分析中,从 Excel 文件读取数据是常见需求。本文介绍了使用 Python 的三个库:`pandas`、`openpyxl` 和 `xlrd` 来高效处理 Excel 文件的方法。`pandas` 提供了简洁的接口,而 `openpyxl` 和 `xlrd` 则针对不同版本的 Excel 文件格式提供了详细的数据读取和处理功能。此外,还介绍了如何处理复杂格式(如合并单元格)和进行性能优化(如分块读取)。通过这些技巧,可以轻松应对各种 Excel 数据处理任务。
257 16
|
2月前
|
Python
Python 自动化操作 Excel - 01 - xlrd
Python 自动化操作 Excel - 01 - xlrd
42 9