python-problem-大文件的读取-阿里云开发者社区

python-problem-大文件的读取

2017-09-21 1229

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： python读取大文件一.问题博主在使用glove840b词向量的时候，遇到的一些坑。这个词向量大概有5.25个G容量，并且我需要按照行来进行处理。

python读取大文件

一.问题

博主在使用glove840b词向量的时候，遇到的一些坑。这个词向量大概有5.25个G容量，并且我需要按照行来进行处理。然后我直接用了

f = open(path,encoding="utf-8").readlines()

然后内存就炸了。我可是16G的内存呢。

二.对比几种读文件的方法

1.with

with open(path, encoding="utf-8") as f:
    for line in f:
        dosomething()

只占用4.6M内存
注意这种方法每一行最后会有一个’\n’

There should be one – and preferably only one – obvious way to do it.

2.直接遍历

f = open(path, encoding="utf-8")
for line in f:
    dosomething()

只占用4.6M内存
注意这种方法每一行最后会有一个’\n’
这里我想说用with和直接每次读一行进行遍历，实际上是一样的效果的。只是with有一些好处，我打算下一章专门写一下with。先举个列子，用with，就不用在读文件结束的时候写f.close()了。

3.使用readlines()

f = open(path, encoding="utf-8").readlines()
for line in f:
    dosomething()

这种方法会把整个文件一次性加载在内存中，对于小文件来说，处理起来，速度会更快。
但是加载5.25的G的文本的时候，内存直接就爆满了。

4.使用yield配合readline

三.总结

尽量使用with的方法吧。
但是如果文章真的不是很大的话，或者内存足够大的话，还是用readlines比较好，速度能够提升好多。可以具体比较一下。

参考
https://stackoverflow.com/questions/8009882/how-to-read-large-file-line-by-line-in-python

文章标签：

Python

关键词：

Python大文件

python-problem-大文件的读取

python读取大文件

一.问题

二.对比几种读文件的方法

1.with

2.直接遍历

3.使用readlines()

4.使用yield配合readline

三.总结

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

python-problem-大文件的读取

python读取大文件

一.问题

二.对比几种读文件的方法

1.with

2.直接遍历

3.使用readlines()

4.使用yield配合readline

三.总结

热门文章

最新文章

相关课程

相关电子书

推荐镜像