好久没更新了😢,主要是最近忙着换工作,辞去了已工作10年的单位,即将跨入另一个领域,迎接新的挑战💪💪💪。
本期,我们讲一个关于Pandas如何读取处理大文件(300M以上的CSV文件)的方法。
对于大文件读取,在实践中我们发现不同配置的电脑对于大文件的容忍度是不一样的,低配的电脑在读取大文件过程中经常会出现MemoryError的问题,导致文件根本读取不进来,后续处理就拉倒了!
对于这种情况,我们可以用下面的语句来处理,具体代码为:
import pandas as pdreader = pd.read_csv('XXXXX.csv', iterator=True)#通过一块一块的来读取,限定行数100000行loop = TruechunkSize = 100000chunks = []#把所有的块读进来,并进行合并while loop: try: chunk = reader.get_chunk(chunkSize) chunks.append(chunk) except StopIteration: loop = False print ("Finished reading")df = pd.concat(chunks, ignore_index=True)
这样,我们就把CSV文件读取进来了,后续用df来进行处理了,这个方法很实用,需要的朋友赶紧试试吧!