文档备案控制台

开发者社区问答正文

Python:当读取一个没有默认分隔符的文件(包含数百万条记录)并将其放入dataframe (pa

Python:在没有默认分隔符(包含数百万条记录)的情况下读取文件并将其放入“数据框架(panda)”中，最有效的方法是什么? 文件是:"file_sd.txt"

 A123456MESTUDIANTE 000-12
 A123457MPROFESOR   003103
 I128734MPROGRAMADOR00-111
 A129863FARQUITECTO 00-456

# Fields and position:
# - Activity Indicator :  indAct     -> 01 Character
# - Person Code        :  codPer     -> 06 Characters
# - Gender (M / F)     :  sex        -> 01 Character
# - Occupation         :  occupation -> 11 Characters
# - Amount(User format):  amount     -> 06 Characters (Convert to Number)

我不确定。这是最好的选择吗?

 import pandas as pd 
 import numpy as np

 def stoI(cad):
     pos =  cad.find("-")
     if pos < 0: return int(cad)  
     return int(cad[pos+1:])*-1 

 #Read Txt
 data = pd.read_csv(r'D:\file_sd.txt',header = None)
 data_sep = pd.DataFrame(
     {
         'indAct'   :data[0].str.slice(0,1),
         'codPer'   :data[0].str.slice(1,7),
         'sexo'     :data[0].str.slice(7,8),
         'ocupac'   :data[0].str.slice(8,19),
         'monto'    :np.vectorize(stoI)(data[0].str.slice(19,25))
     })

 print(data_sep)

   indAct  codPer sexo       ocupac  monto
 0      A  123456    M  ESTUDIANTE     -12
 1      A  123457    M  PROFESOR      3103
 2      I  128734    M  PROGRAMADOR   -111
 3      A  129863    F  ARQUITECTO    -456

这个7百万行的解决方案。结果是:

%timeit df_slice()
11.1 s ± 166 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

问题来源StackOverflow 地址：/questions/59383835/python-efficiency-when-reading-a-file-without-a-default-delimiter-with-millions

展开

收起

kun坤 2019-12-26 15:50:18 1233 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

kun坤
您有一个固定宽度的文件，因此应该使用适当的pd。read_fwf读者。在本例中，我们将指定属于每个字段和列名的字符数。
```
df = pd.read_fwf('test.txt', header=None, widths=[1, 6, 1, 11, 6])
df.columns = ['indAct' ,'codPer', 'sexo', 'ocupac', 'monto']
#  indAct  codPer sexo       ocupac   monto
#0      A  123456    M   ESTUDIANTE  000-12
#1      A  123457    M     PROFESOR  003103
#2      I  128734    M  PROGRAMADOR  00-111
#3      A  129863    F   ARQUITECTO  00-456
```
现在您可以修复字段的dtype。通过去除0并调用pd.to_numeric，可以将“monto”转换成数字。
```
df['monto'] = pd.to_numeric(df['monto'].str.strip('0'), errors='coerce')
#  indAct  codPer sexo       ocupac  monto
#0      A  123456    M   ESTUDIANTE    -12
#1      A  123457    M     PROFESOR   3103
#2      I  128734    M  PROGRAMADOR   -111
#3      A  129863    F   ARQUITECTO   -456
```
正如您的评论所指出的，这可能在表面上看起来比较慢。优点是pd。read_fwf作为一种I/O操作，具有大量的自动数据清理功能。在许多对象列完全包含整个字符限制、没有丢失数据的情况下，字符串切片具有优势。但是对于一般的未知数据集，您需要摄取和ETL，一旦开始将字符串剥离和类型转换附加到每个列，您可能会发现指定的panda I/O操作是最佳选择。
2019-12-26 15:50:25

赞同展开评论

问答分类：

Python

问答标签：

Python DataFrame Python文件 Python分隔符 Python读取 Python记录

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

python读取odps写入es,有实例吗？

216

1

0

python如何读取odps写入es？

283

2

0

有什么办法可以批量获得线上这些文件信息嘛？用python可以吗？

653

1

0

我想问下 dataworks的 python节点能否直接读取holo上的表的数据

1153

1

0

python能否不选中资源，直接使用dolphinscheduler的资源中心文件

890

0

0

自定义python processor 通过 urlopen 方式调用 oss存储的文件报错 <

1213

1

0

python可使用 to_csv() 将 dataframe 存储为 csv 文件吗？

865

0

0

python文件如何在dataworks中封装成自定义函数使用

814

1

0

想问一下，python自定义组件中上层OSS读数据的输入，为啥会报文件不存在啊

688

0

0

对于pandas和python的list和tuple当中使用整数索引进行记录的查找或切片有什么不同吗

623

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

Qwen OpenAI-Responses 兼容模式有问题

相关文章

ABoVE：加拿大西北地区土壤有机质的燃烧严重程度，2014-2015 年

Python标准库里藏着的7个代码简化利器

【从零手写 ClaudeCode：learn-claude-code 项目实战笔记】（6）Context Compact (上下文压缩)

开源工具Sage构建AI代理安全层的技术机理与防御范式

供应链投毒与窃密木马的协同攻击机制及防御策略

还有其他疑问?