备案控制台

开发者社区> 问答> 正文

从txt文件中提取文本并将其转换为df

将此txt文件包含值

google.com('172.217.163.46', 443)
        commonName: \*google.com
        issuer: GTS CA 1O1
        notBefore: 2020-02-12 11:47:11
        notAfter:  2020-05-06 11:47:11

facebook.com('31.13.79.35', 443)
        commonName: \*facebook.com
        issuer: DigiCert SHA2 High Assurance Server CA
        notBefore: 2020-01-16 00:00:00
        notAfter:  2020-04-15 12:00:00

如何将其转换为df

尝试了一下，并获得了部分成功：

f = open("out.txt", "r")
a=(f.read())


a=(pd.read_csv(StringIO(data),
              header=None,
     #use a delimiter not present in the text file
     #forces pandas to read data into one column
              sep="/",
              names=['string'])
     #limit number of splits to 1
  .string.str.split(':',n=1,expand=True)
  .rename({0:'Name',1:'temp'},axis=1)
  .assign(temp = lambda x: np.where(x.Name.str.strip()
                             #look for string that ends 
                             #with a bracket
                              .str.match(r'(.\*)]$)'),
                              x.Name,
                              x.temp),
          Name = lambda x: x.Name.str.replace(r'(.\*)]$)','Name')
          )
   #remove whitespace
 .assign(Name = lambda x: x.Name.str.strip())
 .pivot(columns='Name',values='temp')
 .ffill()
 .dropna(how='any')
 .reset_index(drop=True)
 .rename_axis(None,axis=1)
 .filter(['Name','commonName','issuer','notBefore','notAfter'])      
  )

但这是循环的，并给我多个数据，例如单行有多个重复项

问题来源：stackoverflow

展开

收起

is大龙 2020-03-24 23:38:56 732 0

1 条回答

写回答

取消提交回答

is大龙

该文件不是csv格式，因此您不应该使用read_csv来读取它，而要手工解析它。在这里你可以做：

with open("out.txt") as fd:
    cols = {'commonName','issuer','notBefore','notAfter'}  # columns to keep
    rows = []                                              # list of records
    for line in fd:
        line = line.strip()
        if ':' in line:
            elt = line.split(':', 1)                       # data line: parse it
            if elt[0] in cols:
                rec[elt[0]] = elt[1]
        elif len(line) > 0:
            rec = {'Name': line}                           # initial line of a block
            rows.append(rec)

a = pd.DataFrame(rows)         # and build the dataframe from the list of records

它给：

                                Name       commonName                                   issuer               notAfter             notBefore
0  google.com('172.217.163.46', 443)     \*google.com                               GTS CA 1O1    2020-05-06 11:47:11   2020-02-12 11:47:11
1   facebook.com('31.13.79.35', 443)   \*facebook.com   DigiCert SHA2 High Assurance Server CA    2020-04-15 12:00:00   2020-01-16 00:00:00

回答来源：stackoverflow

2020-03-24 23:39:05

赞同展开评论打赏

问答分类：

Python

问答地址：

开发者社区 > 开发与运维 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

如何按列抽取文本 cut 和合并文件 paste呀？

552

1

0

pandas中从限定分隔符的文本文件导入数据的方法是什么？

370

1

0

数据输出中的写入CSV的方法是什么？

241

1

0

pandas中如何进行大小写转换和更改数据格式？

1013

1

0

dataframe中如何从csv文件中只读取前几行的数据？

768

1

0

python读取csv可以并用namedtuple映射列名吗？

684

1

0

python的读取csv文件的多个条件使用什么分隔符？

697

1

0

什么命令可以从文本文件的每一行中截取指定内容的数据？

470

1

0

Python中在读取文本文件时会将所有的文本解读为什么？

372

1

0

读取excel(xlsx格式)内容,生成图片：报错

2214

2

0

问答排行榜

最热

最新

1 通过阿里云代备案系统进行个人快速备案 2699900

2 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818315

3 据说在家办公的程序员是这样写代码的？ 1792348

4 阿里云开放端口权限 689929

5 如何升级配置 536074

6 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522463

7 【精品问答】python技术1000问(1) 514002

8 Flink Forward Asia 2021 有奖问答 512808

9 Linux Bash严重漏洞修复紧急通知（已全部给出最终修复方案） 456923

10 OceanBase 使用动画（持续更新） 359269

11 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329725

12 OSS存储服务-客户端工具 321341

13 为体验实验室取一个新名字。 307323

14 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 303861

15 Win Server 2003-2016 加密勒索事件必打补丁合集 295165

16 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 283662

17 安全组详解，新手必看教程 277262

18 写code还是做管理，开发者如何进行职业规划？ 268478

19 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255830

20 阿里云手机和阿云浏览器连接问题专帖 235632

1 一键生成你眼中的未来城市，分享部署过程、输出结果及使用体验 231

2 展示你用AI工具生成动漫头像，并分享配置过程及使用体验 204

3 国内AI大模型高考数学成绩超GPT-4o，如何看待这一结果？ 554

4 如何避免“写代码5分钟，调试2小时”的尴尬？ 564

5 通义灵码生成Git Commit的时候，偶尔生成中文，偶尔生成英文，根本无法控制生成的语言。 139

6 一键部署3D卡通风格模型，分享部署过程及使用体验 546

7 展示你通过AI修饰的自然风光照片，并讲述你的拍摄和编辑过程 954

8 机器学习PAI现在一直在重试，怎样停掉？ 227

9 请问机器学习PAI eas服务拉取dockerhub失败怎么办？ 181

10 请教下机器学习PAI的代码配置没有链接测试吗？ 116

11 平头哥芯片W800:芯片如何购买？ 153

12 阿里云Grafana升级10后已有的飞书webhook 报警机器人不再工作。请问如何排查？ 153

13 请问通义灵码IDEA生成Git Commit Message 如何默认生成中文注释 108

14 Nacos登录密码忘记了如何修改？ 385

15 你知道APP是怎么开发的吗？ 1639

16 如何提高企业的业务稳定性？ 649

17 钉钉宜搭，A提交一个表单，如何设置该表单只能给B看？ 161

18 百问求答 | 回答问题即有机会得米家落地扇 347

19 集成&自动化：3层触发时，新增和删除触发正常，但编辑时不正常 120

20 jetbrain IDE 无法正常安装 TONGYI Lingma plugin 141

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

低代码开发师（初级）实战教程 立即下载

冬季实战营第三期：MySQL数据库进阶实战 立即下载

阿里巴巴DevOps 最佳实践手册 立即下载