备案控制台

开发者社区问答正文

使用json normalize + pd concat加载json文件

有人会帮助我优化我的解决方案加载数据从json文件使用json正常化和pd concat? 我的5k json文件像:

[
  {
    "id": {
      "number": 2121",
      "exp" : "1",
      "state": "California"
      },
    "state": [
      {
        "city": "San Francisco",
        "pm": "17",
        "spot": "2"
      },
      {
        "city": "San Diego",
        "pm": "14",
        "spot": "1"
      }
    ]
  },
  {
    "id": {
      "number": "2122",
      "exp" : "1"
      "state": "California",
    },
    "state": [
      {
        "city: "San Jose",
        "pm": "15",
        "spot": "1"
      }
    ]
  }
]

我必须从'state'加载数据，我必须有每个城市的日期(取自json文件名)。我的解决方案是

json_paths = 'my files_directory' 

jsfiles = glob.glob(os.path.join(json_paths, "*.json"))

main_df = pd.DataFrame() 

for file in jsfiles:

    df = pd.read_json(file)

    for i in df['state']:

        df2 = pd.concat([pd.DataFrame(json_normalize(i))], ignore_index=False, sort = False)
        df2['date'] = file 
        main_df = pd.concat([main_df, df2])

装载1000个json需要很长时间，更不用说装载5000个json了。有什么方法可以优化我的解决方案吗? 问题来源StackOverflow 地址：/questions/59383661/loading-json-files-using-json-normalize-pd-concat

展开

收起

kun坤 2019-12-27 10:12:47 624 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

kun坤
您正在使用的许多函数看起来都很复杂，因为它们在某种程度上确实如此。json_normalize()用于平铺字典(删除嵌套)，因为JSON状态对象已经是平铺的，所以不需要这样做。用pd。如果您的JSON文件已经具有方便阅读的格式，read_json是可以的，但是您的格式不是。记住这些事情之后，最简单的方法是首先用Python解析每个JSON文件，这样就可以获得与字典中的单行对应的数据，并保留所有这些数据的列表。我还使用了pathlib。路径对象来清除通配符和文件名提取。像这样的事情是你想要做的:
```
import pandas as pd
from pathlib import Path
import json

# each dict in states corresponds to a row
states = []

# you can glob directly on pathlib.Path objects
for file in Path("my files_directory").glob("*.json"):

    # load json data
    with open(file) as jsonf:
        data = json.load(jsonf)

    # add the date from the filename stem to each dict, and append to list
    for result in data:
        for state in result["state"]:
            state["date"] = file.stem
            states.append(state)

# create a df where each row corresponds to each dict in states
df = pd.DataFrame(states)
```
2019-12-27 10:12:56

赞同展开评论

问答分类：

JSON 数据格式

问答标签：

JSON文件加载JSON JSON加载

问答地址：

开发者社区 > 大数据 > 问答

相关问答

如何支持图片、LESS、SASS、fonts以及数据资源（如JSON、CSV）的加载？

79

1

0

使用函数计算加载很大的json反序列化的东西，怎么办？

113

0

0

我使用函数计算，加载oss很大的json文件序列话后延迟超过1s，有别的解决方案吗？

86

0

0

智能媒体服务这个json加载不出来字幕，其他都正常，什么原因？

110

2

0

请问使用ModelScope MsDataset加载自定义json数据时出现这类问题该如何解决？

189

1

0

加载delayOffset.json错误

229

1

0

package.json文件中完成两个不同的npm配置有什么作用吗？

592

1

0

在做移动端App中的package.json文件中需要做什么吗？

643

1

0

node.js中package.json的依赖每个项目都要有node_modules文件么？

927

1

0

微信小程序中sitemap.json 文件的作用是什么？

1349

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

阿里云双十一优惠活动开始了？2025年的是这个吗？

钉钉:因安全管控限制,16位参与人无法直接添加到日程

阿里云PAI是什么？怎么用？

如何训练属于自己的AI大模型呢？有没有大佬有相关文档参考学习下

阿里云2核2G3M适合搭建个人博客或小型项目吗？

相关文章

技术解析：如何通过淘宝开放平台API获取商品券后价

淘宝开放平台：商品详情API接口使用指南

AI时代，我们为何重写规则引擎？—— QLExpress4 重构之路

PowerToys微软最强工具箱软件集!好用的Windows增强工具箱，降低内存和存储占用

淘宝平台获取店铺商品列表API接口实现详解

还有其他疑问?