文档备案控制台

开发者社区问答正文

PySpark：如何从spark数据框创建嵌套的JSON？

我试图从我的spark数据帧创建一个嵌套的json，它具有以下结构的数据。下面的代码创建了一个带键和值的简单json。

df.coalesce(1).write.format('json').save(data_output_file+"createjson.json", overwrite=True)
Update1：根据@MaxU的回答，我将spark数据帧转换为pandas并使用group by。它将最后两个字段放在嵌套数组中。我怎么能首先把类别和计数放在嵌套数组中，然后在那个数组里面我想要放置子类别和计数。

示例文本数据：

Vendor_Name,count,Categories,Category_Count,Subcategory,Subcategory_Count
Vendor1,10,Category 1,4,Sub Category 1,1
Vendor1,10,Category 1,4,Sub Category 2,2
Vendor1,10,Category 1,4,Sub Category 3,3
Vendor1,10,Category 1,4,Sub Category 4,4

j = (data_pd.groupby(['vendor_name','vendor_Cnt','Category','Category_cnt'], as_index=False)

         .apply(lambda x: x[['Subcategory','subcategory_cnt']].to_dict('r'))
         .reset_index()
         .rename(columns={0:'subcategories'})
         .to_json(orient='records'))

[{

    "vendor_name": "Vendor 1",
    "count": 10,
    "categories": [{
        "name": "Category 1",
        "count": 4,
        "subCategories": [{
                "name": "Sub Category 1",
                "count": 1
            },
            {
                "name": "Sub Category 2",
                "count": 1
            },
            {
                "name": "Sub Category 3",
                "count": 1
            },
            {
                "name": "Sub Category 4",
                "count": 1
            }
        ]
    }]

展开

收起

社区小助手 2018-12-06 15:17:35 3191 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

在python / pandas中执行此操作的最简单方法是使用groupby我认为使用一系列嵌套生成器：

def split_df(df):

for (vendor, count), df_vendor in df.groupby(["Vendor_Name", "count"]):
    yield {
        "vendor_name": vendor,
        "count": count,
        "categories": list(split_category(df_vendor))
    }

def split_category(df_vendor):

for (category, count), df_category in df_vendor.groupby(
    ["Categories", "Category_Count"]
):
    yield {
        "name": category,
        "count": count,
        "subCategories": list(split_subcategory(df_category)),
    }

def split_subcategory(df_category):

for row in df.itertuples():
    yield {"name": row.Subcategory, "count": row.Subcategory_Count}

list(split_df(df))
[

{
    "vendor_name": "Vendor1",
    "count": 10,
    "categories": [
        {
            "name": "Category 1",
            "count": 4,
            "subCategories": [
                {"name": "Sub Category 1", "count": 1},
                {"name": "Sub Category 2", "count": 2},
                {"name": "Sub Category 3", "count": 3},
                {"name": "Sub Category 4", "count": 4},
            ],
        }
    ],
}

]
要将其导出json，您需要一种导出方式np.int64

2019-07-17 23:18:33

赞同展开评论

问答分类：

JSON 分布式计算数据格式 Spark Python

问答标签：

JSON嵌套 spark JSON Apache Spark json pyspark apache spark apache spark pyspark

问答地址：

开发者社区 > 大数据 > 问答

相关问答

如何通过Kafka Connector解析嵌套JSON格式的数据

262

1

0

Maxcompute怎么获取JSON嵌套数据

171

1

0

大数据计算MaxCompute有解析嵌套 json的demo么？

71

0

0

大数据计算MaxCompute这边有没有解析嵌套json数组的案例？

185

1

0

OpenSearch行业算法版和高性能检索版是否支持 json 嵌套数据

533

1

0

大数据计算MaxCompute有解析嵌套 json的demo么？

509

3

0

机器翻译这个json数据格式不可以是嵌套的json吗？

570

1

0

Doris不支持Routine Load导入json嵌套数组吗？

642

1

0

kafka的数据通过flinksQL建立出来了，但是怎么去除kafka中的嵌套json?

380

1

0

flinksql可以解析kafka中嵌套json解析成多个流，写入多张表吗？

377

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

如何在阿里云服务器上部署网站？2026年阿里云服务器怎么选？

有传言通义灵码不再增加新功能了，是这样吗？

OpenClaw是什么？如何解决阿里云OpenClaw/Clawdbot部署中的常见问题？

阿里云OpenClaw（Clawdbot）一键部署，OpenClaw有哪些使用案例？

距离甘愿付费还有一些阻碍。

相关文章

什么是数据集 —— 大模型微调的 “燃料” 核心解析

32B大模型塞进消费级显卡？我用“人情味”做了场春节实验

OpenClaw（Clawdbot）阿里云零基础部署，打造QQ社群智能助手，自动化运营全攻略

大模型应用：完整语音交互闭环：TTS+ASR融合系统可视化场景实践.22

京东宝贝评论数据采集指南

相关解决方案

更多

基于数据闪回，快速恢复数据

数据守护：防勒索攻击数据保障

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

高效存储和处理多媒体数据

还有其他疑问?