spark2 sql读取json文件的格式要求

2023-01-14 189

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： spark2 sql读取json文件的格式要求

spark2 sql读取json文件的格式要求

spark有多个数据源，json是其中一种。那么对于json格式的数据，spark在操作的过程中，可能会遇到哪些问题？

这里首先我们需要对json格式的数据有一定的了解。

json数据有两种格式：

1.对象表示

2.数组表示

二者也有嵌套形式。

比如我们创建一个个人信息的json。

{    "people": [
        {
            "name": "aboutyun",
            "age": "4"
        },
        {
            "name": "baidu",
            "age": "5"
        }
    ]
}

上面是一个比较常见的json。信息我们大致也能看出来：people表示的是表名，后面的内容为表的内容，包含了姓名和年龄。然而我们在使用spark读取的时候却遇到点小问题。上面内容保存为文件people.json，然后上传到hdfs的跟路径，进入spark-shell，读取json文件

val peopleDF=spark.read.json("/people.json")

打印schema

peopleDF.printSchema

这时候我们看到people并不是表名，而age和name也非列明。我们通过

peopleDF.show

展示列名

也就是说我们如果带有"people"格式的信息，DataFrame就会被认为是列名。个人认为这是spark不太好的地方，应该可以改进。这里也可以自动读取为表名或则忽略，而不是默认为一个字段名称。

既然目前spark是这么做，那么我们该如何做，才能让spark正确的读取？

我们来尝试下面格式的json文件

[
    {
        "name": "aboutyun",
        "age": "4"
    },
    {
        "name": "baidu",
        "age": "5"
    }
]

操作是同样的方式

val peopleDF=spark.read.json("/people.json")

peopleDF.printSchema

接着我们来打印数据

peopleDF.show

这时候我们看到它能正确的显示数据了。

从上面我们看出spark对于json文件，不是什么格式都是可以的，需要做一定的修改，才能正确读取，相信以后spark会有所改进。

spark2 sql读取json文件的格式要求

spark2 sql读取json文件的格式要求

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

spark2 sql读取json文件的格式要求

spark2 sql读取json文件的格式要求

热门文章

最新文章

相关课程

相关电子书

相关实验场景