Python知识点——高维数据的格式化

简介: Python知识点——高维数据的格式化

常用JSON格式对高维数据进行表达和存储:

常见的高维数据最典型的例子:<key,value>键值对

JSON格式表达键值对<key, value>的基本格式如下,键值对都保存在双引号中:

"key" : "value"

Json库

dumps()和loads()分别对应编码和解码功能

函数 描述
json.dumps(obj,sort_keys=False,indent=None) 将Python的数据类型转换为JSON格式,编码过程
son.loads(string) JSON格式字符串转换为Python的数据类型,解码过程
son.dump(obj, fp, sort_keys=False, indent=None) dumps()功能一致,输出到文件fp
json.load(fp) loads()功能一致,从文件fp读入

常见参数的含义

sort_keys:一个布尔值,表示是否按照键的顺序对字典进行排序。如果设置为 True,生成的 JSON 字符串会按照键的字母顺序排列;默认为 False。


indent:一个整数或者字符串,用于指定生成的 JSON 字符串的缩进格式。如果是一个整数,表示每一级的缩进空格数;如果是一个字符串(比如 '\t'),表示使用指定的字符串作为缩进。如果设置为 None(默认值),则表示不使用缩进,生成的 JSON 字符串会是单行的形式。


skipkeys:一个布尔值,表示是否跳过那些非字符串类型的键。如果设置为 True,在转换字典为 JSON 字符串时,如果字典的键不是字符串类型,会跳过这些键;默认为 False。


ensure_ascii:一个布尔值,表示是否确保生成的 JSON 字符串中只包含 ASCII 字符。如果设置为 False,生成的 JSON 字符串可以包含非 ASCII 字符;默认为 True。


separators:一个元组,用于指定生成的 JSON 字符串中的分隔符。默认为 (','  ,  ':'),表示键值对之间用逗号分隔,键和值之间用冒号分隔。

举例

import json
 
data = {'name': 'Alice', 'age': 30, 'city': 'New York'}
 
# 将字典转换为 JSON 字符串,不排序键,不缩进
json_str1 = json.dumps(data, sort_keys=False, indent=None)
 
# 将字典转换为 JSON 字符串,排序键,使用4个空格作为缩进
json_str2 = json.dumps(data, sort_keys=True, indent=4)
 
# 将字典转换为 JSON 字符串,跳过非字符串类型的键,确保生成的 JSON 字符串中只包含 ASCII 字符
json_str3 = json.dumps(data, skipkeys=True, ensure_ascii=True)
 
print(json_str1)
print(json_str2)
print(json_str3)

注:s1和s2分别代表了按不同方式生成的 JSON 字符串,所以是不同的

>>>dt = {'b':2,'c':4,'a':6}
>>>s1 = json.dumps(dt)  #dumps返回JSON格式的字符串类型
>>>s2 = json.dumps(dt,sort_keys=True,indent=4)
>>>print(s1)
{"c": 4, "a": 6, "b": 2}
>>>print(s2)
{
    "a": 6,
    "b": 2,
    "c": 4
}
>>>print(s1==s2)
False
>>>dt2 = json.loads(s2)
>>>print(dt2, type(dt2))
{'c': 4, 'a': 6, 'b': 2} <class 'dict'>

CSV与JSON格式相互转换

将CSV转换成JSON格式

链接:https://pan.baidu.com/s/1CV6OkG8bc36ppPf8D7GjJw 

提取码:hnlq

import json
fr = open("price2016.csv", "r")
ls = []
for line in fr:
    line = line.replace("\n","")
    ls.append(line.split(','))
fr.close()
fw = open("price2016.json", "w")
for i in range(1,len(ls)):
    ls[i] = dict(zip(ls[0], ls[i]))
json.dump(ls[1:],fw, sort_keys=True, indent=4)
fw.close()

将二维JSON格式数据转换成CSV格式

链接:https://pan.baidu.com/s/1yxE4gdjaym4jupvWk1EnKA 

提取码:5oz1

import json
fr = open("D:\\price2016.json", "r",encoding="utf-8")
ls = json.load(fr)
data = [ list(ls[0].keys()) ]
for item in ls:
    data.append(list(item.values()))
fr.close()
fw = open("D:\\price2016_from_json.csv", "w",encoding="utf-8")
for item in data:
    fw.write(",".join(item) + "\n")
fw.close()

注:打开json文件和写入csv文件时一定要加入encoding="utf-8",否则会报

目录
相关文章
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
162 10
|
5天前
|
数据采集 Web App开发 数据可视化
Python用代理IP获取抖音电商达人主播数据
在当今数字化时代,电商直播成为重要的销售模式,抖音电商汇聚了众多达人主播。了解这些主播的数据对于品牌和商家至关重要。然而,直接从平台获取数据并非易事。本文介绍如何使用Python和代理IP高效抓取抖音电商达人主播的关键数据,包括主播昵称、ID、直播间链接、观看人数、点赞数和商品列表等。通过环境准备、代码实战及数据处理与可视化,最终实现定时任务自动化抓取,为企业决策提供有力支持。
|
25天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
20天前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。
|
1月前
|
数据采集 分布式计算 大数据
构建高效的数据管道:使用Python进行ETL任务
在数据驱动的世界中,高效地处理和移动数据是至关重要的。本文将引导你通过一个实际的Python ETL(提取、转换、加载)项目,从概念到实现。我们将探索如何设计一个灵活且可扩展的数据管道,确保数据的准确性和完整性。无论你是数据工程师、分析师还是任何对数据处理感兴趣的人,这篇文章都将成为你工具箱中的宝贵资源。
|
2月前
|
传感器 物联网 开发者
使用Python读取串行设备的温度数据
本文介绍了如何使用Python通过串行接口(如UART、RS-232或RS-485)读取温度传感器的数据。详细步骤包括硬件连接、安装`pyserial`库、配置串行端口、发送请求及解析响应等。适合嵌入式系统和物联网应用开发者参考。
75 3
|
2月前
|
图形学 Python
SciPy 空间数据2
凸包(Convex Hull)是计算几何中的概念,指包含给定点集的所有凸集的交集。可以通过 `ConvexHull()` 方法创建凸包。示例代码展示了如何使用 `scipy` 库和 `matplotlib` 绘制给定点集的凸包。
43 1
|
2月前
|
数据采集 JavaScript 程序员
探索CSDN博客数据:使用Python爬虫技术
本文介绍了如何利用Python的requests和pyquery库爬取CSDN博客数据,包括环境准备、代码解析及注意事项,适合初学者学习。
117 0
|
2月前
|
数据采集 存储 分布式计算
超酷炫Python技术:交通数据的多维度分析
超酷炫Python技术:交通数据的多维度分析
|
2月前
|
索引 Python
SciPy 空间数据1
SciPy 通过 `scipy.spatial` 模块处理空间数据,如判断点是否在边界内、计算最近点等。三角测量是通过测量角度来确定目标距离的方法。多边形的三角测量可将其分解为多个三角形,用于计算面积。Delaunay 三角剖分是一种常用方法,可以对一系列点进行三角剖分。示例代码展示了如何使用 `Delaunay()` 函数创建三角形并绘制。
46 0