数据存储的正确规范：csv/xlsx和JSON全方位解析-阿里云开发者社区

数据存储的正确规范：csv/xlsx和JSON全方位解析

2024-08-12 304

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据存储的正确规范：csv/xlsx和JSON全方位解析

🔸 CSV/XLSX Python对接库环境搭建

在Python中，我们通常使用pandas库来处理CSV/XLSX文件。首先，安装pandas和openpyxl（用于处理XLSX文件）：

pip install pandas openpyxl

🔹 安装完成后，我们就可以开始使用这些库来读取和写入CSV/XLSX文件了。

🔸 文档写入格式规范

我们需要注意CSV/XLSX文件的写入格式，确保数据的完整性和可读性。

写入CSV文件

import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
df.to_csv('output.csv', index=False, encoding='utf-8')

写入XLSX文件

df.to_excel('output.xlsx', index=False, encoding='utf-8')

🔹 这里，我们使用pandas库将数据写入CSV和XLSX文件，并指定了编码格式。

🔸 嵌套列表以及字典格式写入

处理复杂数据结构（如嵌套列表和字典）时，可以将数据转换为适合存储的格式。

写入嵌套列表数据

nested_list = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
]
df = pd.DataFrame(nested_list, columns=['Name', 'Age', 'City'])
df.to_csv('nested_output.csv', index=False, encoding='utf-8')

写入字典数据

nested_dict = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Details': [
        {'Age': 25, 'City': 'New York'},
        {'Age': 30, 'City': 'Los Angeles'},
        {'Age': 35, 'City': 'Chicago'}
    ]
}
df = pd.json_normalize(nested_dict, 'Details', ['Name'])
df.to_csv('dict_output.csv', index=False, encoding='utf-8')

🔹 在这两个示例中，我们分别展示了如何将嵌套列表和字典数据写入CSV文件。

🔸 对接文档实战

接下来，我们将展示一个完整的爬虫示例，并将爬取到的数据写入CSV/XLSX文件。

import requests
from bs4 import BeautifulSoup
import pandas as pd
# 爬取网页数据
url = 'http://example.com/articles'
response = requests.get(url)
html_content = response.content
soup = BeautifulSoup(html_content, 'html.parser')
# 解析数据
articles = soup.find_all('div', class_='article')
data = []
for article in articles:
    title = article.find('h1').text
    author = article.find('span', class_='author').text
    content = article.find('p', class_='content').text
    url = article.find('a')['href']
    
    data.append([title, author, content, url])
# 将数据写入CSV文件
df = pd.DataFrame(data, columns=['Title', 'Author', 'Content', 'URL'])
df.to_csv('articles.csv', index=False, encoding='utf-8')
# 将数据写入XLSX文件
df.to_excel('articles.xlsx', index=False, encoding='utf-8')

🔹 通过这个示例，我们展示了如何将爬虫数据存储到CSV和XLSX文件中。

🔸 JSON对象和数组

JSON是一种常见的数据交换格式，在Python中我们使用json库来处理JSON数据。

JSON对象和数组示例

import json
data = {
    'Name': 'Alice',
    'Age': 25,
    'City': 'New York',
    'Skills': ['Python', 'Data Analysis', 'Machine Learning']
}
json_str = json.dumps(data, indent=4)
print(json_str)

🔹 这里我们将一个字典对象转换为JSON字符串，并使用缩进格式化输出。

🔸 JSON写入规范

将JSON数据写入文件时，确保数据的规范性和易读性。

写入JSON文件

with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

🔹 使用json.dump方法将数据写入JSON文件，并设置ensure_ascii=False以支持非ASCII字符。

🔸 JSON数据编码

处理JSON数据时，可能需要对数据进行编码和解码。

JSON编码示例

encoded_data = json.dumps(data, ensure_ascii=False)
print(encoded_data)

JSON解码示例

decoded_data = json.loads(encoded_data)
print(decoded_data)

🔹 通过json.dumps和json.loads方法，可以方便地对JSON数据进行编码和解码。

🔸 总结

🔹 在本次学习中，我们掌握了如何在Windows和Linux系统下配置CSV/XLSX和JSON环境，了解了数据写入的格式规范，学习了嵌套列表和字典数据的处理方法，并通过实战示例展示了爬虫数据的存储。此外，还学习了JSON对象和数组的处理、写入规范以及数据编码方法。

数据存储的正确规范：csv/xlsx和JSON全方位解析

🔸 CSV/XLSX Python对接库环境搭建

🔸 文档写入格式规范

写入CSV文件

写入XLSX文件

🔸 嵌套列表以及字典格式写入

写入嵌套列表数据

写入字典数据

🔸 对接文档实战

🔸 JSON对象和数组

JSON对象和数组示例

🔸 JSON写入规范

写入JSON文件

🔸 JSON数据编码

JSON编码示例

JSON解码示例

🔸 总结

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据存储的正确规范：csv/xlsx和JSON全方位解析

🔸 CSV/XLSX Python对接库环境搭建

🔸 文档写入格式规范

写入CSV文件

写入XLSX文件

🔸 嵌套列表以及字典格式写入

写入嵌套列表数据

写入字典数据

🔸 对接文档实战

🔸 JSON对象和数组

JSON对象和数组示例

🔸 JSON写入规范

写入JSON文件

🔸 JSON数据编码

JSON编码示例

JSON解码示例

🔸 总结

热门文章

最新文章

相关课程

相关电子书

推荐镜像