数据存储的正确规范:csv/xlsx和JSON全方位解析

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: 数据存储的正确规范:csv/xlsx和JSON全方位解析


🔸 CSV/XLSX Python对接库环境搭建

在Python中,我们通常使用pandas库来处理CSV/XLSX文件。首先,安装pandasopenpyxl(用于处理XLSX文件):

pip install pandas openpyxl

🔹 安装完成后,我们就可以开始使用这些库来读取和写入CSV/XLSX文件了。


🔸 文档写入格式规范

我们需要注意CSV/XLSX文件的写入格式,确保数据的完整性和可读性。

写入CSV文件
import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
df.to_csv('output.csv', index=False, encoding='utf-8')
写入XLSX文件
df.to_excel('output.xlsx', index=False, encoding='utf-8')

🔹 这里,我们使用pandas库将数据写入CSV和XLSX文件,并指定了编码格式。


🔸 嵌套列表以及字典格式写入

处理复杂数据结构(如嵌套列表和字典)时,可以将数据转换为适合存储的格式。

写入嵌套列表数据
nested_list = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
]
df = pd.DataFrame(nested_list, columns=['Name', 'Age', 'City'])
df.to_csv('nested_output.csv', index=False, encoding='utf-8')
写入字典数据
nested_dict = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Details': [
        {'Age': 25, 'City': 'New York'},
        {'Age': 30, 'City': 'Los Angeles'},
        {'Age': 35, 'City': 'Chicago'}
    ]
}
df = pd.json_normalize(nested_dict, 'Details', ['Name'])
df.to_csv('dict_output.csv', index=False, encoding='utf-8')

🔹 在这两个示例中,我们分别展示了如何将嵌套列表和字典数据写入CSV文件。


🔸 对接文档实战

接下来,我们将展示一个完整的爬虫示例,并将爬取到的数据写入CSV/XLSX文件。

import requests
from bs4 import BeautifulSoup
import pandas as pd
# 爬取网页数据
url = 'http://example.com/articles'
response = requests.get(url)
html_content = response.content
soup = BeautifulSoup(html_content, 'html.parser')
# 解析数据
articles = soup.find_all('div', class_='article')
data = []
for article in articles:
    title = article.find('h1').text
    author = article.find('span', class_='author').text
    content = article.find('p', class_='content').text
    url = article.find('a')['href']
    
    data.append([title, author, content, url])
# 将数据写入CSV文件
df = pd.DataFrame(data, columns=['Title', 'Author', 'Content', 'URL'])
df.to_csv('articles.csv', index=False, encoding='utf-8')
# 将数据写入XLSX文件
df.to_excel('articles.xlsx', index=False, encoding='utf-8')

🔹 通过这个示例,我们展示了如何将爬虫数据存储到CSV和XLSX文件中。


🔸 JSON对象和数组

JSON是一种常见的数据交换格式,在Python中我们使用json库来处理JSON数据。

JSON对象和数组示例
import json
data = {
    'Name': 'Alice',
    'Age': 25,
    'City': 'New York',
    'Skills': ['Python', 'Data Analysis', 'Machine Learning']
}
json_str = json.dumps(data, indent=4)
print(json_str)

🔹 这里我们将一个字典对象转换为JSON字符串,并使用缩进格式化输出。


🔸 JSON写入规范

将JSON数据写入文件时,确保数据的规范性和易读性。

写入JSON文件
with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

🔹 使用json.dump方法将数据写入JSON文件,并设置ensure_ascii=False以支持非ASCII字符。


🔸 JSON数据编码

处理JSON数据时,可能需要对数据进行编码和解码。

JSON编码示例
encoded_data = json.dumps(data, ensure_ascii=False)
print(encoded_data)
JSON解码示例
decoded_data = json.loads(encoded_data)
print(decoded_data)

🔹 通过json.dumpsjson.loads方法,可以方便地对JSON数据进行编码和解码。


🔸 总结

🔹 在本次学习中,我们掌握了如何在Windows和Linux系统下配置CSV/XLSX和JSON环境,了解了数据写入的格式规范,学习了嵌套列表和字典数据的处理方法,并通过实战示例展示了爬虫数据的存储。此外,还学习了JSON对象和数组的处理、写入规范以及数据编码方法。

目录
相关文章
|
12天前
|
数据采集 存储 JavaScript
如何使用Cheerio与jsdom解析复杂的HTML结构进行数据提取
在现代网页开发中,复杂的HTML结构给爬虫技术带来挑战。传统的解析库难以应对,而Cheerio和jsdom在Node.js环境下提供了强大工具。本文探讨如何在复杂HTML结构中精确提取数据,结合代理IP、cookie、user-agent设置及多线程技术,提升数据采集的效率和准确性。通过具体示例代码,展示如何使用Cheerio和jsdom解析HTML,并进行数据归类和统计。这种方法适用于处理大量分类数据的爬虫任务,帮助开发者轻松实现高效的数据提取。
如何使用Cheerio与jsdom解析复杂的HTML结构进行数据提取
|
1天前
|
JSON 前端开发 JavaScript
解析JSON文件
解析JSON文件
16 9
|
13天前
|
XML JSON API
淘宝京东商品详情数据解析,API接口系列
淘宝商品详情数据包括多个方面,如商品标题、价格、图片、描述、属性、SKU(库存量单位)库存、视频等。这些数据对于买家了解商品详情以及卖家管理商品都至关重要。
|
7天前
|
存储 JSON API
Python编程:解析HTTP请求返回的JSON数据
使用Python处理HTTP请求和解析JSON数据既直接又高效。`requests`库的简洁性和强大功能使得发送请求、接收和解析响应变得异常简单。以上步骤和示例提供了一个基础的框架,可以根据你的具体需求进行调整和扩展。通过合适的异常处理,你的代码将更加健壮和可靠,为用户提供更加流畅的体验。
26 0
|
14天前
|
监控 安全 网络安全
|
14天前
|
数据库 Java 监控
Struts 2 日志管理化身神秘魔法师,洞察应用运行乾坤,演绎奇幻篇章!
【8月更文挑战第31天】在软件开发中,了解应用运行状况至关重要。日志管理作为 Struts 2 应用的关键组件,记录着每个动作和决策,如同监控摄像头,帮助我们迅速定位问题、分析性能和使用情况,为优化提供依据。Struts 2 支持多种日志框架(如 Log4j、Logback),便于配置日志级别、格式和输出位置。通过在 Action 类中添加日志记录,我们能在开发过程中获取详细信息,及时发现并解决问题。合理配置日志不仅有助于调试,还能分析用户行为,提升应用性能和稳定性。
33 0
|
14天前
|
开发者 Java
JSF EL 表达式:乘技术潮流之风,筑简洁开发之梦,触动开发者心弦的强大语言
【8月更文挑战第31天】JavaServer Faces (JSF) 的表达式语言 (EL) 是一种强大的工具,允许开发者在 JSF 页面和后台 bean 间进行简洁高效的数据绑定。本文介绍了 JSF EL 的基本概念及使用技巧,包括访问 bean 属性和方法、数据绑定、内置对象使用、条件判断和循环等,并分享了最佳实践建议,帮助提升开发效率和代码质量。
25 0
|
14天前
|
开发者 监控 开发工具
如何将JSF应用送上云端?揭秘在Google Cloud Platform上部署JSF应用的神秘步骤
【8月更文挑战第31天】本文详细介绍如何在Google Cloud Platform (GCP) 上部署JavaServer Faces (JSF) 应用。首先,确保已准备好JSF应用并通过Maven构建WAR包。接着,使用Google Cloud SDK登录并配置GCP环境。然后,创建`app.yaml`文件以配置Google App Engine,并使用`gcloud app deploy`命令完成部署。最后,通过`gcloud app browse`访问应用,并利用GCP的监控和日志服务进行管理和故障排查。整个过程简单高效,帮助开发者轻松部署和管理JSF应用。
32 0
|
14天前
|
开发者 容器 Java
Azure云之旅:JSF应用的神秘部署指南,揭开云原生的新篇章!
【8月更文挑战第31天】本文探讨了如何在Azure上部署JavaServer Faces (JSF) 应用,充分发挥其界面构建能力和云平台优势,实现高效安全的Web应用。Azure提供的多种服务如App Service、Kubernetes Service (AKS) 和DevOps简化了部署流程,并支持应用全生命周期管理。文章详细介绍了使用Azure Spring Cloud和App Service部署JSF应用的具体步骤,帮助开发者更好地利用Azure的强大功能。无论是在微服务架构下还是传统环境中,Azure都能为JSF应用提供全面支持,助力开发者拓展技术视野与实践机会。
11 0
|
14天前
|
安全 数据安全/隐私保护 架构师
用Vaadin打造坚不可摧的企业级应用:安全性考虑全解析
【8月更文挑战第31天】韩林是某金融科技公司的架构师,负责构建安全的企业级应用。在众多Web框架中,他选择了简化UI设计并内置多项安全特性的Vaadin。韩林在其技术博客中分享了使用Vaadin时的安全考虑与实现方法,包括数据加密、SSL/TLS保护、结合Spring Security的用户认证、XSS防护、CSRF防御及事务性UI更新机制。他强调,虽然Vaadin提供了丰富的安全功能,但还需根据具体需求进行调整和增强。通过合理设计,可以构建高效且安全的企业级Web应用。
25 0

推荐镜像

更多