🔸 CSV/XLSX Python对接库环境搭建
在Python中,我们通常使用pandas
库来处理CSV/XLSX文件。首先,安装pandas
和openpyxl
(用于处理XLSX文件):
pip install pandas openpyxl
🔹 安装完成后,我们就可以开始使用这些库来读取和写入CSV/XLSX文件了。
🔸 文档写入格式规范
我们需要注意CSV/XLSX文件的写入格式,确保数据的完整性和可读性。
写入CSV文件
import pandas as pd data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'Los Angeles', 'Chicago'] } df = pd.DataFrame(data) df.to_csv('output.csv', index=False, encoding='utf-8')
写入XLSX文件
df.to_excel('output.xlsx', index=False, encoding='utf-8')
🔹 这里,我们使用pandas
库将数据写入CSV和XLSX文件,并指定了编码格式。
🔸 嵌套列表以及字典格式写入
处理复杂数据结构(如嵌套列表和字典)时,可以将数据转换为适合存储的格式。
写入嵌套列表数据
nested_list = [ ['Alice', 25, 'New York'], ['Bob', 30, 'Los Angeles'], ['Charlie', 35, 'Chicago'] ] df = pd.DataFrame(nested_list, columns=['Name', 'Age', 'City']) df.to_csv('nested_output.csv', index=False, encoding='utf-8')
写入字典数据
nested_dict = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Details': [ {'Age': 25, 'City': 'New York'}, {'Age': 30, 'City': 'Los Angeles'}, {'Age': 35, 'City': 'Chicago'} ] } df = pd.json_normalize(nested_dict, 'Details', ['Name']) df.to_csv('dict_output.csv', index=False, encoding='utf-8')
🔹 在这两个示例中,我们分别展示了如何将嵌套列表和字典数据写入CSV文件。
🔸 对接文档实战
接下来,我们将展示一个完整的爬虫示例,并将爬取到的数据写入CSV/XLSX文件。
import requests from bs4 import BeautifulSoup import pandas as pd # 爬取网页数据 url = 'http://example.com/articles' response = requests.get(url) html_content = response.content soup = BeautifulSoup(html_content, 'html.parser') # 解析数据 articles = soup.find_all('div', class_='article') data = [] for article in articles: title = article.find('h1').text author = article.find('span', class_='author').text content = article.find('p', class_='content').text url = article.find('a')['href'] data.append([title, author, content, url]) # 将数据写入CSV文件 df = pd.DataFrame(data, columns=['Title', 'Author', 'Content', 'URL']) df.to_csv('articles.csv', index=False, encoding='utf-8') # 将数据写入XLSX文件 df.to_excel('articles.xlsx', index=False, encoding='utf-8')
🔹 通过这个示例,我们展示了如何将爬虫数据存储到CSV和XLSX文件中。
🔸 JSON对象和数组
JSON是一种常见的数据交换格式,在Python中我们使用json
库来处理JSON数据。
JSON对象和数组示例
import json data = { 'Name': 'Alice', 'Age': 25, 'City': 'New York', 'Skills': ['Python', 'Data Analysis', 'Machine Learning'] } json_str = json.dumps(data, indent=4) print(json_str)
🔹 这里我们将一个字典对象转换为JSON字符串,并使用缩进格式化输出。
🔸 JSON写入规范
将JSON数据写入文件时,确保数据的规范性和易读性。
写入JSON文件
with open('data.json', 'w', encoding='utf-8') as f: json.dump(data, f, ensure_ascii=False, indent=4)
🔹 使用json.dump
方法将数据写入JSON文件,并设置ensure_ascii=False
以支持非ASCII字符。
🔸 JSON数据编码
处理JSON数据时,可能需要对数据进行编码和解码。
JSON编码示例
encoded_data = json.dumps(data, ensure_ascii=False) print(encoded_data)
JSON解码示例
decoded_data = json.loads(encoded_data) print(decoded_data)
🔹 通过json.dumps
和json.loads
方法,可以方便地对JSON数据进行编码和解码。
🔸 总结
🔹 在本次学习中,我们掌握了如何在Windows和Linux系统下配置CSV/XLSX和JSON环境,了解了数据写入的格式规范,学习了嵌套列表和字典数据的处理方法,并通过实战示例展示了爬虫数据的存储。此外,还学习了JSON对象和数组的处理、写入规范以及数据编码方法。