【python】当当书籍数据抓取分析与可视化(代码+报告)【独一无二】

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 【python】当当书籍数据抓取分析与可视化(代码+报告)【独一无二】



本项目旨在研究和分析当当网上的书籍信息。当当网作为中国领先的在线零售平台之一,其上架的书籍种类繁多,涵盖了从文学、科技到教育等多个领域。这些书籍信息不仅能反映出市场上的流行趋势,还可以揭示消费者的购买偏好和出版业的发展动态。

项目的第一阶段集中在通过网络爬虫技术从当当网上爬取书籍数据。使用Python语言,结合requests和lxml库,项目团队成功地爬取了书名、作者、单价、出版日期、出版社和书籍简介等关键信息。在这个过程中,团队克服了多种网络爬虫的常见挑战,如网页编码处理、动态加载的内容、反爬机制的规避,以及数据的有效提取。

收集到的原始数据经过清洗和整理,移除了不完整或不符合要求的记录,以确保后续分析的准确性。这一步骤使用pandas等数据处理工具完成,有效地筛选出了高质量的数据集。

1. 数据抓取

发送HTTP请求:使用requests库发送HTTP GET请求,向当当网的多个页面获取网页内容。通过指定URL和参数,可以获取不同页面的图书信息。解析网页内容:使用lxml库对网页内容进行解析。通过使用XPath表达式,可以定位和提取所需的数据。在这段代码中,使用XPath表达式提取了书名、作者、价格、出版日期和出版社等信息。循环遍历页面:通过在代码中使用for循环,可以循环遍历多个页面。在每个页面上执行相同的爬取和解析操作,以获取更多的图书信息。处理异常情况:通过使用try-except语句,可以捕获可能的异常情况,例如在解析页面时出现的XPath定位错误。在这段代码中,使用try-except语句来处理可能出现的异常,并在出现异常时将相应字段设置为默认值。数据存储:图书信息被添加到一个二维列表data中,以便后续写入Excel文件。

from lxml import etree
import requests
import csv
from openpyxl import Workbook

data = [['书名', '作者', '单价', '出版日期', '出版社', '简介']]
for m in range(1, 6):
    url = 'https://search.xxxx.com/?key=xxxxxx.page_index={}'.format(m)
    response = requests.get(url)
    if response.status_code == 200:
        pass

👇👇👇 关注公众号,回复 “当当书籍数据抓取” 获取源码👇👇👇


2. 数据收集

从当当网爬取的数据包括书籍的各种信息。具体爬取的数据字段包括:

书名:每本书的标题。

作者:书籍的作者。

单价:书籍的价格。

出版日期:书籍的出版时间。

出版社:出版书籍的出版社。

简介:书籍的简短描述。


3. 数据存储

3.1 excel存储

通过如下代码,存储到excel表格中:

👇👇👇 关注公众号,回复 “当当书籍数据抓取” 获取源码👇👇👇

# 创建一个新的 Excel 文件
wb = Workbook()
sheet = wb.active

# 逐行写入数据
for row_index, row_data in enumerate(data, start=1):
    for column_index, value in enumerate(row_data, start=1):
        sheet.cell(row=row_index, column=column_index, value=value)

# 保存文件
wb.save('处理前数据.xlsx')

3.2 数据库存储

安装和配置:MySQL可以通过官方网站下载并按照指南进行安装。安装完成后,可以通过配置文件对MySQL进行各种设置,如端口号、字符集、缓冲区等。

连接数据库:在Python中,可以使用多个库(如mysql-connector-python、PyMySQL、MySQLdb)来连接MySQL数据库。需要提供主机地址、用户名、密码和数据库名等连接信息。连接成功后,可以创建游标对象用于执行SQL语句。

执行SQL语句:可以使用SQL语句对数据库进行各种操作,如创建表、插入数据、查询数据、更新数据和删除数据等。通过游标对象的execute()方法执行SQL语句,可以使用参数绑定来安全地插入数据。

事务处理:MySQL支持事务,可以使用commit()方法提交事务,将更改保存到数据库中,或使用rollback()方法回滚事务,撤销未提交的更改。

查询数据:可以使用SELECT语句从表中检索数据。执行查询后,可以使用fetchone()、fetchall()或fetchmany()等方法获取查询结果。

数据类型:MySQL提供了多种数据类型,如整数、浮点数、字符串、日期和时间等。合理选择和使用适当的数据类型有助于提高数据库性能和数据存储的效率。


4. 数据清洗

导入库:import pandas as pd:导入了pandas库,它是一个强大的数据处理库,常用于数据分析。

文件路径设置:excel_file_path:设置了原始数据文件(data.xlsx)的路径。output_excel_file_path:定义了清洗后数据要保存的文件路径(处理后的数据.xlsx)。

读取Excel文件:使用pd.read_excel(excel_file_path, engine=“openpyxl”)读取Excel文件。这里指定了openpyxl作为引擎,因为它支持.xlsx格式的文件。

数据清洗:df_filtered = df[~df.apply(lambda x: x.astype(str).str.contains(‘无’)).any(axis=1)]:这一行代码是数据清洗的关键。

它将DataFrame中包含“无”的行排除。apply(lambda x: x.astype(str).str.contains(‘无’))将DataFrame的每个元素转换为字符串,然后检查是否包含“无”字样。

~符号表示否定,因此这行代码的含义是选择那些不包含“无”字样的行。

any(axis=1)确保任何列中出现“无”的行都将被排除。

保存清洗后的数据:df_filtered.to_excel(output_excel_file_path, index=False):将清洗后的数据保存到Excel文件。index=False表示在保存时不包括行索引。

打印DataFrame:print(df)将打印原始数据的DataFrame。这可能用于检查数据载入是否正确,但在实际的数据处理脚本中可能不是必要的。

清洗后的数据如下:


5. 数据可视化

5.1单价前十名的书籍可视化

top_10_prices = df.nlargest(10, ‘单价’):这行代码使用pandas的nlargest方法从DataFrame df 中提取单价最高的前10本书。这个方法根据单价列的值排序并选择前10个最大值。

绘制柱状图:plt.figure(figsize=(10, 6)):设置图表的大小为10x6英寸。这有助于确保图表在展示时有足够的空间来清晰地显示所有信息。

plt.bar(top_10_prices[‘书名’], top_10_prices[‘单价’], color=‘skyblue’):使用柱状图(bar)来展示数据。top_10_prices[‘书名’] 和 top_10_prices[‘单价’] 分别指定了X轴和Y轴的数据。color='skyblue’设置了柱子的颜色为天蓝色。

设置图表细节:plt.xlabel(‘书名’) 和 plt.ylabel(‘单价’):分别设置X轴和Y轴的标签为“书名”和“单价”。plt.title(‘单价前十名的书籍’):设置图表的标题。

plt.xticks(rotation=45, ha=‘right’):设置X轴的刻度标签(即书名)旋转45度,并且对齐方式为右对齐。这样做可以防止标签文字相互重叠,确保每个书名都清晰可读。plt.tight_layout():这个方法用于自动调整子图参数,确保图表的元素(如标题、轴标签)都被整齐地展示,而不会发生重叠或遮挡的情况。

👇👇👇 关注公众号,回复 “当当书籍数据抓取” 获取源码👇👇👇

5.2 数据占据前十名的出版社

计算出版社出现频率:top_publishers = df[‘出版社’].value_counts().head(10):这行代码首先对df中的出版社列使用value_counts方法,该方法统计了每个独特出版社出现的次数。随后,通过.head(10)提取了频率最高的前10个出版社。

绘制折线图:plt.figure(figsize=(10, 6)):设置图表的大小为10x6英寸,以确保图表的可读性。plt.plot(top_publishers.index, top_publishers.values, marker=‘o’, linestyle=‘-’, color=‘green’):绘制折线图。这里,top_publishers.index代表出版社名称,top_publishers.values代表相应的出现次数。marker=‘o’设置了数据点的标记为圆形,linestyle=’-'设置了线型为实线,color='green’设置了线条颜色为绿色。

设置图表细节:plt.xlabel(‘出版社’) 和 plt.ylabel(‘数量’):分别为X轴和Y轴设置标签,分别表示出版社和对应的出版数量。plt.title(‘前十名出版社’):设置图表的标题。plt.xticks(rotation=45, ha=‘right’):将X轴的刻度标签(即出版社名称)旋转45度,并设置为右对齐。这有助于防止标签文字相互重叠,确保每个出版社名称都清晰可读。plt.tight_layout():调整子图参数,确保图表的元素(如标题、轴标签)整齐展示,避免重叠或遮挡。

5.3出版年份可视化

转换出版日期为年份:df[‘出版年份’] = pd.to_datetime(df[‘出版日期’]).dt.year:这行代码首先使用pandas的to_datetime函数将出版日期列转换为datetime对象,随后通过.dt.year属性获取每个日期的年份部分。这样,每本书的出版年份就被提取并存储在新的出版年份列中。

计算年份分布:year_counts = df[‘出版年份’].value_counts():使用value_counts方法计算出版年份列中每个年份出现的次数,即每个年份出版的书籍数量。

绘制饼图:plt.figure(figsize=(8, 8)):设置饼图的大小为8x8英寸,保证足够的展示空间。plt.pie(year_counts, labels=year_counts.index, autopct=‘%1.1f%%’, startangle=140):使用pie方法绘制饼图。year_counts为各年份的书籍数量,labels=year_counts.index设置了饼图中每部分的标签为年份,autopct='%1.1f%%'设置了每部分的百分比格式,startangle=140设定了饼图的起始角度。设置图表标题和布局:plt.title(‘出版年份分布’):为饼图设置标题“出版年份分布”。plt.tight_layout():调整子图参数,确保图表的元素(如标题)整齐展示,避免重叠或遮挡。

👇👇👇 关注公众号,回复 “当当书籍数据抓取” 获取源码👇👇👇


相关文章
|
11天前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
8天前
|
缓存 监控 测试技术
Python中的装饰器:功能扩展与代码复用的利器###
本文深入探讨了Python中装饰器的概念、实现机制及其在实际开发中的应用价值。通过生动的实例和详尽的解释,文章展示了装饰器如何增强函数功能、提升代码可读性和维护性,并鼓励读者在项目中灵活运用这一强大的语言特性。 ###
|
8天前
|
Python
探索Python中的装饰器:简化代码,提升效率
【10月更文挑战第39天】在编程的世界中,我们总是在寻找使代码更简洁、更高效的方法。Python的装饰器提供了一种强大的工具,能够让我们做到这一点。本文将深入探讨装饰器的基本概念,展示如何通过它们来增强函数的功能,同时保持代码的整洁性。我们将从基础开始,逐步深入到装饰器的高级用法,让你了解如何利用这一特性来优化你的Python代码。准备好让你的代码变得更加优雅和强大了吗?让我们开始吧!
16 1
|
8天前
|
存储 缓存 监控
掌握Python装饰器:提升代码复用性与可读性的利器
在本文中,我们将深入探讨Python装饰器的概念、工作原理以及如何有效地应用它们来增强代码的可读性和复用性。不同于传统的函数调用,装饰器提供了一种优雅的方式来修改或扩展函数的行为,而无需直接修改原始函数代码。通过实际示例和应用场景分析,本文旨在帮助读者理解装饰器的实用性,并鼓励在日常编程实践中灵活运用这一强大特性。
|
11天前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
25 2
|
2月前
|
人工智能 数据挖掘 数据处理
揭秘Python编程之美:从基础到进阶的代码实践之旅
【9月更文挑战第14天】本文将带领读者深入探索Python编程语言的魅力所在。通过简明扼要的示例,我们将揭示Python如何简化复杂问题,提升编程效率。无论你是初学者还是有一定经验的开发者,这篇文章都将为你打开一扇通往高效编码世界的大门。让我们开始这段充满智慧和乐趣的Python编程之旅吧!
|
6月前
|
算法 编译器 开发者
如何提高Python代码的性能:优化技巧与实践
本文探讨了如何提高Python代码的性能,重点介绍了一些优化技巧与实践方法。通过使用适当的数据结构、算法和编程范式,以及利用Python内置的性能优化工具,可以有效地提升Python程序的执行效率,从而提升整体应用性能。本文将针对不同场景和需求,分享一些实用的优化技巧,并通过示例代码和性能测试结果加以说明。
|
1月前
|
大数据 Python
Python 高级编程:深入探索高级代码实践
本文深入探讨了Python的四大高级特性:装饰器、生成器、上下文管理器及并发与并行编程。通过装饰器,我们能够在不改动原函数的基础上增添功能;生成器允许按需生成值,优化处理大数据;上下文管理器确保资源被妥善管理和释放;多线程等技术则助力高效完成并发任务。本文通过具体代码实例详细解析这些特性的应用方法,帮助读者提升Python编程水平。
93 5
|
3月前
|
机器学习/深度学习 Python
时间序列特征提取:从理论到Python代码实践
时间序列是一种特殊的存在。这意味着你对表格数据或图像进行的许多转换/操作/处理技术对于时间序列来说可能根本不起作用。
59 1
时间序列特征提取:从理论到Python代码实践
|
1月前
|
数据采集 机器学习/深度学习 数据处理
Python编程之魔法:从基础到进阶的代码实践
在编程的世界里,Python以其简洁和易读性而闻名。本文将通过一系列精选的代码示例,引导你从Python的基础语法出发,逐步探索更深层次的应用,包括数据处理、网络爬虫、自动化脚本以及机器学习模型的构建。每个例子都将是一次新的发现,带你领略Python编程的魅力。无论你是初学者还是希望提升技能的开发者,这些示例都将是你的宝贵财富。让我们开始这段Python编程之旅,一起揭开它的魔法面纱。
下一篇
无影云桌面