Python基础之爬取某瓣图书信息

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介: Python基础之爬取某瓣图书信息

概述

所谓爬虫,就是帮助我们从互联网上获取相关数据并提取有用的信息。在大数据时代,爬虫是数据采集非常重要的一种手段,比人工进行查询,采集数据更加方便,更加快捷。刚开始学爬虫时,一般从静态,结构比较规范的网页入手,然后逐步深入。今天以爬取某瓣最受关注图书为例,简述Python在爬虫方面的初步应用,仅供学习分享使用,如有不足之处,还请指正。

涉及知识点

如果要实现爬虫,需要掌握的Pyhton相关知识点如下所示:

  • requests模块:requests是python实现的最简单易用的HTTP库,建议爬虫使用requests。关于requests模块的相关内容,可参考官方文档及简书上的说明
  • BeautifulSoup模块:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。关于BeautifulSoup的更多内容,可参考官方文档
  • json模块:JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写。使用 JSON 函数需要导入 json 库。关于json的更多内容,可参考菜鸟笔记
  • re模块:re模块提供了与 Perl 语言类似的正则表达式匹配操作。关于re模块的更多内容,可参考官方文档

目标页面

本例中爬取的信息为某瓣最受关注图书榜信息,共10本当前最受欢迎图书。

爬取页面URL【Uniform Resource Locator,统一资源定位器】:https://book.douban.com/chart?subcat=F

爬取页面截图,如下所示:

爬取数据步骤

1. 分析页面

通过浏览器提供的开发人员工具(快捷键:F12),可以方便的对页面元素进行定位,经过定位分析,本次所要获取的内容,包括在UL【class=chart-dashed-list】标签内容,每一本书,都对应一个LI元素,是本次爬取的目标,如下所示:

每一本书,对应一个Li【class=media clearfix】元素,书名为对应a【class=fleft】元素,描述为P【class=subject-abstract color-gray】标签元素内容,具体到每一本书的的详细内容,如下所示:

2. 下载数据

如果要分析数据,首先要进行下载,获取要爬取的数据信息,在Python中爬取数据,主要用requests模块,如下所示:

def get_data(url):
    """
    获取数据
    :param url: 请求网址
    :return:返回请求的页面内容
    """
    # 请求头,模拟浏览器,否则请求会返回418
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363'}
    resp = requests.get(url=url, headers=header)  # 发送请求
    if resp.status_code == 200:
        # 如果返回成功,则返回内容
        return resp.text
    else:
        # 否则,打印错误状态码,并返回空
        print('返回状态码:', resp.status_code)
        return ''

注意:在刚开始写爬虫时,通常会遇到“HTTP Error 418”,请求网站的服务器端会进行检测此次访问是不是人为通过浏览器访问,如果不是,则返回418错误码。检测请求头是常见的反爬虫策略,所为为了模拟浏览器访问,需要构造请求Header,然后即可正常访问。

正常浏览器访问成功的状态码为200,及请求标头中User-Agent。如下所示:

3. 解析数据

当获取到数据后,需要进行数据分析,才能得到想要的内容。requests模块获取到的内容为Html源码字符串,可以通过BeautifulSoup装载成对象,然后进行数据获取,如下所示:

def parse_data(html: str = None):
    """
    解析数据
    :param html:
    :return:返回书籍信息列表
    """
    bs = BeautifulSoup(html, features='html.parser')  # 转换页面内容为BeautifulSoup对象
    ul = bs.find(name='ul', attrs={'class': 'chart-dashed-list'})  # 获取列表的父级内容
    lis = ul.find_all('li', attrs={'class': re.compile('^media clearfix')})  # 获取图书列表
    books = []  # 定义图书列表
    for li in lis:
        # 循环遍历列表
        strong_num = li.find(name='strong', attrs={'class': 'fleft green-num-box'})  # 获取书籍排名标签
        book_num = strong_num.text  # 编号
        h2_a = li.find(name='a', attrs={'class': 'fleft'})  # 获取书名标签
        book_name = h2_a.text  # 获取书名
        p_info = li.find(name='p', attrs={'class': "subject-abstract color-gray"})  # 书籍说明段落标签
        book_info_str = p_info.text.strip()  # 获取书籍说明,并 去前后空格
        # book_info_list = book_info_str.split('/', -1) # 分隔符
        books.append(
            {'book_num': book_num, 'book_name': book_name, 'book_info': book_info_str})  # 将内容添加到列表
    return books

4. 保存数据

解析到目标数据后,需要进行数据持久化,以便后续进一步分析。持久化通常可以保存到数据库中,本例为了简单,保存到本地json文件中,如下所示:

def save_data(res_list):
    """
    保存数据
    :param res_list: 保存的内容文件
    :return:
    """
    with open('books.json', 'w', encoding='utf-8') as f:
        res_list_json = json.dumps(res_list, ensure_ascii=False)
        f.write(res_list_json)

本例完整代码,如下所示:

import json  # json 包,用于读取解析,生成json格式的文件内容
import requests  # 请求包  用于发起网络请求
from bs4 import BeautifulSoup  # 解析页面内容帮助包
import re  # 正则表达式
def get_data(url):
    """
    获取数据
    :param url: 请求网址
    :return:返回请求的页面内容
    """
    # 请求头,模拟浏览器,否则请求会返回418
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363'}
    resp = requests.get(url=url, headers=header)  # 发送请求
    if resp.status_code == 200:
        # 如果返回成功,则返回内容
        return resp.text
    else:
        # 否则,打印错误状态码,并返回空
        print('返回状态码:', resp.status_code)
        return ''
def parse_data(html: str = None):
    """
    解析数据
    :param html:
    :return:返回书籍信息列表
    """
    bs = BeautifulSoup(html, features='html.parser')  # 转换页面内容为BeautifulSoup对象
    ul = bs.find(name='ul', attrs={'class': 'chart-dashed-list'})  # 获取列表的父级内容
    lis = ul.find_all('li', attrs={'class': re.compile('^media clearfix')})  # 获取图书列表
    books = []  # 定义图书列表
    for li in lis:
        # 循环遍历列表
        strong_num = li.find(name='strong', attrs={'class': 'fleft green-num-box'})  # 获取书籍排名标签
        book_num = strong_num.text  # 编号
        h2_a = li.find(name='a', attrs={'class': 'fleft'})  # 获取书名标签
        book_name = h2_a.text  # 获取书名
        p_info = li.find(name='p', attrs={'class': "subject-abstract color-gray"})  # 书籍说明段落标签
        book_info_str = p_info.text.strip()  # 获取书籍说明,并 去前后空格
        # book_info_list = book_info_str.split('/', -1) # 分隔符
        books.append(
            {'book_num': book_num, 'book_name': book_name, 'book_info': book_info_str})  # 将内容添加到列表
    return books
def save_data(res_list):
    """
    保存数据
    :param res_list: 保存的内容文件
    :return:
    """
    with open('books.json', 'w', encoding='utf-8') as f:
        res_list_json = json.dumps(res_list, ensure_ascii=False)
        f.write(res_list_json)
#  开始执行,调用函数
url = 'https://book.douban.com/chart?subcat=F'
html = get_data(url=url)  # 获取数据
books = parse_data(html)  # 解析数据
save_data(books)  # 保存数据
print('done')

本例爬取内容,保存到books.json文件中,如下所示:

[
  {
    "book_num": "1",
    "book_name": "心灵侦探城塚翡翠",
    "book_info": "相泽沙呼 / 2021-4 / 人民文学出版社 / 79.00元 / 精装"
  },
  {
    "book_num": "2",
    "book_name": "平原上的摩西",
    "book_info": "双雪涛 / 2021-4 / 北京日报出版社 / 59 / 精装"
  },
  {
    "book_num": "3",
    "book_name": "眩晕",
    "book_info": "[德国] 温弗里德·塞巴尔德 / 2021-4 / 广西师范大学出版社 / 52.00元 / 精装"
  },
  {
    "book_num": "4",
    "book_name": "一把刀,千个字",
    "book_info": "王安忆 / 2021-4 / 人民文学出版社 / 精装"
  },
  {
    "book_num": "5",
    "book_name": "字母表谜案",
    "book_info": "大山诚一郎 / 2021-5 / 河南文艺出版社 / 42.00 / 平装"
  },
  {
    "book_num": "6",
    "book_name": "星之继承者",
    "book_info": "[英] 詹姆斯·P.霍根 / 2021-4 / 新星出版社 / 58.00元 / 精装"
  },
  {
    "book_num": "7",
    "book_name": "美丽黑暗",
    "book_info": "[法] 法比安·韦尔曼  编 / [法] 凯拉斯科多  绘 / 2021-4 / 后浪丨中国纺织出版社 / 88.00元 / 精装"
  },
  {
    "book_num": "8",
    "book_name": "心",
    "book_info": "[日] 夏目漱石 / 2021-3-30 / 江苏凤凰文艺出版社 / 45.00元 / 精装"
  },
  {
    "book_num": "9",
    "book_name": "奇迹唱片行",
    "book_info": "[英] 蕾秋·乔伊斯 / 2021-6-11 / 北京联合出版公司 / 48 / 平装"
  },
  {
    "book_num": "10",
    "book_name": "派对恐惧症",
    "book_info": "[美]卡门•玛丽亚•马查多 / 2021-5 / 世纪文景/上海人民出版社 / 59.00元 / 精装"
  }
]

备注

望岳

唐·杜甫

岱宗夫如何?齐鲁青未了。

造化钟神秀,阴阳割昏晓。

荡胸生曾云,决眦入归鸟。( 曾 同:层)

会当凌绝顶,一览众山小。

文章知识点与官方知识档案匹配,

相关文章
|
7天前
|
JavaScript API C#
【Azure Developer】Python代码调用Graph API将外部用户添加到组,结果无效,也无错误信息
根据Graph API文档,在单个请求中将多个成员添加到组时,Python代码示例中的`members@odata.bind`被错误写为`members@odata_bind`,导致用户未成功添加。
31 10
|
2月前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
2月前
|
存储 数据采集 数据库
用 Python 爬取淘宝商品价格信息时需要注意什么?
使用 Python 爬取淘宝商品价格信息时,需注意法律和道德规范,遵守法律法规和平台规定,避免非法用途。技术上,可选择 Selenium 和 Requests 库,处理反爬措施如 IP 限制、验证码识别和请求频率控制。解析页面数据时,确定数据位置并清洗格式。数据存储可选择 CSV、Excel、JSON 或数据库,定期更新并去重。还需进行错误处理和日志记录,确保爬虫稳定运行。
|
2月前
|
数据采集 Web App开发 iOS开发
如何利用 Python 的爬虫技术获取淘宝天猫商品的价格信息?
本文介绍了使用 Python 爬虫技术获取淘宝天猫商品价格信息的两种方法。方法一使用 Selenium 模拟浏览器操作,通过定位页面元素获取价格;方法二使用 Requests 和正则表达式直接请求页面内容并提取价格。每种方法都有详细步骤和代码示例,但需注意反爬措施和法律法规。
|
3月前
|
小程序 Python
利用Python编程提取身份证的信息
利用Python编程提取身份证的信息
40 2
|
3月前
|
IDE 开发工具 数据安全/隐私保护
Python编程--实现用户注册信息写入excel文件
Python编程--实现用户注册信息写入excel文件
25 1
|
3月前
|
Python
Python实现系统基础信息
Python实现系统基础信息
38 0
|
8月前
|
开发者 索引 Python
实践:如何使用python在网页的表格里抓取信息
实践:如何使用python在网页的表格里抓取信息
131 0
|
SQL 关系型数据库 数据库连接
使用python3抓取pinpoint应用信息入库
使用python3通过pinpoint api来获取pinpoint中应用基础信息、上下游链路,并入库
1982 0
|
数据采集 供应链 机器人
Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务
Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务
459 0
Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务