豆瓣电影信息爬虫实战-2024年6月

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 使用Python和`requests`、`PyQuery`库,本文教程教你如何编写一个豆瓣电影列表页面的爬虫,抓取电影标题、导演、主演等信息。首先确保安装所需库,然后了解技术栈,包括Python、Requests、PyQuery和正则表达式。爬虫逻辑包括发送HTTP请求、解析HTML、提取数据。代码示例展示了如何实现这一过程,最后运行爬虫并将结果保存为JSON文件。注意遵守网站使用条款和应对反爬策略。

豆瓣电影信息爬虫教程

摘要

本文将详细介绍如何使用Python编写一个爬虫程序,用于抓取豆瓣电影列表页面上的电影详细信息。通过本教程,你将学习到如何使用requestsPyQuery库来发送HTTP请求、解析HTML内容,并提取所需的数据。

目标网址:https://www.douban.com/doulist/240962/

image-20240611143649561.png

目录

环境搭建

在开始之前,请确保你的Python环境已经安装了以下库:

pip install requests pyquery

技术栈介绍

  • Python: 一种易于学习且功能强大的编程语言。
  • Requests: 用于发送HTTP请求的库。
  • PyQuery: 类似于jQuery的库,用于解析HTML文档。
  • re (正则表达式): 用于字符串搜索和匹配。

爬虫逻辑概述

本爬虫的主要任务是从一个给定的豆瓣电影列表页面URL中提取电影的详细信息,包括:

  • 电影标题
  • 导演
  • 主演
  • 类型
  • 制作地区
  • 发行年份
  • 评分数量
  • 每部电影的详细URL

详细代码解析

import requests
from pyquery import PyQuery as pq
import re
import json
from datetime import datetime

def doulist_crawler(url):
    '''
    联系方式:
    wx: Wusp1994
    企鹅号: 812190146
    此函数爬取豆瓣电影列表页面,并提取列出的电影的详细信息。
    该函数向指定的豆瓣电影列表URL发送GET请求,并使用预定义的头部信息来模拟浏览器请求。如果请求成功,它将使用PyQuery解析HTML内容,并提取电影的详细信息,如标题、导演、主演、类型、地区、年份、评分和评分数量。每部电影的信息存储在一个字典中,并添加到名为'doulist'的列表中。然后打印出详细信息。
    提取的数据包括:
    - 电影标题
    - 导演
    - 主演
    - 类型
    - 制作地区
    - 发行年份
    - 评分数量
    - 每部电影的详细URL
    参数:
        url (str): 要爬取的豆瓣-豆列的电影列表页面的URL。
        https://www.douban.com/doulist/240962/
    返回:
        list: 包含每部电影详细信息的字典组成的列表。
    :return:
    '''
    # 定义请求头
    headers = {
   
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        # 其他需要的请求头...
    }
    # 发送 GET 请求并获取响应内容
    response = requests.get(url, headers=headers)

    # 确保请求成功
    if response.status_code == 200:
        # 使用 PyQuery 解析网页内容
        doc = pq(response.text)
        doulist_item_doc = doc(".doulist-item")
        doulist = []
        for item in doulist_item_doc.items():
            item_dict = {
   
   }
            # 初始化变量
            director = None
            starring = None
            genre = None
            region = None
            year = None
            detail_url = item(".title a").attr("href")
            title = item(".title a").text()
            rating_nums = item(".rating_nums").text()
            rating_count_text = item('.rating span:contains("人评价")').text()
            rating_count = int(re.search(r'\d+', rating_count_text).group(0))
            lines = item('div.abstract').text().split('\n')
            for line in lines:
                if '导演' in line:
                    director = line.split('导演:')[-1].strip()
                elif '主演' in line:
                    starring = line.split('主演:')[-1].strip()
                elif '类型' in line:
                    genre = line.split('类型:')[-1].strip()
                elif '制片国家/地区' in line:
                    region = line.split('制片国家/地区:')[-1].strip()
                elif '年份' in line:
                    year = line.split('年份:')[-1].strip()

            item_dict['director'] = director
            item_dict['starring'] = starring
            item_dict['genre'] = genre
            item_dict['region'] = region
            item_dict['year'] = year
            item_dict['detail_url'] = detail_url
            item_dict['title'] = title
            item_dict['rating_count'] = rating_count
            doulist.append(item_dict)

        return doulist  # 返回电影列表
    else:
        # 联系方式:
        # wx: Wusp1994
        # 企鹅号: 812190146
        print(f"请求失败,状态码:{response.status_code}")
        return []  # 如果请求失败,返回空列表

if __name__ == "__main__":
    # 联系方式:
    # wx: Wusp1994
    # 企鹅号: 812190146
    move_list = doulist_crawler('https://www.douban.com/doulist/240962/')
    json_data = json.dumps(move_list, ensure_ascii=False)
    print(json_data)
    # 将JSON数据写入到文件中
    filename = f"电影列表{datetime.now().strftime('%Y%m%d%H%M%S')}.json"
    with open(filename, 'w', encoding='utf-8') as file:
        # 写入JSON数据,ensure_ascii=False 确保汉字不转义
        json.dump(json.loads(json_data), file, ensure_ascii=False, indent=4)

    print(f"JSON数据已写入到文件:{filename}")

导入库

import requests
from pyquery import PyQuery as pq
import re

定义爬虫函数

def doulist_crawler(url):
    # 函数定义,接受一个豆瓣电影列表页面的URL

设置请求头

headers = {
   
   
    'User-Agent': '...',
    'Accept': '...'
}

发送GET请求

response = requests.get(url, headers=headers)

检查响应状态

if response.status_code == 200:
    # 请求成功,继续处理

解析HTML内容

doc = pq(response.text)

提取电影信息

遍历电影列表项,提取每部电影的相关信息:

for item in doulist_item_doc.items():
    # 提取信息并存储到字典

存储与返回电影信息

doulist.append(item_dict)
return doulist

运行爬虫

要运行爬虫,只需调用doulist_crawler函数,并传入豆瓣电影列表页面的URL:

move_list = doulist_crawler('https://www.douban.com/doulist/240962/')
json_data = json.dumps(move_list, ensure_ascii=False)
print(json_data)
# 将JSON数据写入到文件中
filename = f"电影列表{datetime.now().strftime('%Y%m%d%H%M%S')}.json"
with open(filename, 'w', encoding='utf-8') as file:
    # 写入JSON数据,ensure_ascii=False 确保汉字不转义
    json.dump(json.loads(json_data), file, ensure_ascii=False, indent=4)

    print(f"JSON数据已写入到文件:{filename}")

image-20240611144658847.png

注意事项

  • 遵守豆瓣的使用条款,避免频繁请求。
  • 考虑网站的反爬虫机制,可能需要使用代理或更新请求头。
  • 爬取的数据仅用于个人学习和研究,不得用于商业用途。

结论

通过本文,你已经学习了如何使用Python编写一个简单的爬虫来抓取豆瓣电影信息。这是一个实践网络请求和HTML解析的好机会。希望本文对你有所帮助,祝你编程愉快。

目录
相关文章
|
1月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
105 6
|
2月前
|
数据采集 JSON 算法
Python爬虫——基于JWT的模拟登录爬取实战
Python爬虫——基于JWT的模拟登录爬取实战
63 1
Python爬虫——基于JWT的模拟登录爬取实战
|
8天前
|
数据采集 存储 JavaScript
网页爬虫技术全解析:从基础到实战
在信息爆炸的时代,网页爬虫作为数据采集的重要工具,已成为数据科学家、研究人员和开发者不可或缺的技术。本文全面解析网页爬虫的基础概念、工作原理、技术栈与工具,以及实战案例,探讨其合法性与道德问题,分享爬虫设计与实现的详细步骤,介绍优化与维护的方法,应对反爬虫机制、动态内容加载等挑战,旨在帮助读者深入理解并合理运用网页爬虫技术。
|
1月前
|
数据采集 前端开发 JavaScript
除了网页标题,还能用爬虫抓取哪些信息?
爬虫技术可以抓取网页上的各种信息,包括文本、图片、视频、链接、结构化数据、用户信息、价格和库存、导航菜单、CSS和JavaScript、元数据、社交媒体信息、地图和位置信息、广告信息、日历和事件信息、评论和评分、API数据等。通过Python和BeautifulSoup等工具,可以轻松实现数据抓取。但在使用爬虫时,需遵守相关法律法规,尊重网站的版权和隐私政策,合理控制请求频率,确保数据的合法性和有效性。
|
1月前
|
数据采集 Web App开发 前端开发
Python爬虫进阶:Selenium在动态网页抓取中的实战
【10月更文挑战第26天】动态网页抓取是网络爬虫的难点,因为数据通常通过JavaScript异步加载。Selenium通过模拟浏览器行为,可以加载和执行JavaScript,从而获取动态网页的完整内容。本文通过实战案例,介绍如何使用Selenium在Python中抓取动态网页。首先安装Selenium库和浏览器驱动,然后通过示例代码展示如何抓取英国国家美术馆的图片信息。
92 6
|
1月前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
76 4
|
1月前
|
数据采集 Web App开发 iOS开发
如何利用 Python 的爬虫技术获取淘宝天猫商品的价格信息?
本文介绍了使用 Python 爬虫技术获取淘宝天猫商品价格信息的两种方法。方法一使用 Selenium 模拟浏览器操作,通过定位页面元素获取价格;方法二使用 Requests 和正则表达式直接请求页面内容并提取价格。每种方法都有详细步骤和代码示例,但需注意反爬措施和法律法规。
|
2月前
|
数据采集 JSON 前端开发
JavaScript逆向爬虫实战分析
JavaScript逆向爬虫实战分析
35 4
|
2月前
|
数据采集 前端开发 NoSQL
Python编程异步爬虫实战案例
Python编程异步爬虫实战案例
74 2
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
215 4