豆瓣电影信息爬虫教程
摘要
本文将详细介绍如何使用Python编写一个爬虫程序,用于抓取豆瓣电影列表页面上的电影详细信息。通过本教程,你将学习到如何使用requests
和PyQuery
库来发送HTTP请求、解析HTML内容,并提取所需的数据。
目标网址:https://www.douban.com/doulist/240962/
目录
环境搭建
在开始之前,请确保你的Python环境已经安装了以下库:
pip install requests pyquery
技术栈介绍
- Python: 一种易于学习且功能强大的编程语言。
- Requests: 用于发送HTTP请求的库。
- PyQuery: 类似于jQuery的库,用于解析HTML文档。
- re (正则表达式): 用于字符串搜索和匹配。
爬虫逻辑概述
本爬虫的主要任务是从一个给定的豆瓣电影列表页面URL中提取电影的详细信息,包括:
- 电影标题
- 导演
- 主演
- 类型
- 制作地区
- 发行年份
- 评分数量
- 每部电影的详细URL
详细代码解析
import requests
from pyquery import PyQuery as pq
import re
import json
from datetime import datetime
def doulist_crawler(url):
'''
联系方式:
wx: Wusp1994
企鹅号: 812190146
此函数爬取豆瓣电影列表页面,并提取列出的电影的详细信息。
该函数向指定的豆瓣电影列表URL发送GET请求,并使用预定义的头部信息来模拟浏览器请求。如果请求成功,它将使用PyQuery解析HTML内容,并提取电影的详细信息,如标题、导演、主演、类型、地区、年份、评分和评分数量。每部电影的信息存储在一个字典中,并添加到名为'doulist'的列表中。然后打印出详细信息。
提取的数据包括:
- 电影标题
- 导演
- 主演
- 类型
- 制作地区
- 发行年份
- 评分数量
- 每部电影的详细URL
参数:
url (str): 要爬取的豆瓣-豆列的电影列表页面的URL。
https://www.douban.com/doulist/240962/
返回:
list: 包含每部电影详细信息的字典组成的列表。
:return:
'''
# 定义请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
# 其他需要的请求头...
}
# 发送 GET 请求并获取响应内容
response = requests.get(url, headers=headers)
# 确保请求成功
if response.status_code == 200:
# 使用 PyQuery 解析网页内容
doc = pq(response.text)
doulist_item_doc = doc(".doulist-item")
doulist = []
for item in doulist_item_doc.items():
item_dict = {
}
# 初始化变量
director = None
starring = None
genre = None
region = None
year = None
detail_url = item(".title a").attr("href")
title = item(".title a").text()
rating_nums = item(".rating_nums").text()
rating_count_text = item('.rating span:contains("人评价")').text()
rating_count = int(re.search(r'\d+', rating_count_text).group(0))
lines = item('div.abstract').text().split('\n')
for line in lines:
if '导演' in line:
director = line.split('导演:')[-1].strip()
elif '主演' in line:
starring = line.split('主演:')[-1].strip()
elif '类型' in line:
genre = line.split('类型:')[-1].strip()
elif '制片国家/地区' in line:
region = line.split('制片国家/地区:')[-1].strip()
elif '年份' in line:
year = line.split('年份:')[-1].strip()
item_dict['director'] = director
item_dict['starring'] = starring
item_dict['genre'] = genre
item_dict['region'] = region
item_dict['year'] = year
item_dict['detail_url'] = detail_url
item_dict['title'] = title
item_dict['rating_count'] = rating_count
doulist.append(item_dict)
return doulist # 返回电影列表
else:
# 联系方式:
# wx: Wusp1994
# 企鹅号: 812190146
print(f"请求失败,状态码:{response.status_code}")
return [] # 如果请求失败,返回空列表
if __name__ == "__main__":
# 联系方式:
# wx: Wusp1994
# 企鹅号: 812190146
move_list = doulist_crawler('https://www.douban.com/doulist/240962/')
json_data = json.dumps(move_list, ensure_ascii=False)
print(json_data)
# 将JSON数据写入到文件中
filename = f"电影列表{datetime.now().strftime('%Y%m%d%H%M%S')}.json"
with open(filename, 'w', encoding='utf-8') as file:
# 写入JSON数据,ensure_ascii=False 确保汉字不转义
json.dump(json.loads(json_data), file, ensure_ascii=False, indent=4)
print(f"JSON数据已写入到文件:{filename}")
导入库
import requests
from pyquery import PyQuery as pq
import re
定义爬虫函数
def doulist_crawler(url):
# 函数定义,接受一个豆瓣电影列表页面的URL
设置请求头
headers = {
'User-Agent': '...',
'Accept': '...'
}
发送GET请求
response = requests.get(url, headers=headers)
检查响应状态
if response.status_code == 200:
# 请求成功,继续处理
解析HTML内容
doc = pq(response.text)
提取电影信息
遍历电影列表项,提取每部电影的相关信息:
for item in doulist_item_doc.items():
# 提取信息并存储到字典
存储与返回电影信息
doulist.append(item_dict)
return doulist
运行爬虫
要运行爬虫,只需调用doulist_crawler
函数,并传入豆瓣电影列表页面的URL:
move_list = doulist_crawler('https://www.douban.com/doulist/240962/')
json_data = json.dumps(move_list, ensure_ascii=False)
print(json_data)
# 将JSON数据写入到文件中
filename = f"电影列表{datetime.now().strftime('%Y%m%d%H%M%S')}.json"
with open(filename, 'w', encoding='utf-8') as file:
# 写入JSON数据,ensure_ascii=False 确保汉字不转义
json.dump(json.loads(json_data), file, ensure_ascii=False, indent=4)
print(f"JSON数据已写入到文件:{filename}")
注意事项
- 遵守豆瓣的使用条款,避免频繁请求。
- 考虑网站的反爬虫机制,可能需要使用代理或更新请求头。
- 爬取的数据仅用于个人学习和研究,不得用于商业用途。
结论
通过本文,你已经学习了如何使用Python编写一个简单的爬虫来抓取豆瓣电影信息。这是一个实践网络请求和HTML解析的好机会。希望本文对你有所帮助,祝你编程愉快。