爬虫案例—抓取豆瓣电影的电影名称、评分、简介、评价人数

简介: 爬虫案例—抓取豆瓣电影的电影名称、评分、简介、评价人数

爬虫案例—抓取豆瓣电影的电影名称、评分、简介、评价人数
豆瓣电影网址:https://movie.douban.com/top250

主页截图和要抓取的内容如下图:

image.png

分析:
第一页的网址:https://movie.douban.com/top250?start=0&filter=

第二页的网址:https://movie.douban.com/top250?start=25&filter=

第三页的网址:https://movie.douban.com/top250?start=50&filter=

以此类推,不难发现页面的网址的start值与25多倍数有关。这样可以格式化网址为:f"https://movie.douban.com/top250?start={i*25}&filter="。

按F12进入浏览器的开发者模式,用xpath匹配到页面所有列表标签。如下图:

image.png

进一步分析,进入li标签内,用xpath匹配到对应的电影标题和评分,评价人数。每部电影的详细简介在电影的浏览页面内,需要先获取到电影的href,然后再进行获取。

image.png

其他内容的匹配与上图类似,不再赘述。

具体的代码如下:

import requests
from lxml import etree
import time


headers = {
   
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}


# 获取页面响应内容函数
def get_page(url):
    res = requests.get(url, headers=headers)
    res.encoding = res.apparent_encoding
    html = res.content.decode() # 如果用res.text,某些页面的简介会返回乱码
    return html


# 返回响应页面的所有电影列表标签
def get_li_lst(url):
    tree = etree.HTML(get_page(url))
    li_lst = tree.xpath('//ol/li')
    return li_lst


# 获取电影名,评分,评价人数的函数
def get_page_datail(url):
    li_lst = get_li_lst(url)
    for li in li_lst:
        print('-' * 50)
        title = li.xpath('.//div[@class="hd"]/a/span[1]/text()')
        print('电影名:', title[0], end=' | ')
        score = li.xpath('./div[@class="item"]//div[@class="star"]/span[2]/text()')
        print('评分:', score[0], end=' | ')
        person_num = li.xpath('./div[@class="item"]//div[@class="star"]/span[4]/text()')
        print('评价人数:', person_num[0])
        movie_href = li.xpath('.//div[@class="hd"]/a/@href')[0]
        movie_html = get_page(movie_href)
        movie_tree = etree.HTML(movie_html)
        movie_short = movie_tree.xpath('//div[@class ="indent"]//span[@property="v:summary"]/text()')
        print('电影简介:')
        print(movie_short[0].strip())
        time.sleep(0.5)

    print('-' * 50)


if __name__ == '__main__':

    page_num = int(input('请输入要获取的页码数: '))

    for i in range(page_num):
        print(f'第{i + 1}页电影数据:')
        new_url = f'https://movie.douban.com/top250?start={i * 25}'
        time.sleep(0.3)
        get_page_datail(new_url)
        print()

运行结果如下图:

image.png

相关文章
|
1月前
|
数据采集 存储 前端开发
动态渲染爬虫:Selenium抓取京东关键字搜索结果
动态渲染爬虫:Selenium抓取京东关键字搜索结果
|
1月前
|
数据采集 存储 前端开发
Java爬虫性能优化:多线程抓取JSP动态数据实践
Java爬虫性能优化:多线程抓取JSP动态数据实践
|
1月前
|
数据采集 存储 JSON
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
|
1月前
|
数据采集 存储 XML
Python爬虫XPath实战:电商商品ID的精准抓取策略
Python爬虫XPath实战:电商商品ID的精准抓取策略
|
5月前
|
数据采集 测试技术 C++
无headers爬虫 vs 带headers爬虫:Python性能对比
无headers爬虫 vs 带headers爬虫:Python性能对比
|
5月前
|
数据采集 存储 监控
Python 原生爬虫教程:网络爬虫的基本概念和认知
网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。
747 31
|
4月前
|
数据采集 存储 NoSQL
分布式爬虫去重:Python + Redis实现高效URL去重
分布式爬虫去重:Python + Redis实现高效URL去重
|
10月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
421 6
|
5月前
|
数据采集 XML 存储
Headers池技术在Python爬虫反反爬中的应用
Headers池技术在Python爬虫反反爬中的应用
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
729 4

热门文章

最新文章