爬虫实战-Python爬取百度当天热搜内容

简介: 爬虫实战-Python爬取百度当天热搜内容

学习建议

  • 本文仅用于学习使用,不做他用;
  • 本文仅获取页面的内容,作为学习和对Python知识的了解,不会对页面或原始数据造成压力;
  • 请规范文明使用本文内容,请仅作为个人学习参考使用。
  • 本文主要学习了Python爬虫的基础,及常用的几个模块或库的使用,比如BeautifulSoup、request等。

学习目标

  • 获取百度当天的热搜内容,并打印出来;
  • 内容需要包含热搜的标题、热搜简介、以及热搜的指数。

预期内容

  • 输入网址打开百度首页;
  • 进入首页后,点击【百度热搜】,如图:

请在此添加图片描述

  • 进入热搜首页后,点击【热搜】,即当前页面就是我们需要的数据:

请在此添加图片描述

  • 从下图可以看出,一条热搜的内容包含了热搜标题、该热搜的简介,以及热搜的指数,那么这三项内容就是我们最终要的内容:

请在此添加图片描述

目标分解

热搜地址

  • 进入到热搜主界面后,我们查看当前页面的URL,后续需要用到:

https://top.baidu.com/board?tab=realtime

请在此添加图片描述

热搜标题

  • 进入到热搜主页后,我们打开浏览器的F12调试模式;
  • 然后查看这条热搜标题对应的界面的源码;

请在此添加图片描述

  • 通过查看我们看出前两个热搜标题的源码为:
绿我涓滴 会它千顷澄碧

英媒称有人目击凯特现身
  • 从以上可以看出,有一个共同属性是class,剩下的就是标题内容不一样;
  • 通过分析我们用正则表达式来统一识别所有的热搜标题:
(.*?)

热搜简介

  • 使用以上同样的方法,我们可以看到前两条热搜的简介如下:

请在此添加图片描述

如今兰考发生了翻天覆地的变化,张庄村的老百姓把XX走过的一条路改名为“幸福路”,沿着“幸福路”奔向越来越好的日子...

17日,广东深圳一女子在山顶为打卡拍照徒手攀爬时不慎手滑险些落山。当地办事处表示雨天路滑不建议攀爬,正常山道是有人看管的...
  • 同样可以使用正则表达式表示下:

(.*)<a

热搜指数

  • 使用同样方法我们获取到热搜指数的正则表达式为:

div class="hot-index_1Bl1a">(.*?)

小总结

  • 通过以上分析,我们就得到了我们需要重点几个变量:

URL:url = https://top.baidu.com/board?tab=realtime
热搜标题: title = re.compile(r'

(.*?)
')
热搜简介:introduction = re.compile(r'
(.*)(.*?)
')

代码实现

根据以上分析,我们整理下思路:

  • 我们创建一个类TestHotsearch()来组织需要进行的操作;
  • 在类初始化中,把URL、热搜标题、热搜简介、热搜指数四个变量初始化;
  • 创建方法test_html_content()获取热搜页面的html内容;
  • 创建方法test_get_content()获取需要的重点信息;
  • 类实例化后调用对应的方法。

详细代码如下:

from bs4 import BeautifulSoup
import re
import urllib.request, urllib.error


class TestHotsearch():
    def __init__(self):
        # 热搜URL
        self.url = 'https://top.baidu.com/board?tab=realtime'
        # 热搜标题
        self.title = re.compile(r'<div class="c-single-text-ellipsis">(.*?)</div>')
        # 热搜简介
        self.introduction = re.compile(r'<div class="hot-desc_1m_jR small_Uvkd3 ellipsis_DupbZ">(.*)<a')
        # 热搜指数
        self.index = re.compile(r'<div class="hot-index_1Bl1a">(.*?)</div>')
        # 所有热搜条目
        self.all_content = "category-wrap_iQLoo horizontal_1eKyQ"


    def test_html_content(self):
        """
        获取热搜页面的html内容
        :return:
        """
        header = {
   
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
        }
        request = urllib.request.Request(self.url, headers = header)
        html_content = ""
        try:
            response = urllib.request.urlopen(request)
            html_content = response.read().decode("utf-8")
        except urllib.error.URLError as e:
            if hasattr(e, "code"):
                print(e.code)
            if hasattr(e, "reason"):
                print(e.reason)
        return html_content.encode('gbk', 'ignore').decode('gbk')

    def test_get_content(self):
        """
        获取需要的重点信息
        :return:
        """
        # 获取html内容
        html = self.test_html_content()
        # 定义一个空列表保存要获取的信息
        data_info = []
        content = BeautifulSoup(html, "html.parser")
        for name in content.find_all('div', class_=self.all_content):
            data = []
            name_str = str(name)
            title = re.findall(self.title, name_str)
            data.append(title)
            introduction = re.findall(self.introduction, name_str)
            data.append(introduction)
            index = re.findall(self.index, name_str)
            data.append(index)
            data_info.append(data)
        return data_info


if __name__ == "__main__":
    hot_search = TestHotsearch()
    get_content = hot_search.test_get_content()
    print(f"获取到信息如下:{get_content}")
  • 部分输出内容如下:

获取到信息如下:[[[' 心系这门“关键课程” '], [], [' 4932922 ']], [[' 三只羊就梅菜扣肉事件致歉 '], [], [' 4991528 ']], [[' 女子山顶徒手攀爬石头手滑摔下 '], [], [' 4816630 ']], [[' 春分将至农事忙 '], [], [' 4790902 ']],.........

总结

Python主要是简单的爬虫实战,步骤清晰,容易理解和入门。建议最好用自己本地环境测试,仅供学习参考,请勿做其他用途。重点是学习Python正则表达式的应用,python的BeautifulSoup、request模块的使用等。

目录
相关文章
|
1月前
|
测试技术 数据库 Python
Python装饰器实战:打造高效性能计时工具
在数据分析中,处理大规模数据时,分析代码性能至关重要。本文介绍如何使用Python装饰器实现性能计时工具,在不改变现有代码的基础上,方便快速地测试函数执行时间。该方法具有侵入性小、复用性强、灵活度高等优点,有助于快速发现性能瓶颈并优化代码。通过设置循环次数参数,可以更准确地评估函数的平均执行时间,提升开发效率。
106 61
Python装饰器实战:打造高效性能计时工具
|
2天前
|
数据采集 存储 数据挖掘
深入剖析 Python 爬虫:淘宝商品详情数据抓取
深入剖析 Python 爬虫:淘宝商品详情数据抓取
|
5天前
|
存储 数据采集 数据库
Python爬虫实战:股票分时数据抓取与存储
Python爬虫实战:股票分时数据抓取与存储
|
29天前
|
运维 Shell 数据库
Python执行Shell命令并获取结果:深入解析与实战
通过以上内容,开发者可以在实际项目中灵活应用Python执行Shell命令,实现各种自动化任务,提高开发和运维效率。
56 20
|
1月前
|
数据采集 JSON 数据格式
Python爬虫:京东商品评论内容
京东商品评论接口为商家和消费者提供了重要工具。商家可分析评论优化产品,消费者则依赖评论做出购买决策。该接口通过HTTP请求获取评论内容、时间、点赞数等数据,支持分页和筛选好评、中评、差评。Python示例代码展示了如何调用接口并处理返回的JSON数据。应用场景包括产品优化、消费者决策辅助、市场竞争分析及舆情监测。
|
1月前
|
数据采集 供应链 API
Python爬虫与1688图片搜索API接口:深度解析与显著收益
在电子商务领域,数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场,提供了丰富的API接口,特别是图片搜索API(`item_search_img`),允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口,提升搜索效率和用户体验,助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等,显著提高运营效率和市场竞争力。
92 3
|
2月前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。
|
数据安全/隐私保护 数据格式 Python
python爬取快手商品数据
python爬取快手商品数据
|
数据采集 前端开发 搜索推荐
python如何通过分布式爬虫爬取舆情数据
python如何通过分布式爬虫爬取舆情数据
python如何通过分布式爬虫爬取舆情数据
|
数据采集 Python
python使用aiohttp通过设置代理爬取基金数据
python使用aiohttp通过设置代理爬取基金数据

热门文章

最新文章