Selenium爬取百度热搜榜单

简介: Selenium爬取百度热搜榜单

本期,利用python爬虫中的selenium来爬取百度榜单指数,要爬取的网站截图如下:

具体python代码如下:


from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.common.by import Byfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECimport pandas as pd
# 设置 ChromeDriver 的选项chrome_options = Options()chrome_options.add_argument('--headless')  # 无界面模式,不打开浏览器窗口chrome_options.add_argument('--no-sandbox')chrome_options.add_argument('--disable-dev-shm-usage')
# 启动 Chrome 浏览器驱动driver = webdriver.Chrome(r'C:\Users\XXX\AppData\Local\Google\Chrome\Application\chromedriver.exe', options=chrome_options)
# 访问网页driver.get('https://top.baidu.com/board?tab=realtime')wait = WebDriverWait(driver, 10)
# 获取实时排行榜的内容及热搜指数rankings = driver.find_elements(By.XPATH, '//div[@class="c-single-text-ellipsis"]')indexs=driver.find_elements(By.XPATH, '//div[@class="hot-index_1Bl1a"]')
#保存成csv文件data=[]for ranking,index in zip(rankings,indexs) :    data.append([ranking.text,index.text])all_data = pd.DataFrame (data=data,columns ={'热搜榜单','热搜指数'})all_data.to_csv('百度热搜指数排行.csv')# 关闭浏览器驱动driver.quit()

运行结果为:

5fe4370a256df62d8ff3f5bdff2eca76.png

是不是很简单?同理,可以改改网址,爬取一下剩下的几个选项:小说、电影、电视剧、汽车、游戏板块。

e1b3e19cb44b9628381315c61233d878.png

自己动手试试吧

相关文章
|
8月前
|
Web App开发 IDE 测试技术
实战练习:用airtest-selenium脚本爬取百度热搜标题
实战练习:用airtest-selenium脚本爬取百度热搜标题
162 0
|
JavaScript
selenium之百度搜索,结果列表翻页查询
selenium之百度搜索,结果列表翻页查询
175 0
|
Web App开发 Python
Python+selenium 自动化-基本环境搭建,调用selenium库访问百度查询天气实例演示
Python+selenium 自动化-基本环境搭建,调用selenium库访问百度查询天气实例演示
176 0
Python+selenium 自动化-基本环境搭建,调用selenium库访问百度查询天气实例演示
|
JavaScript 开发工具 数据安全/隐私保护
使用.net 和Selenium模拟百度登录
使用自动化技术来模拟下百度登录
244 0
使用.net 和Selenium模拟百度登录
|
Web App开发 C# 数据安全/隐私保护
Selenium + C# 实现模拟百度贴吧签到 1
代码直通车 Github FoxCrawler项目下的SeleniumClawer解决方案 工具介绍 Selenium:是一个自动化测试工具,封装了很多WebDriver用于跟浏览器内核通讯,我用开发语言来调用它实现PhantomJS的自动化操作。
1615 0
|
C# 数据安全/隐私保护
Selenium + C# 实现模拟百度贴吧签到 2
通过上文的例子,我们对Selenium的用法有了一个简单的印象。接下去我们还是基于这个组件进行模拟百度贴吧签到的功能。 逻辑分析 1、登陆 2、得到关注的贴吧 3、签到 登陆首页 首页.
1105 0
|
Python
Selenium2+python自动化34-获取百度输入联想词
前言 最近有小伙伴问百度输入后,输入框下方的联想词如何定位到,这个其实难度不大,用前面所讲的元素定位完全可以定位到的。 本篇以百度输入框输入关键字匹配后,打印出联想词汇。 一、定位输入框联想词 1.首先在百度输入框输入关键词,如:博客,然后输入框下方会自动匹配出关键词。
1344 0
|
3月前
|
Web App开发 前端开发 JavaScript
探索Python科学计算的边界:利用Selenium进行Web应用性能测试与优化
【10月更文挑战第6天】随着互联网技术的发展,Web应用程序已经成为人们日常生活和工作中不可或缺的一部分。这些应用不仅需要提供丰富的功能,还必须具备良好的性能表现以保证用户体验。性能测试是确保Web应用能够快速响应用户请求并处理大量并发访问的关键步骤之一。本文将探讨如何使用Python结合Selenium来进行Web应用的性能测试,并通过实际代码示例展示如何识别瓶颈及优化应用。
154 5

热门文章

最新文章

相关课程

更多