python-爬虫-selenium总结

简介: python-爬虫-selenium总结

爬虫


前言(使用场景)

我们在抓取⼀些普通⽹⻚的时候requests基本上是可以满⾜的. 但是,
如果遇到⼀些特殊的⽹站. 它的数据是经过加密的. 但是呢, 浏览器却
能够正常显示出来. 那我们通过requests抓取到的内容可能就不是我
们想要的结果了.

一、前期准备工作

使用selenium前需要安装浏览器相应版本的驱动并移动到python解释器的目录下
下载链接 http://chromedriver.storage.googleapis.com/index.html

二、基本的操作

from selenium.webdriver import Chrome # 导⼊⾕歌浏览器的类
web = Chrome(executable_path="chromedriver")# 创建浏览器对象
web.get("http://www.baidu.com") # 输⼊⽹址
print(web.title) # 打印title

运⾏⼀下你会发现神奇的事情发⽣了. 浏览器⾃动打开了. 并且输⼊
了⽹址. 也能拿到⽹⻚上的title标题.

案例:

在这里插入图片描述
利用抓包工具可以定位想要标签的xpath
然后利用

el =web.find_element(By.XPATH,'//*[@id="changeCityBox"]/p[1]/a')   # 定位到需要点击元素的位置
el.click()  # 点击元素

又如果是定位到可以输入信息的标签要输入就可以

# 找到输入框,输入python  ==>输入回车
el = web.find_element(By.XPATH,'//*[@id="search_input"]').send_keys("python",Keys.ENTER)

*使用selenium时必须注意:
使用时当切换到其他页面时一定要用time.sleep()缓一缓,因为你页面可能还没加载完你就执行下面的操作狠狠很有可能它就会这样:在这里插入图片描述
在这里插入图片描述
如果不知道具体该睡多久可以这样处理:

while 1:
    try:
        res=web.find_element(By.XPATH,'//*[@id="repo-content-pjax-container"]//*[@class="branch"]').text
        print('已定位到元素')
        endtime= time.time()
        break
    except:
        print("还未定位到元素!")
        time.sleep(1)
print(res)
print('定位耗费时间:' + str(endtime-start_time))

有iframe时需要注意

# 注意有iframe的情况也需先跳转进入iframe窗口进行爬取
web.switch_to.frame("iframe_ref")
# 要想从iframe切回来 ;
web.switch_to.default_content() 切换到原页面

在使用selenium时若打开了多个页面并且想在多个页面反复横跳可以这样:

web.switch_to.window(web.window_handles[0])  #[0]就是主网页中第一个网页

对于有下拉框的那种点击切换页面的情况可以这样:

sel_el =web.find_element(By.XPATH,'//*[@id="msgCenter"]/span[2]')  # 先定位到select标签
sel =Select(sel_el) # 扔给Select
for i in range(len(sel.options)):  #i就是每个下拉框索引位置
    sel.select_by_index(i)   # 切换选项

使用selenium利用验证码识别平台(超级鹰)进行各种类型验证码验证:

超级鹰的使用可以在平台是去下载源码进行使用,一看就会。

验证根据图像识别验证码输入类:

定位到验证码的xpath

img = web.find_element(By.XPATH,'/html/body/div[3]/div/div[3]/div[1]/form/div/img').screenshot_as_png

这个方法可以返回一个png格式的截图,这样就可以把图片给超级鹰识别返回验证码输入。over!

验证根据图像识别需要点击的地点类:

同上丢给超级鹰后返回的是需要点击地方的坐标,然后就可遍历返回的坐标,以此使用ActionChains里的事件链去点击相应位置就可以解决
ActionChains(“放入element”).move_to_element_with_offset(放入点击元素横,纵坐标)
最后还要.perform进行提交才能执行这个事件链

滑块验证类:

这类比较坑的地方就是会被服务器识别出我们不是人。。。
所以需要伪装我们

option = Options()   # 防止被检验出
option.add_argument('--disable-blink-features=AutomationControlled')
web = Chrome(options=option)

伪装后就使用ActionChains里的事件链就可以解决了

ActionChains(web).drag_and_drop_by_offset(btn,300,0).perform() # btn是滑块区域,300,0就是滑块横坐标的始起点。perform提交就大功告成

这两个方法需要引入库

from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.chrome.options import Options
相关文章
|
4月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
5月前
|
数据采集 Web App开发 自然语言处理
新闻热点一目了然:Python爬虫数据可视化
新闻热点一目了然:Python爬虫数据可视化
|
5月前
|
数据采集 运维 监控
构建企业级Selenium爬虫:基于隧道代理的IP管理架构
构建企业级Selenium爬虫:基于隧道代理的IP管理架构
|
4月前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
5月前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
854 19
|
4月前
|
数据采集 存储 JSON
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
|
5月前
|
SQL 测试技术 数据库
healenium+python+selenium
上次介绍了如何利用healenium+java+selenium来实现selenium的自愈,这次介绍如何healenium+python+selenium。关于healenium+python+selenium网上资料更少,并且甚至是错误的。在著名的书籍《软件测试权威指南中》也是有一定问题的。现在介绍如下
270 4
|
4月前
|
数据采集 存储 JavaScript
解析Python爬虫中的Cookies和Session管理
Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储,用于标识用户;Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。
|
5月前
|
数据采集 存储 Web App开发
处理Cookie和Session:让Python爬虫保持连贯的"身份"
处理Cookie和Session:让Python爬虫保持连贯的"身份"
|
5月前
|
数据采集 Web App开发 机器学习/深度学习
Selenium爬虫部署七大常见错误及修复方案:从踩坑到避坑的实战指南
本文揭秘Selenium爬虫常见“翻车”原因,涵盖浏览器闪退、元素定位失败、版本冲突、验证码识别等七大高频问题,结合实战案例与解决方案,助你打造稳定高效的自动化爬虫系统,实现从“能用”到“好用”的跨越。
850 0

推荐镜像

更多