python网络爬虫selenium

2022-04-19 130

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： python网络爬虫selenium

1.准备

pip install selenium

以Chrom浏览器为例，
安装相应版本的chromdriver驱动程序，并添加为环境变量
安装链接：安装chromdriver

2.常用属性和方法

from selenium import webdriver
import time

# 实例化一个浏览器
driver = webdriver.Chrome()

如果没有将chromedriver放在系统的环境变量路径，则需要在实例化时加上一个参数executable_path 来指定驱动的路径。
运行上述代码，会自动将Chrome浏览器打开，但是没有输入任何url。
在这里插入图片描述

打开网页，窗口最大化，停留3秒，最后关闭。

from selenium import webdriver
import time

# 实例化浏览器
driver = webdriver.Chrome()
# 窗口最大化
driver.maximize_window()

# 输入网址
driver.get('https://www.baidu.com/')
time.sleep(3)  # 停留3秒钟
driver.quit()      # 关闭浏览器

浏览器打开后，
先用maxsize_window()方法 将窗口调至最大化，
然后用get方法输入网址并跳转的该网站。
用sleep()方法停留3秒钟
使用quit() 方法关闭浏览器

调用百度页面的搜索框
首先要给搜索框进行元素定位
在这里插入图片描述
可以看到该Element的id值为’kw’。
使用 find_element_by_id() 方法定位到该标签
使用send_keys() 方法输入搜索内容，以CSDN为例
然后再一次使用 **find_element_by_id()**方法定位到“百度一下”按钮，使用click方法点击其。

# 定位搜索框并输入搜索内容
driver.find_element_by_id('kw').send_keys('CSDN')

# 点击 百度一下
driver.find_element_by_id('su').click()

__
退出当前页面

driver.close()      退出当前页面

区别于quit()方法，quit()指的是关闭整个浏览器，而close()指的是关闭当前网页。

回退

driver.back()

前进

driver.forward()

page_source 页面源码
get_cookies() 获取cookie
current_url 当前请求的URL地址

print(driver.page_source)      # 页面源码
print(driver.get_cookies())    # 获取cookie
print(driver.current_url)    # 当前请求的URL地址

截图并保存

driver.save_screenshot('file_name.png')

python网络爬虫selenium

1.准备

2.常用属性和方法

热门文章

最新文章

相关课程

相关电子书

相关实验场景