不存在的!教你几招轻松绕过网站限制

简介: 不存在的!教你几招轻松绕过网站限制

在互联网时代,数据是重要的资源,网络作为一种自动化采集数据的工具,扮演着至关重要的角色。然而,网站为了保护自身数据安全和用户体验,会采取各种反措施。本篇文章将详细介绍 Python 和反的技巧,并结合代码和注释进行说明。

一、技巧

1. 模拟浏览器行为

网站通常会根据请求头信息识别,例如 User-Agent。为了绕过检测,爬虫需要模拟浏览器行为,发送正常的请求头信息。

import requests
 
# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate, sdch',
    'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',
}
 
# 发送请求
response = requests.get(url, headers=headers)
 
# 获取网页内容
content = response.text
 
# 打印网页内容
print(content)

这段代码使用 requests 库发送 HTTP 请求,并设置了 headers 参数来模拟浏览器发送的请求头信息,包括 User-Agent、Accept、Accept-Encoding、Accept-Language 等。

2. 使用代理 IP

网站可能会封锁频繁访问的 IP 地址,为了避免被封锁,可以使用代理 IP。

import requests
 
# 代理 IP 地址
proxies = {
    'http': 'http://user:password@ip:port',
    'https': 'https://user:password@ip:port',
}
 
# 发送请求
response = requests.get(url, proxies=proxies)
 
# 获取网页内容
content = response.text
 
# 打印网页内容
print(content)

这段代码使用 proxies 参数设置代理 IP 地址,可以是 HTTP 代理或 HTTPS 代理。

3. 设置访问间隔

频繁访问网站可能会被识别为爬虫,为了避免这种情况,可以设置访问间隔,模拟人类用户的行为。

import time
import requests
 
# 设置访问间隔
sleep_time = 2
 
# 循环访问网页
for i in range(10):
    # 发送请求
    response = requests.get(url)
 
    # 获取网页内容
    content = response.text
 
    # 打印网页内容
    print(content)
 
    # 等待一段时间
    time.sleep(sleep_time)

这段代码使用 time.sleep() 函数设置访问间隔,每次访问网页后等待 2 秒钟。

4. 解析动态网页

许多网站使用 JavaScript 动态加载内容,传统的爬虫无法直接获取这些内容。为了解决这个问题,可

以使用 Selenium、Puppeteer 等工具控制浏览器渲染网页,然后获取渲染后的内容。

使用 Selenium 控制 Chrome 浏览器

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
 
# 设置 Chrome 选项
chrome_options = Options()
chrome_options.add_argument('--headless')  # 无头模式
 
# 创建 Chrome 浏览器驱动
driver = webdriver.Chrome(options=chrome_options)
 
# 打开网页
driver.get(url)
 
# 获取网页内容
content = driver.page_source
 
# 关闭浏览器
driver.quit()
 
# 打印网页内容
print(content)

这段代码使用 Selenium 控制 Chrome 浏览器打开网页,并使用 page_source 属性获取渲染后的网页内容。

二、反技巧

1. User-Agent 检测

网站可以通过检查 User-Agent 判断请求是否来自浏览器。为了反,可以设置 User-Agent 白名单,只允许来自白名单中的 User-Agent 访问网站。

2. IP 频率限制

网站可以通过限制每个 IP 地址的访问频率来防止。为了反,可以设置更严格的访问频率限制,例如每分钟最多访问 10 次。

3. 验证码机制

验证码是一种有效的反手段,可以有效阻止机器自动访问网站。为了反,可以采用更复杂的验证码机制,例如滑动验证码、图像识别验证码等。

4. 动态网页技术

网站可以使用 JavaScript 动态加载内容,使难以获取完整的数据。为了反,可以采用更复杂的动态加载技术,例如 AJAX、WebSocket 等。

三、总结

网络和反是不断博弈的过程,随着技术的进步,双方都在不断发展新的技术手段。作为开发者,需要不断学习新的技术,了解网站的反策略,才能更好地获取数据。


如果对你有帮助,记得点赞分享支持一下~

相关文章
|
安全 Android开发
夜神模拟器 安卓7.0 burp抓包 https流量
夜神模拟器 安卓7.0 burp抓包 https流量
1305 0
|
编解码 移动开发 视频直播
一文详解 m3u8 视频格式与分析视频秒开优化
秒开指的是,一秒内成功加载的播放数/播放总数。本意是想对比一下m3u8与mp4视频格式,并了解m3u8格式优缺点,以确定一个大概优化方向。但对m3u8做简单了解后,觉的m3u8可能是一个优化方向。
13778 4
一文详解 m3u8 视频格式与分析视频秒开优化
|
数据采集 人工智能 数据可视化
Python selenium爬虫被检测到,该怎么破?
Python selenium爬虫被检测到,该怎么破?
1921 9
|
11月前
|
监控 Shell Linux
Android调试终极指南:ADB安装+多设备连接+ANR日志抓取全流程解析,覆盖环境变量配置/多设备调试/ANR日志分析全流程,附Win/Mac/Linux三平台解决方案
ADB(Android Debug Bridge)是安卓开发中的重要工具,用于连接电脑与安卓设备,实现文件传输、应用管理、日志抓取等功能。本文介绍了 ADB 的基本概念、安装配置及常用命令。包括:1) 基本命令如 `adb version` 和 `adb devices`;2) 权限操作如 `adb root` 和 `adb shell`;3) APK 操作如安装、卸载应用;4) 文件传输如 `adb push` 和 `adb pull`;5) 日志记录如 `adb logcat`;6) 系统信息获取如屏幕截图和录屏。通过这些功能,用户可高效调试和管理安卓设备。
|
域名解析 关系型数据库 MySQL
基于PHPEnv的本地环境搭建—PHP第一个项目:HelloWorld(从安装到运行)
该文章指导如何使用PHPEnv搭建本地PHP开发环境,并通过一个简单的"Hello World"程序演示从安装到运行的全过程。
基于PHPEnv的本地环境搭建—PHP第一个项目:HelloWorld(从安装到运行)
|
算法 安全 数据安全/隐私保护
入职必会-开发环境搭建07-压缩解压软件-WinRAR下载和安装
WinRAR 是一款知名的文件压缩和解压缩软件,支持多种压缩格式,如RAR、ZIP、7Z 等。作为Windows平台上的经典工具之一,WinRAR 提供了强大的压缩算法,能够有效地压缩文件和文件夹,节省存储空间并方便文件传输。
285 1
入职必会-开发环境搭建07-压缩解压软件-WinRAR下载和安装
|
数据采集 机器人 测试技术
SeleniumBase在无头模式下绕过验证码的完整指南
本文详细介绍了如何在SeleniumBase的无头模式下绕过验证码,通过使用代理IP(以爬虫代理为例)、设置User-Agent和Cookie等手段提升爬虫效率。文章首先分析了无头模式下面临的验证码挑战,然后提供了具体的策略和代码示例,包括浏览器设置、代理IP配置及模拟用户行为的方法。最后,通过一个访问大众点评网站并绕过验证码的完整代码示例,展示了如何在实际场景中应用这些技术,应对现代网站的反爬虫机制。此外,还提供了一些提高爬虫效率的实用技巧,如代理池轮换、设置合适延迟和分布式爬虫等。
1634 1
|
存储 机器学习/深度学习 数据安全/隐私保护
最全Pillow(PIL)入门教程(非常详细)_python pillow 教程,2024年最新Python面试送分题
最全Pillow(PIL)入门教程(非常详细)_python pillow 教程,2024年最新Python面试送分题
最全Pillow(PIL)入门教程(非常详细)_python pillow 教程,2024年最新Python面试送分题
|
数据采集 机器学习/深度学习 前端开发
反爬虫措施
【8月更文挑战第12天】
1785 3
为什么用了代理ip访问网站还是被限制了
为什么用了代理ip访问网站还是被限制了
938 0

热门文章

最新文章