绕过HTTPS请求中的TLS特征识别及反爬机制

简介: 使用 urllib.request 库进行 HTTPS 请求时,可能会出现 TLS 特征被识别的情况,可以考虑以下一些方法来绕过反爬机制:使用代理 IP、修改请求头部信息、降低请求频率或使用其他语言库,如 aiohttp、 Scrapy、Selenium 等,来进行复杂的反爬处理。这段代码实现了一个基于 asyncio 和 aiohttp 的异步百度百科查询工具,具有较高的并发性能和响应速度,同时通过爬虫代理加强版IP和随机User-Agent能够提高采集的效率。

095e96ecc98a41e6d5cf511ec3ab72bc.png

在使用 urllib.request 库进行 HTTPS 请求时,可能会出现 TLS 特征被识别的情况。这通常是因为目标网站的反爬机制检测到了你的请求不符合正常浏览器的请求特征,或者你的请求被检测到是从程序中发出的,而非浏览器。其中,一些反爬机制会检测请求头部中的 User-Agent 字段,以此来判断请求是否来自正常浏览器。如果 User-Agent 字段为 Python/urllib 或者其他非浏览器的 User-Agent 字段,就会被判定为爬虫。

另外,反爬机制还会检测 TLS 特征,如 TLS 版本、握手方式、常量等,以此来判断请求是否为程序发出的。如果 TLS 特征异常,就会被判定为爬虫。因此,我们可以通过修改请求头部中的 User-Agent 字段来伪装成浏览器,或者使用代理 IP 来隐藏请求的真实 IP,以绕过反爬机制。同时,我们还可以通过更改 TLS 特征,如修改 TLS 版本、握手方式等来欺骗反爬机制。

如果出现 TLS 特征被识别的情况,可以考虑以下一些方法来绕过反爬机制:使用代理 IP、修改请求头部信息、降低请求频率或使用其他语言库,如 aiohttp、 Scrapy、Selenium 等,来进行复杂的反爬处理。

下面以百度百科网站做测试,使用aiohttp、爬虫代理加强版IP和随机User-Agent实现信息采集:

importurllib.parseimportasyncioimportaiohttpimportlxml.htmlimportrandomURL_TEMPLATE='https://baike.baidu.com/item/{}'HEADERS_LIST= [
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299',
'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; AS; rv:11.0) like Gecko',
# 添加更多 User-Agent]
# 代理服务器( www.16yun.cn)proxyHost="t.16yun.cn"proxyPort="31111"# 代理验证信息proxyUser="16yun"proxyPass="16ip"PROXIES="http://%(user)s:%(pass)s@%(host)s:%(port)s"% {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
asyncdefquery(content):
asyncwithaiohttp.ClientSession(headers=get_random_headers()) assession:
url=URL_TEMPLATE.format(urllib.parse.quote(content))        
asyncwithsession.get(url, proxy=PROXIES) asresponse:
html=lxml.html.fromstring(awaitresponse.read())
sen_list=html.xpath('//div[contains(@class,"lemma-summary") or contains(@class,"lemmaWgt-lemmaSummary")]//text()')
sen_list_after_filter= [item.strip('\n') foriteminsen_list]
return'\n'.join(sen_list_after_filter).encode('utf-8')
asyncdefmain():
asyncforcontentinget_input():
result=awaitquery(content)
print("查询结果:\n%s"%result.decode('utf-8'))
asyncdefget_input():
whileTrue:
yieldinput('查询词语:')
defget_random_headers():
return {'User-Agent': random.choice(HEADERS_LIST)}
if__name__=='__main__':
asyncio.run(main())

这段代码实现了一个基于 asyncio 和 aiohttp 的异步百度百科查询工具,具有较高的并发性能和响应速度,同时通过爬虫代理加强版IP和随机User-Agent能够提高采集的效率。

相关文章
|
5月前
|
JavaScript
Node.js【GET/POST请求、http模块、路由、创建客户端、作为中间层、文件系统模块】(二)-全面详解(学习总结---从入门到深化)(上)
Node.js【GET/POST请求、http模块、路由、创建客户端、作为中间层、文件系统模块】(二)-全面详解(学习总结---从入门到深化)
44 0
|
5月前
|
安全 Android开发
Android之OKHttp基本使用和OKHttp发送https请求安全认证
Android之OKHttp基本使用和OKHttp发送https请求安全认证
126 0
|
3月前
|
缓存 网络协议 算法
(二)Java网络编程之爆肝HTTP、HTTPS、TLS协议及对称与非对称加密原理!
作为一名程序员,尤其是Java程序员,那必须得了解并掌握HTTP/HTTPS相关知识。因为在如今计算机网络通信中,HTTP协议的作用功不可没,无论是日常上网追剧、冲���、亦或是接口开发、调用等,必然存在HTTP的“影子”在内。尤其对于WEB开发者而言,HTTP几乎是每天会打交道的东西。
70 10
|
2月前
|
JavaScript 前端开发 Java
【Azure 环境】各种语言版本或命令,发送HTTP/HTTPS的请求合集
【Azure 环境】各种语言版本或命令,发送HTTP/HTTPS的请求合集
|
3月前
|
安全 Java 网络安全
RestTemplate进行https请求时适配信任证书
RestTemplate进行https请求时适配信任证书
56 3
|
4月前
|
Web App开发 存储 网络安全
Charles抓包神器的使用,完美解决抓取HTTPS请求unknown问题
本文介绍了在 Mac 上使用的 HTTP 和 HTTPS 抓包工具 Charles 的配置方法。首先,强调了安装证书对于抓取 HTTPS 请求的重要性,涉及 PC 和手机端。在 PC 端,需通过 Charles 软件安装证书,然后在钥匙串访问中设置为始终信任。对于 iOS 设备,需设置 HTTP 代理,通过电脑上的 IP 和端口访问特定网址下载并安装证书,同时在设置中信任该证书。配置 Charles 包括设置代理端口和启用 SSL 代理。完成这些步骤后,即可开始抓包。文章还提及 Android 7.0 以上版本可能存在不信任用户添加 CA 证书的问题,但未提供解决办法。
791 0
Charles抓包神器的使用,完美解决抓取HTTPS请求unknown问题
Get “https://npm.taobao.org/mirrors/node/latest/SHASUMS256.txt“: tls: failed to verify certificate:
Get “https://npm.taobao.org/mirrors/node/latest/SHASUMS256.txt“: tls: failed to verify certificate:
|
4月前
|
网络协议 前端开发 Java
网络原理 - HTTP / HTTPS(4)——构造http请求
网络原理 - HTTP / HTTPS(4)——构造http请求
40 1
|
4月前
|
存储 JSON 安全
网络原理 - HTTP / HTTPS(2)——http请求
网络原理 - HTTP / HTTPS(2)——http请求
45 1
|
4月前
|
安全 网络安全 数据安全/隐私保护
深入解析HTTPS:安全机制全方位剖析
深入解析HTTPS:安全机制全方位剖析
下一篇
无影云桌面