python爬虫中如何获取cookie和添加代理池

2023-07-04 495

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： python爬虫中如何获取cookie和添加代理池

网站反爬机制的是日常爬虫中要解决的基础问题，其中一项就是通过添加cookie，因为我们在访问网站的时候大多数都是需要带cookie的，为什么要有这个呢？其实可以理解成我们在这个网站的临时身份证，为什么是说是临时的呢，因为cookie是存在有效期的，这个有效期各个网站都是不同的，要取决于这个网站本身。
而且，有很多网站都是需要登录才可以的，经过登陆验证之后，就会给你返回一个cookie，这样子在你接下来的固定时间内，你再该网站的所有操作，都是携带着cookie来进行的。
当我们访问某些需要登录才能访问到指定用户名密码的时候，就需要我们携带cookie才能访问了，这个时候我们可以先用浏览器登录上，并访问下指定页面，检查下他携带的cookie信息是什么，然后将其cookie复制出来，放到我们的代码中，比如我们可以通过python来获取访问的cookie信息，如下代码示例：
```import sqlite3

连接到cookie数据库

conn = sqlite3.connect('C:\Users\[用户名]\AppData\Local\Google\Chrome\User Data\Default\Cookies')

查询cookie信息

cursor = conn.execute('SELECT host_key, name, value FROM cookies')

输出查询结果

for row in cursor:
print(row)

上面我们了解了如何获取cookie并使用，接下来就是代理的使用问题，在爬取过程中只有将这两个结合起来才能更有效的爬取数据。关于代理池之前分享了很多，网上也有很多的代理商，免费的付费的都有，根据自己的需求选择就可以，如果网站对IP的质量要求比较高的，这里推荐付费代理亿牛云，特别是他们看家的隧道爬虫代理，这里也简单的分享下他们家隧道代理的使用demo:
``    #! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text

python爬虫中如何获取cookie和添加代理池

连接到cookie数据库

查询cookie信息

输出查询结果

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

python爬虫中如何获取cookie和添加代理池

连接到cookie数据库

查询cookie信息

输出查询结果

热门文章

最新文章

相关课程

相关电子书

推荐镜像