python爬虫中如何获取cookie和添加代理池

简介: python爬虫中如何获取cookie和添加代理池

网站反爬机制的是日常爬虫中要解决的基础问题,其中一项就是通过添加cookie,因为我们在访问网站的时候大多数都是需要带cookie的,为什么要有这个呢?其实可以理解成我们在这个网站的临时身份证,为什么是说是临时的呢,因为cookie是存在有效期的,这个有效期各个网站都是不同的,要取决于这个网站本身。
而且,有很多网站都是需要登录才可以的,经过登陆验证之后,就会给你返回一个cookie,这样子在你接下来的固定时间内,你再该网站的所有操作,都是携带着cookie来进行的。
当我们访问某些需要登录才能访问到指定用户名密码的时候,就需要我们携带cookie才能访问了,这个时候我们可以先用浏览器登录上,并访问下指定页面,检查下他携带的cookie信息是什么,然后将其cookie复制出来,放到我们的代码中,比如我们可以通过python来获取访问的cookie信息,如下代码示例:
```import sqlite3

连接到cookie数据库

conn = sqlite3.connect('C:\Users\[用户名]\AppData\Local\Google\Chrome\User Data\Default\Cookies')

查询cookie信息

cursor = conn.execute('SELECT host_key, name, value FROM cookies')

输出查询结果

for row in cursor:
print(row)

上面我们了解了如何获取cookie并使用,接下来就是代理的使用问题,在爬取过程中只有将这两个结合起来才能更有效的爬取数据。关于代理池之前分享了很多,网上也有很多的代理商,免费的付费的都有,根据自己的需求选择就可以,如果网站对IP的质量要求比较高的,这里推荐付费代理亿牛云,特别是他们看家的隧道爬虫代理,这里也简单的分享下他们家隧道代理的使用demo:
``    #! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text
AI 代码解读
相关文章
深入解析:使用 Python 爬虫获取淘宝店铺所有商品接口
本文介绍如何使用Python结合淘宝开放平台API获取指定店铺所有商品数据。首先需注册淘宝开放平台账号、创建应用并获取API密钥,申请接口权限。接着,通过构建请求、生成签名、调用接口(如`taobao.items.search`和`taobao.item.get`)及处理响应,实现数据抓取。代码示例展示了分页处理和错误处理方法,并强调了调用频率限制、数据安全等注意事项。此技能对开发者和数据分析师极具价值。
如何根据目标网站调整Python爬虫的延迟时间?
如何根据目标网站调整Python爬虫的延迟时间?
Python爬虫:从人民网提取视频链接的完整指南
Python爬虫:从人民网提取视频链接的完整指南
Python爬虫实战:一键采集电商数据,掌握市场动态!
这个爬虫还挺实用,不光能爬电商数据,改改解析规则,啥数据都能爬。写爬虫最重要的是要有耐心,遇到问题别着急,慢慢调试就成。代码写好了,运行起来那叫一个爽,分分钟几千条数据到手。
深入剖析 Python 爬虫:淘宝商品详情数据抓取
深入剖析 Python 爬虫:淘宝商品详情数据抓取
Python爬虫实战:股票分时数据抓取与存储
Python爬虫实战:股票分时数据抓取与存储