python爬虫之cookie方式自动登录巴比特网

简介: 最近打算抓取公司内部PPT模板库中的PPT,发现被各种安全屏蔽。因为好久没写程序了,因此写几个例子回顾下基本的爬虫知识目标网址巴比特的登录页面http://8btc.

最近打算抓取公司内部PPT模板库中的PPT,发现被各种安全屏蔽。因为好久没写程序了,因此写几个例子回顾下基本的爬虫知识

目标网址巴比特的登录页面

http://8btc.com/member.php?mod=logging&action=login

在登录的时候开启fiddler抓包:

这里写图片描述

图中尖头标记处显示了真正提交表单的地址,将改地址记下:

http://8btc.com/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=

因为自己想用cookie的方式登录,代码如下:

import urllib.request
import urllib.parse
import urllib.error
import http.cookiejar
import sys

class ECNcookie:
    def __init__(self):
        self.url = 'http://8btc.com/member.php?mod=logging&action=login&loginsubmit=yes&loginhash='
        self.values = {
            'formhash' : "284e610a",
            'referer' : "http://8btc.com/index.php",
            'username' : "xxx",
            'loginfield' : "auto",
            'password' : "xxx",
            'questionid' : "0",
        }
        self.user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
        self.user_headers = {
            'User-Agent': self.user_agent
        }
        self.cookie_dir = 'C:/Users/ecaoyng/Desktop/PPT/cookie.txt'

    def cookie_saved(self):
        post_data = urllib.parse.urlencode(self.values)
        post_data = post_data.encode('utf-8')
        cookie = http.cookiejar.MozillaCookieJar(self.cookie_dir)
        handler = urllib.request.HTTPCookieProcessor(cookie)
        opener = urllib.request.build_opener(handler)
        request = urllib.request.Request(self.url, post_data, self.user_headers)
        try:
            response = opener.open(request)
            page = response.read().decode(encoding="GBK")
            print(page)
            print('='*80)

            for i in cookie:
                print('Name: %s' % i.name)
                print('Value: %s' % i.value)
            print('='*80)
            cookie.save(ignore_discard=True, ignore_expires=True)

        except urllib.error.URLError as e:
            print('Error msg: %s' % e.reason)

    def access_other_page(self):
        try:
            my_url = 'http://8btc.com/home.php?mod=space&uid=166072&do=profile&from=space'
            cookie = http.cookiejar.MozillaCookieJar()
            cookie.load(self.cookie_dir, ignore_discard=True, ignore_expires=True)
            get_request = urllib.request.Request(my_url, headers=self.user_headers)
            access_opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))
            get_response = access_opener.open(get_request)
            print('='*80)
            print(get_response.read().decode(encoding="GBK"))
        except Exception as e:
            print('Error msg when entry other pages: %s' % e.reason())


if __name__ == '__main__':
    print(sys.getdefaultencoding())
    print('='*80)
    cookie_obj=ECNcookie()
    cookie_obj.cookie_saved()
    cookie_obj.access_other_page()

在抓取的页面中能够查到自己的登录名和状态。

得到的cookie信息如下

Name: eCM1_5408_auth
Value: 6b7dnCekiynTLECh7T%2FcOLMQmTE1JFYd1bmVIrXHb2766l6TjDm3kIFiP%2BS8%2FhmYuV8kmN%2BdOOSZ%2FVrhyJ7TvRLdov8
Name: eCM1_5408_cack_wechat_bind
Value: 1
Name: eCM1_5408_checkfollow
Value: 1
Name: eCM1_5408_lastact
Value: 1512098740%09member.php%09logging
Name: eCM1_5408_lastcheckfeed
Value: 166072%7C1512098740
Name: eCM1_5408_lastvisit
Value: 1512095140
Name: eCM1_5408_lip
Value: 59.46.167.194%2C1512098705
Name: eCM1_5408_saltkey
Value: b5JB4z50
Name: eCM1_5408_sid
Value: LDP536
Name: eCM1_5408_ulastactivity
Value: 83461RS%2BUIpdpkz6fGBx3McFx9MHect60vmuLqMRqpRqCU2aPLMR
Name: PHPSESSID
Value: nm8972h3mlsc9uehh8s2or6cu3
Name: yd_cookie
Value: 5ab8c97f-448d-42306da49cc39d9bf6cbfca9d8a16ccd2db5
目录
相关文章
|
19天前
|
数据采集 Python
【python】爬虫-西安医学院-校长信箱
本文以西安医学院-校长信箱为基础来展示爬虫案例。来介绍python爬虫。
【python】爬虫-西安医学院-校长信箱
|
1月前
|
数据采集 Python
爬虫实战-Python爬取百度当天热搜内容
爬虫实战-Python爬取百度当天热搜内容
72 0
|
1月前
|
数据采集 存储 XML
深入浅出:基于Python的网络数据爬虫开发指南
【2月更文挑战第23天】 在数字时代,数据已成为新的石油。企业和个人都寻求通过各种手段获取互联网上的宝贵信息。本文将深入探讨网络爬虫的构建与优化,一种自动化工具,用于从网页上抓取并提取大量数据。我们将重点介绍Python语言中的相关库和技术,以及如何高效、合法地收集网络数据。文章不仅为初学者提供入门指导,也为有经验的开发者提供进阶技巧,确保读者能够在遵守网络伦理和法规的前提下,充分利用网络数据资源。
|
1月前
|
数据采集 测试技术 API
python爬虫之Appium 的使用
搭建appium环境,appium基本使用,API操作等等
47 0
|
25天前
|
数据采集 安全 Python
python并发编程:Python实现生产者消费者爬虫
python并发编程:Python实现生产者消费者爬虫
25 0
python并发编程:Python实现生产者消费者爬虫
|
1月前
|
数据采集 数据挖掘 调度
异步爬虫实践攻略:利用Python Aiohttp框架实现高效数据抓取
本文介绍了如何使用Python的Aiohttp框架构建异步爬虫,以提升数据抓取效率。异步爬虫利用异步IO和协程技术,在等待响应时执行其他任务,提高效率。Aiohttp是一个高效的异步HTTP客户端/服务器框架,适合构建此类爬虫。文中还展示了如何通过代理访问HTTPS网页的示例代码,并以爬取微信公众号文章为例,说明了实际应用中的步骤。
|
1月前
|
数据采集 测试技术 API
python爬虫之app爬取-微信朋友圈
搭建appium环境,appium基本使用,API操作等等
80 0
|
5天前
使用cookie自动登录DY,, 避免人机校验
使用cookie自动登录DY,, 避免人机校验
22 6
|
5天前
|
数据采集 存储 JSON
Python爬虫面试:requests、BeautifulSoup与Scrapy详解
【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests,强调了异常处理、代理设置和请求重试;BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化;而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码,帮助读者深化理解并提升面试表现。
13 0
|
8天前
|
数据采集 JavaScript 前端开发
使用Python打造爬虫程序之破茧而出:Python爬虫遭遇反爬虫机制及应对策略
【4月更文挑战第19天】本文探讨了Python爬虫应对反爬虫机制的策略。常见的反爬虫机制包括User-Agent检测、IP限制、动态加载内容、验证码验证和Cookie跟踪。应对策略包括设置合理User-Agent、使用代理IP、处理动态加载内容、验证码识别及维护Cookie。此外,还提到高级策略如降低请求频率、模拟人类行为、分布式爬虫和学习网站规则。开发者需不断学习新策略,同时遵守规则和法律法规,确保爬虫的稳定性和合法性。