四:爬虫-Cookie与Session实战

简介: 本篇文章讲述了Cookie基础知识,和爬虫Cookie案例 -- 12306查票示例实战
1.CookieSession实战:

​ 在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问。在登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且在很长时间内都不会失效,这里面所涉及的就是 SessionCookie 的相关知识

(1)Cookie

​ 通过在客户端记录的信息确定用户身份

​ HTTP是一种无连接协议,客户端和服务器交互仅仅限于请求 / 响应过程,结束后断开,下一次请求时,服务器会认为是一个新的客户端,为了维护他们之间的连接,让服务器知道这是前一个用户发起的请求,就必须在一个地方保存客户端信息

(2)Session

Session,中文称之为会话,通过在服务端记录的信息确定用户身份,其本义是指有始有终的一系列动作。例如打电话时,从拿起电话拨号到挂断电话之间的一系列过程就可以称为一个 Session

爬虫图解CookieSession -- 登录流程:

登录流程.png

文字解析:

​ 1.再次登录其实就是验证之前生成的账号和密码,从数据库中去查询当前的用户是否存在,若存在就是登录成功了,然后通过加密算法返回session_id
​ 2.set_cookie是服务器返回的,因为只有服务器返回的才是set_cookie

​ 3.服务端根据cookie中携带的session_id去名为session的数据库(假设session_id存储在名为session的数据库中)中找session_id是否存在

​ 4.这样做的好处就是用户只需要输入一次账号和密码,之后在访问网页时,只需要在headers信息利用Cookie包含Session_id,后台就可以根据Session_id来判断用户是否登录

Cookie与Session实战案例 -- 12306查票示例:

import requests

headers = {
   
   
    "Accept": "*/*",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Cache-Control": "no-cache",
    "Connection": "keep-alive",
    "If-Modified-Since": "0",
    "Pragma": "no-cache",
    "Referer": "https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc",
    "Sec-Fetch-Dest": "empty",
    "Sec-Fetch-Mode": "cors",
    "Sec-Fetch-Site": "same-origin",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36",
    "X-Requested-With": "XMLHttpRequest",
    "sec-ch-ua": "^\\^Google",
    "sec-ch-ua-mobile": "?0",
    "sec-ch-ua-platform": "^\\^Windows^^"
}
cookies = {
   
   
    "_uab_collina": "170210568210505922888592",
    "JSESSIONID": "44EBFDF0F56EDAAB390BD3821713F910",
    "BIGipServerpassport": "921174282.50215.0000",
    "guidesStatus": "off",
    "highContrastMode": "defaltMode",
    "cursorStatus": "off",
    "route": "495c805987d0f5c8c84b14f60212447d",
    "BIGipServerotn": "2698445066.64545.0000",
    "_jc_save_fromStation": "^%^u5317^%^u4EAC^%^2CBJP",
    "_jc_save_toStation": "^%^u4E0A^%^u6D77^%^2CSHH",
    "_jc_save_toDate": "2023-12-09",
    "_jc_save_wfdc_flag": "dc",
    "_jc_save_fromDate": "2023-12-10"
}
url = "https://kyfw.12306.cn/otn/leftTicket/query"
params = {
   
   
    "leftTicketDTO.train_date": "2023-12-10",
    "leftTicketDTO.from_station": "BJP",
    "leftTicketDTO.to_station": "SHH",
    "purpose_codes": "ADULT"
}
response = requests.get(url, headers=headers, cookies=cookies, params=params)

data = response.json()
# print(data,type(data))

result = data['data']['result']
# print(result,type(result))

for item in result: # item代表每一个车次数据
    # print(item,"此时是字符串")
    data_li = item.split('|') # 代表每一车次的杂乱数据
    # print(data_li,"此时是列表")
    # for i,f in enumerate(data_li): # 这个for循环是为了确定一等做和车次的索引
    #     pass
    #     print(i,f) # 通过 '|' 分割,拿到每一个杂乱小数据的索引值与具体的值

    '''
    车次 -- 索引为3
    一等座 -- 索引为31
    '''

    if data_li[31] != "无" and data_li[31] != "":
        print(data_li[3], "有票", "一等座剩余:", data_li[31])
    else:
        print(data_li[3], "无票")
目录
相关文章
|
1天前
|
数据采集 搜索推荐 JavaScript
GitHub星标3500的Python爬虫实战入门教程,限时开源!
爬虫的全称为网络爬虫,简称爬虫,别名有网络机器人,网络蜘蛛等等。 网络爬虫是一种自动获取网页内容的程序,为搜索引擎提供了重要的数据支撑。搜索引擎通过网络爬虫技术,将互联网中丰富的网页信息保存到本地,形成镜像备份。我们熟悉的谷歌、百度本质上也可理解为一种爬虫。 如果形象地理解,爬虫就如同一只机器蜘蛛,它的基本操作就是模拟人的行为去各个网站抓取数据或返回数据。
|
1天前
|
存储 前端开发 JavaScript
VSCode调试揭秘:Live Server助力完美测试Cookie与Session,远超“Open in Browser“!
VSCode调试揭秘:Live Server助力完美测试Cookie与Session,远超“Open in Browser“!
|
1天前
|
存储 安全 网络协议
Django路由与会话深度探索:静态、动态路由分发,以及Cookie与Session的奥秘
Django路由与会话深度探索:静态、动态路由分发,以及Cookie与Session的奥秘
|
6天前
|
存储 移动开发 JavaScript
对于session、cookie、 localStorage和SessionStorage的理解
对于session、cookie、 localStorage和SessionStorage的理解
14 0
|
6天前
|
存储 安全 应用服务中间件
Cookie、Session、Token那点事儿
Cookie、Session、Token那点事儿
|
8天前
|
存储 安全 关系型数据库
安全开发-PHP应用&留言板功能&超全局变量&数据库操作&第三方插件引用&后台模块&Session&Cookie&Token&身份验证&唯一性
安全开发-PHP应用&留言板功能&超全局变量&数据库操作&第三方插件引用&后台模块&Session&Cookie&Token&身份验证&唯一性
|
11天前
|
数据采集 存储 数据挖掘
Python网络爬虫实战:抓取并分析网页数据
使用Python的`requests`和`BeautifulSoup`,本文演示了一个简单的网络爬虫,抓取天气网站数据并进行分析。步骤包括发送HTTP请求获取HTML,解析HTML提取温度和湿度信息,以及计算平均温度。注意事项涉及遵守robots.txt、控制请求频率及处理动态内容。此基础爬虫展示了数据自动收集和初步分析的基础流程。【6月更文挑战第14天】
91 9
|
14天前
|
存储 编解码 应用服务中间件
会话跟踪技术(Session 以及Cookie)
会话跟踪技术(Session 以及Cookie)
|
21天前
|
中间件 数据库 Python
Django——会话.Cookie&Session
Django——会话.Cookie&Session
|
22天前
|
JSON 前端开发 Java
Spring第一课,了解IDEA里面的文件,回顾Cookie和Session,获取Session,Cookie,Header的方式
Spring第一课,了解IDEA里面的文件,回顾Cookie和Session,获取Session,Cookie,Header的方式