Python爬虫系列2-采集2022年拉钩网最新的IT岗位招聘数据

简介: 2022年转眼已过半,再过半年即将迎来2023年,我坚信疫情早晚会过去,2023年相信会是一个互联网全新的时代:物联网时代,古语云:十年磨一剑,古时候烽火传递、飞鸽传书,交流信息很不方便。古人就幻想着有千里眼和顺风耳。能看到千里之外的地方和听到很远地方的声音。从2000年至2010年这十年,古人的愿望变成了现实;我们见证了全智能手机的发展历程;以及2010年至2020年的移动互联网从早期的2G网络过渡至3G到现在的4G网络甚至到目前已经慢慢普及但尚未成熟的5G网络的发展历程;我们也坚信未来的万物互联距离现如今的我们也并不是一件很遥远的事情。如果本文对你有些帮助-还请点赞👍关注!

序言

image.png

- 实战

分析网站结构,确定我们要抓取的数据内容

image.png

通过 Chrome 浏览器右键检查查看 network 并对网站结构进行分析发现我们在 ajax 请求界面中,可以看到这些返回的数据正是网站页面中Python岗位招聘的详情信息。

之后我们在查看headers的时候发现该网站请求的方式是Post请求,也就是说在请求的过程中需要携带Form Data数据。

image.png
这一块在之前的一篇博客中我也分析过,甚至请求的是另一种Post携带方式。传送门: https://developer.aliyun.com/article/973321?spm=a2c6h.13262185.profile.15.6c2f5dfekQtmF5

在多次对网页界面进行分析评测的时候,发现在点击第二页的时候Form Data的携带格式发生了变化。可以看到 pn=2 肯定是咱们的当前的页数。

image.png

第一步:不管三七二十一 ,先请求拿到数据在说


import requests

url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
# 发送携带的数据
form_data = {
    'first': 'false',
    'pn': 2,
    'kd': 'python',
}

result=requests.post(url,data=form_data).text
print(result)

OUT:
{"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"113.246.154.37","state":2408}

在直接请求界面的时候我们发现网站有反爬机制,不让我们请求《"msg":"您操作太频繁,请稍后再访问"》,我们携带请求头伪装一下,不行
image.png

这里我用了一种可以快速生成headers以及cookie的工具:https://curl.trillworks.com/ 用法如下:
image.png

image.png

我怀疑该网站具有多重反爬策略,当我在次添加cookies试一下的时候;我们发现数据可以正常获取了;难道就这么简单就解决拉勾网数据获取的问题了吗?然而机智的我察觉到事情并没有想像的那么简单

image.png

我的最终解决方案是共用 session,就是说我们在每次请求界面的时候先获取session然后原地更新我们的session之后在进行数据的抓取,最后拿到想要的数据。
image.png

第二步:对数据进行分解


import requests
import time


# 第一步 : 请求数据
def get_requests_data(url, form_data):
    # 伪装浏览器
    headers = {
        'Origin': 'https://www.lagou.com',
        'X-Anit-Forge-Code': '0',
        'Accept-Encoding': 'gzip, deflate, br',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',
        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'X-Requested-With': 'XMLHttpRequest',
        'Connection': 'keep-alive',
        'X-Anit-Forge-Token': 'None',
    }
    time.sleep(3)
    # 获取session
    session_data = requests.session()
    # 更新
    session_data.headers.update(headers)
    session_data.get("https://www.lagou.com/jobs/list_Python?px=new&city=%E5%85%A8%E5%9B%BD")
    # 使用session发送post请求获取url及携带的参数保存到本地session中。
    content = session_data.post(url=url, data=form_data)
    result_data_list = result['content']['positionResult']['result']
    for item_data in result_data_list:
        list_data = []
        list_data.append(item_data['city'])  # 岗位对应城市
        list_data.append(item_data['companyFullName'])  # 公司全名
        list_data.append(item_data['companyLabelList'])  # 福利待遇
        list_data.append(item_data['district'])  # 工作地点
        list_data.append(item_data['education'])  # 学历要求
        list_data.append(item_data['formatCreateTime'])  # 发布时间
        list_data.append(item_data['positionName'])  # 职位名称
        list_data.append(item_data['salary'])  # 薪资
    return list_data


if __name__ == '__main__':

    url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'

    # 发送携带的数据
    form_data = {
        'first': 'false',
        'pn': 2,
        'kd': 'python',
    }

    info_list=get_requests_data(url, form_data)
    print(info_list)

运行结果:
image.png

第三步:对解析数据进行存储

这里通过 excel 表格的形式进行存储;

需要 pip install xlwt 安装一下 xlwt 库.

    import xlwt

    info_result = []
    title = ['城市', '公司名称', '福利待遇', '工作地点', '学历要求', '发布时间', '职位名称', '薪资']
    info_result.append(title)
    # 获取请求返回数据
    info_list=get_requests_data(url, form_data)
    
    # 创建workbook,即excel
    workbook = xlwt.Workbook(encoding='utf-8')
    worksheet = workbook.add_sheet('lg_lagou', cell_overwrite_ok=True)
    # 遍历 枚举
    for item, title_data in enumerate(info_list):
        for item_data, content_data in enumerate(title_data):
            worksheet.write(item, item_data, content_data)
    workbook.save('lg_lagou.xls')

最终显示数据内容

image.png

如果本文对你学习有所帮助-可以点赞👍+ 关注!将持续更新更多新的文章。

支持原创。感谢!

相关文章
|
1天前
|
数据采集 存储 数据挖掘
深入剖析 Python 爬虫:淘宝商品详情数据抓取
深入剖析 Python 爬虫:淘宝商品详情数据抓取
|
4天前
|
存储 数据采集 数据库
Python爬虫实战:股票分时数据抓取与存储
Python爬虫实战:股票分时数据抓取与存储
|
30天前
|
数据采集 JSON 数据格式
Python爬虫:京东商品评论内容
京东商品评论接口为商家和消费者提供了重要工具。商家可分析评论优化产品,消费者则依赖评论做出购买决策。该接口通过HTTP请求获取评论内容、时间、点赞数等数据,支持分页和筛选好评、中评、差评。Python示例代码展示了如何调用接口并处理返回的JSON数据。应用场景包括产品优化、消费者决策辅助、市场竞争分析及舆情监测。
|
1月前
|
数据采集 缓存 API
python爬取Boss直聘,分析北京招聘市场
本文介绍了如何使用Python爬虫技术从Boss直聘平台上获取深圳地区的招聘数据,并进行数据分析,以帮助求职者更好地了解市场动态和职位需求。
|
1月前
|
数据采集 供应链 API
Python爬虫与1688图片搜索API接口:深度解析与显著收益
在电子商务领域,数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场,提供了丰富的API接口,特别是图片搜索API(`item_search_img`),允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口,提升搜索效率和用户体验,助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等,显著提高运营效率和市场竞争力。
89 3
|
2月前
|
数据采集 存储 缓存
如何使用缓存技术提升Python爬虫效率
如何使用缓存技术提升Python爬虫效率
|
2月前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
3月前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
3月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
193 6
|
3月前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
152 4

推荐镜像

更多