Python脚本分析拉钩招聘网站职位
场景
最近发现一些朋友想要跳槽,正值疫情,也不知道现在市场的如何,同时目前的IT行业更是越来越难,技术革新越来越快,对新的岗位的需求也是不断的变化,因此就会想知道现在的应聘岗位对面试者的要求有哪些,各地的某个岗位薪资范围大概是多少等信息时候,我们就需要到某个招聘网站上不断的刷页面,看数据,但是简单的想一下,可以通过Python脚本来批量的分析招聘网站上各个岗位在不同城市的需求,高效的快捷的方便我们掌握大致的方向。
实现
如何获取数据,需要掌握基本的Python爬虫知识,requests
模块就可以搞定了,在爬取数据之后,将其存在Excel中,因此需要xlwt
模块处理,当然在诸多的Python模块中,你可以选择你喜欢的,毕竟能抓老鼠的猫都是好猫。
xlwt 1.3.0
requests 2.18.4
下面我们就拿拉钩网站为例,思考和获取部分的数据作为个人简单的分析参考,脚本中没有涉及到隐私数据信息,大可放心,同时也是为了找工作的小伙伴们提供一下参考的方向:
注意:
- 脚本中获取的是通过指定的页的数量获取全国各城市的岗位信息,你可以修改
FetchData
方法中的referer
和请求地址中城市的值,以便获取你需要的目标城市的岗位信息 - 如果获取的比较频繁的话,可能会出现以下情况,这里你可以通过设置代理的方式解决,免费的代理IP网站上有很多,你可以参考这篇获取代理的文章。
- 在交互式输入需要获取的页数之后,爬取的数据将会存储在当前执行位置下的
data.xls
。
下面就简单的提供一下写好的Python脚本:
#!/usr/bin/env python3.4
# encoding: utf-8
"""
Created on 2020-06-26
@title: '爬去网站的招聘信息'
@author: marionxue
"""
import requests
import xlwt
# 获取存储职位信息的json对象,遍历获得公司名、福利待遇、工作地点、学历要求、工作类型、发布时间、职位名称、薪资、工作年限
def FetchData(url, datas):
my_headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36",
"Referer": "https://www.lagou.com/jobs/list_Python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=",
"Content-Type": "application/x-www-form-urlencoded;charset = UTF-8"
}
ses = requests.session() # 获取session
ses.headers.update(my_headers) # 更新头部信息
ses.get("https://www.lagou.com/jobs/list_%E9%83%91%E5%B7%9Ejava?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=")
content = ses.post(url=url, data=datas)
result = content.json()
info = result['content']['positionResult']['result']
info_list = []
for job in info:
information = []
information.append(job['positionId']) # 岗位对应ID
information.append(job['city']) # 岗位对应城市
information.append(job['companyFullName']) # 公司全名
information.append(job['companyLabelList']) # 福利待遇
information.append(job['district']) # 工作地点
information.append(job['education']) # 学历要求
information.append(job['firstType']) # 工作类型
information.append(job['formatCreateTime']) # 发布时间
information.append(job['positionName']) # 职位名称
information.append(job['salary']) # 薪资
information.append(job['workYear']) # 工作年限
info_list.append(information)
return info_list
def main():
page = int(input('请输入你要抓取的页码总数:'))
info_result = []
title = ['岗位id', '城市', '公司全名', '福利待遇', '工作地点', '学历要求', '工作类型', '发布时间', '职位名称', '薪资', '工作年限']
info_result.append(title)
for x in range(1, page + 1):
url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
datas = {
'first': 'false',
'pn': x,
'kd': 'devops工程师',
}
try:
info = FetchData(url, datas)
info_result = info_result + info
print("第%s页数据已采集" % x)
except Exception as msg:
print("第%s页数据采集出现问题" % x)
# 创建workbook,即excel
workbook = xlwt.Workbook(encoding='utf-8')
# 创建表,第二参数用于确认同一个cell单元是否可以重设值
worksheet = workbook.add_sheet(datas["kd"], cell_overwrite_ok=True)
for i, row in enumerate(info_result):
# print(row)
for j, col in enumerate(row):
worksheet.write(i, j, col)
workbook.save('data.xls')
if __name__ == '__main__':
main()
当我们需要查看某个岗位的时候,我们只需要在58
行处修改岗位的名称即可,然后输入你要采集多少页的数据即可,这样很快就会将数据采集并且存储在Excel表中
数据显示
数据基本上完成采集,当然对于自己有需要的话,还可以继续完善啊