python脚本分析拉钩网站招聘信息-阿里云开发者社区

python脚本分析拉钩网站招聘信息

2022-06-24 156

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 学习xlwt和requests的模块爬取数据

Python脚本分析拉钩招聘网站职位

场景

最近发现一些朋友想要跳槽，正值疫情，也不知道现在市场的如何，同时目前的IT行业更是越来越难,技术革新越来越快，对新的岗位的需求也是不断的变化，因此就会想知道现在的应聘岗位对面试者的要求有哪些，各地的某个岗位薪资范围大概是多少等信息时候，我们就需要到某个招聘网站上不断的刷页面，看数据，但是简单的想一下，可以通过Python脚本来批量的分析招聘网站上各个岗位在不同城市的需求，高效的快捷的方便我们掌握大致的方向。

实现

如何获取数据，需要掌握基本的Python爬虫知识，requests模块就可以搞定了，在爬取数据之后，将其存在Excel中，因此需要xlwt模块处理，当然在诸多的Python模块中，你可以选择你喜欢的，毕竟能抓老鼠的猫都是好猫。

xlwt                   1.3.0 
requests               2.18.4

下面我们就拿拉钩网站为例，思考和获取部分的数据作为个人简单的分析参考，脚本中没有涉及到隐私数据信息，大可放心，同时也是为了找工作的小伙伴们提供一下参考的方向：

注意：

脚本中获取的是通过指定的页的数量获取全国各城市的岗位信息，你可以修改FetchData方法中的referer和请求地址中城市的值，以便获取你需要的目标城市的岗位信息
如果获取的比较频繁的话，可能会出现以下情况，这里你可以通过设置代理的方式解决，免费的代理IP网站上有很多，你可以参考这篇获取代理的文章。

在交互式输入需要获取的页数之后，爬取的数据将会存储在当前执行位置下的data.xls。

下面就简单的提供一下写好的Python脚本：

#!/usr/bin/env python3.4
# encoding: utf-8
"""
Created on 2020-06-26
@title: '爬去网站的招聘信息'
@author: marionxue
"""

import requests
import xlwt


# 获取存储职位信息的json对象，遍历获得公司名、福利待遇、工作地点、学历要求、工作类型、发布时间、职位名称、薪资、工作年限
def FetchData(url, datas):
    my_headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36",
        "Referer": "https://www.lagou.com/jobs/list_Python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=",
        "Content-Type": "application/x-www-form-urlencoded;charset = UTF-8"
    }

    ses = requests.session()  # 获取session
    ses.headers.update(my_headers)  # 更新头部信息

    ses.get("https://www.lagou.com/jobs/list_%E9%83%91%E5%B7%9Ejava?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=")
    content = ses.post(url=url, data=datas)
    result = content.json()
    info = result['content']['positionResult']['result']
    info_list = []
    for job in info:
        information = []
        information.append(job['positionId'])  # 岗位对应ID
        information.append(job['city'])  # 岗位对应城市
        information.append(job['companyFullName'])  # 公司全名
        information.append(job['companyLabelList'])  # 福利待遇
        information.append(job['district'])  # 工作地点
        information.append(job['education'])  # 学历要求
        information.append(job['firstType'])  # 工作类型
        information.append(job['formatCreateTime'])  # 发布时间
        information.append(job['positionName'])  # 职位名称
        information.append(job['salary'])  # 薪资
        information.append(job['workYear'])  # 工作年限
        info_list.append(information)

    return info_list


def main():
    page = int(input('请输入你要抓取的页码总数：'))

    info_result = []
    title = ['岗位id', '城市', '公司全名', '福利待遇', '工作地点', '学历要求', '工作类型', '发布时间', '职位名称', '薪资', '工作年限']
    info_result.append(title)
    for x in range(1, page + 1):
        url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
        datas = {
            'first': 'false',
            'pn': x,
            'kd': 'devops工程师',
        }
        try:
            info = FetchData(url, datas)
            info_result = info_result + info
            print("第%s页数据已采集" % x)
        except Exception as msg:
            print("第%s页数据采集出现问题" % x)

        # 创建workbook,即excel
        workbook = xlwt.Workbook(encoding='utf-8')
        # 创建表,第二参数用于确认同一个cell单元是否可以重设值
        worksheet = workbook.add_sheet(datas["kd"], cell_overwrite_ok=True)
        for i, row in enumerate(info_result):
            # print(row)
            for j, col in enumerate(row):
                worksheet.write(i, j, col)
        workbook.save('data.xls')


if __name__ == '__main__':
    main()

当我们需要查看某个岗位的时候，我们只需要在58行处修改岗位的名称即可，然后输入你要采集多少页的数据即可，这样很快就会将数据采集并且存储在Excel表中

数据显示

数据基本上完成采集，当然对于自己有需要的话，还可以继续完善啊

python脚本分析拉钩网站招聘信息

Python脚本分析拉钩招聘网站职位

场景

实现

数据显示

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

python脚本分析拉钩网站招聘信息

Python脚本分析拉钩招聘网站职位

场景

实现

数据显示

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像