IT职场新人选python,go还是java？用数据来说话-阿里云开发者社区

IT职场新人选python,go还是java？用数据来说话

2019-05-15 2193

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 最近有读者在后台问，刚参加工作，想选一个职业方法，问我现在python很火，但是貌似就业机会不是很多，所以比较纠结现在到底是学python,go还是java. 所以我就想我们能不能用数据说话，看看python,go,java这三种热门语言，到底在市场上什么行情。

最近有读者在后台问，刚参加工作，想选一个职业方法，问我现在python很火，但是貌似就业机会不是很多，所以比较纠结现在到底是学python,go还是java. 所以我就想我们能不能用数据说话，看看python,go,java这三种热门语言，到底在市场上什么行情。

说到分析，那我们要先拿到数据，这次的数据还是来自我们的爬虫好伙伴，拉勾网，我们各抓取了这三种语言的市场行情数据来分析，话不多说，我们看看怎么去爬取数据和分析。

首先来说老套路，右击网页----->检查------>network抓包（因为拉勾网是异步加载）

1.requests请求数据

点击python搜索页，打开network抓包，我们看看下面的图片

我们可以看到这次的请求模式是post请求，而不是get请求，这点要注意，所以我们代码是请求页面的时候要使用requests.post来请求

这里还有一点要注意，我们看到post请求下面还有一条请求，我们可以看看，它是什么

可以看到这是一个get请求，可能我们会忽略这点，如果忽略了这个get请求，我们在后面的代码执行时会遇到麻烦，这是拉钩的一种反爬手段，我们如果采用原来的固定cookies(headers)信息去爬取数据的时候，可能只能爬个4-5页面就会出现下面的错误

{'status': False, 'msg': '您操作太频繁,请稍后再访问', 'clientIp': 'xxxxxxx', 'state': 2402}

上面的错误看起来是因为IP地址被封导致的，但是一般IP地址被封，我们用网页也是打不开的，但是这里你可以试试用网上去访问页面，其实还是可以正常访问的，所以这里应该不是IP被封的问题，这里其实是拉钩的反爬机制，他是改变了你浏览器端的cookie信息，导致你访问不了，如果你再代码里还是用原来的老套路，cookie信息是定死的，那就着了他的道了。

这其实就是上面的get请求的作用，也就是说我们的cookie信息要在代码里是动态的，用上一次访问返回的cookie信息，进行当前的页面访问，那怎么从前一个url访问后拿取cookie呢，这就要用到requests.session了，另外referer也不能少的，少了一样可能都会出现操作太频繁的回复的，这里的referer其实就是你是从哪个页面跳转来的，我们要访问的URL是"https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false", 他是一个Ajax页面，是不对外访问的，所以如果你不加referer而直接去访问这个Ajax页面，服务器肯定知道你是一个爬虫程序。

具体requests.session怎么写，我们会在下面的代码里给出。说到这里我们大概能访问到页面了。

2.分析页面，获取数据

我们可以看到下面的图片，其他这里得到数据很简单，他返回的是一个JSON类型，而且比较规范，我们稍微处理下就能得到我们想要的数据

3.代码

#coding:utf-8
"""
Created on 2019-05-13
@title: ''
@author: 南山南
公众号：pythonislover
"""

import requests
import re
from bs4 import  BeautifulSoup
import pandas as pd
import xlwt
import random
import time

base_url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'





lagou_list = []
def get_lagou(keyword,page_count):
    for i in range(page_count):

        # cookie_dict = dict()
        # s = requests.session()
        # s.cookies.update(cookie_dict)
        # print(cookie_dict)

        Myheaders = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',
            'Referer': 'https://www.lagou.com/jobs/list_java?labelWords=&fromSearch=true&suginput='
            }

        time.sleep(5)
        session = requests.session()  # 获取session
        session.headers.update(Myheaders) #更新header信息，cookies会变
        session.get("https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=")

        try:
            from_data = {
            'first': 'false',
            'pn': str(i+1),
            'kd': keyword
            }

            print('正在爬取第%s职位的%s页' %(keyword,str(i+1)))

            response = session.post(base_url,headers=Myheaders,data= from_data)
            response.encoding = 'utf-8'
            info_list = response.json()['content']['positionResult']['result']
            companyIds_list = []
            for job in info_list:
                information = []
                information.append(keyword)  # 岗位对应ID
                information.append(job['city'])  # 岗位对应城市
                information.append(job['companyFullName'])  # 公司名
                information.append(job['companySize'])  # 公司规模
                information.append(job['companyLabelList'])  # 福利待遇
                information.append(job['district'])  # 工作地点
                information.append(job['education'])  # 学历要求
                information.append(job['firstType'])  # 工作类型
                information.append(job['positionName'])  # 职位名称
                information.append(job['salary'])  # 薪资
                information.append(job['workYear'])  # 工作年限
                information.append(job['financeStage'])  # 公司发展阶段
                information.append(job['skillLables'])  # 技能要求
                lagou_list.append(information)
                companyIds_list.append(job['companyId'])
            # print(companyIds_list)
            # companyIds_str ='%2C'.join(str(s) for s in companyIds_list)
            # print(companyIds_str)
            # get_url='https://www.lagou.com/c/approve.json?companyIds='+companyIds_str
            # print(get_url)
            # res = requests.get(get_url,headers = Myheaders)
            # get_cookies = res.cookies.get_dict()


        except Exception as e:
            print('程序出错',e)
        continue

    return lagou_list


def main():
    info_result = []
    title = ['职位类型','城市','公司名','公司规模','福利待遇', '工作地点', '学历要求', '工作类型', '职位名称', '薪资', '工作年限','公司发展阶段','技能要求']
    info_result.append(title)

    #抓取python语言信息
    lagou_list_python = get_lagou('python',20)

    # 抓取java语言信息
    lagou_list_java = get_lagou('java', 20)

    # 抓取go语言信息
    lagou_list_go = get_lagou('go', 20)


    info_result.extend(lagou_list_python)
    info_result.extend(lagou_list_java)
    info_result.extend(lagou_list_go)

    # 创建workbook,即excel
    workbook = xlwt.Workbook(encoding='utf_8_sig')
    # 创建sheet,第二参数用于确认同一个cell单元是否可以重设值
    worksheet = workbook.add_sheet('lagou', cell_overwrite_ok=True)
    for i, row in enumerate(info_result):
        for j, col in enumerate(row):
            worksheet.write(i, j, col)
    workbook.save('lagou.xls')


if __name__ == '__main__':
    main()
    # get_lagou('python',2)
    # print(res)
    # df = pd.DataFrame(res)
    # df.to_csv('lagou.csv', encoding='utf_8_sig')

4.分析数据

1.薪资对比

bar = Bar("薪资分布图", "数量")
bar.add("python薪资分布", df_python['薪资'], df_python['count'], is_more_utils=True)
bar.add("java薪资分布", df_java['薪资'], df_java['count'], is_more_utils=True)
bar.add("go薪资分布", df_go['薪资'], df_go['count'], is_more_utils=True)
# bar.print_echarts_options() # 该行只为了打印配置项，方便调试时使用
bar.render('薪资分布图.html')  # 生成本地 HTML 文件

从图上大致可以看成在高薪资这块，GO语言的优势比较大，"钱途"还是有的，对于python来说，薪资分布比较均匀，各个层次的人才都需要，但是如果想拿高薪，还是需要努力的，对于java来说呢，感觉比python还低一等，也许是java的需求量比较大，平均下面，薪资就不咋的了。

2.各大中心城市职位需求量

bar = Bar("职位需求量分布图", "数量")
bar.add("python需求量分布", df_python_pos['城市'], df_python_pos['count'], is_more_utils=True)
bar.add("java需求量分布", df_java_pos['城市'], df_java_pos['count'], is_more_utils=True)
bar.add("go需求量分布", df_go_pos['城市'], df_go_pos['count'], is_more_utils=True)
# bar.print_echarts_options() # 该行只为了打印配置项，方便调试时使用
bar.render('各大城市职位需求量大致分布图.html')  # 生成本地 HTML 文件

上图我们可以看到传统的北上广深，职位需求还是远远大于其他城市（抽样数据），但是杭州，成都也是后起之秀，对于我所在的大南京，哎，不说了，哭会去。。。。，但是大城市压力也大，房价也高，如果是年轻人，可以拼几年，如果可以本地安家当然好，如果不能就老老实实回二线城市，哈哈，个人意见，勿喷。

3.学历要求

pie = Pie("各类职位中学历所占的比例", title_pos='center')
pie.add(
    "python",
    df_python_education['学历要求'],
    df_python_education['count'],
    center=[50, 70],
    radius=[20, 30],
    label_text_color=None,
    is_label_show=True,
    legend_orient="vertical",
    legend_pos="left",
)

pie.add(
    "",
    df_java_education['学历要求'],
    df_java_education['count'],
    center=[70, 70],
    radius=[20, 30],
    label_text_color=None,
    is_label_show=True,
    legend_orient="vertical",
    legend_pos="left",
)

pie.add(
    "",
    df_go_education['学历要求'],
    df_go_education['count'],
    center=[90, 70],
    radius=[20, 30],
    label_text_color=None,
    is_label_show=True,
    legend_orient="vertical",
    legend_pos="left",
)

pie.render('python学历要求分布.html')

可以看到搞IT的大多数还是本科，如果可以研究生当然更好，薪资也会更好，大家也可以自己拿数据，分析下研究生和本科生的薪资差距。

完整代码获取关注公众号：pythonislover , 回复"职位"。

IT职场新人选python,go还是java？用数据来说话

1.requests请求数据

2.分析页面，获取数据

3.代码

4.分析数据

1.薪资对比

2.各大中心城市职位需求量

3.学历要求

Python技术进阶

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

IT职场新人选python,go还是java？用数据来说话

1.requests请求数据

2.分析页面，获取数据

3.代码

4.分析数据

1.薪资对比

2.各大中心城市职位需求量

3.学历要求

Python技术进阶

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像