IT职场新人选python,go还是java?用数据来说话

简介: 最近有读者在后台问,刚参加工作,想选一个职业方法,问我现在python很火,但是貌似就业机会不是很多,所以比较纠结现在到底是学python,go还是java. 所以我就想我们能不能用数据说话,看看python,go,java这三种热门语言,到底在市场上什么行情。

最近有读者在后台问,刚参加工作,想选一个职业方法,问我现在python很火,但是貌似就业机会不是很多,所以比较纠结现在到底是学python,go还是java. 所以我就想我们能不能用数据说话,看看python,go,java这三种热门语言,到底在市场上什么行情。

说到分析,那我们要先拿到数据,这次的数据还是来自我们的爬虫好伙伴,拉勾网,我们各抓取了这三种语言的市场行情数据来分析,话不多说,我们看看怎么去爬取数据和分析。

首先来说老套路,右击网页----->检查------>network抓包(因为拉勾网是异步加载)

1.requests请求数据

点击python搜索页,打开network抓包,我们看看下面的图片

我们可以看到这次的请求模式是post请求,而不是get请求,这点要注意,所以我们代码是请求页面的时候要使用requests.post来请求

这里还有一点要注意,我们看到post请求下面还有一条请求,我们可以看看,它是什么

可以看到这是一个get请求,可能我们会忽略这点,如果忽略了这个get请求,我们在后面的代码执行时会遇到麻烦,这是拉钩的一种反爬手段,我们如果采用原来的固定cookies(headers)信息去爬取数据的时候,可能只能爬个4-5页面就会出现下面的错误

{'status': False, 'msg': '您操作太频繁,请稍后再访问', 'clientIp': 'xxxxxxx', 'state': 2402}

上面的错误看起来是因为IP地址被封导致的,但是一般IP地址被封,我们用网页也是打不开的,但是这里你可以试试用网上去访问页面,其实还是可以正常访问的,所以这里应该不是IP被封的问题,这里其实是拉钩的反爬机制,他是改变了你浏览器端的cookie信息,导致你访问不了,如果你再代码里还是用原来的老套路,cookie信息是定死的,那就着了他的道了。

这其实就是上面的get请求的作用,也就是说我们的cookie信息要在代码里是动态的,用上一次访问返回的cookie信息,进行当前的页面访问,那怎么从前一个url访问后拿取cookie呢,这就要用到requests.session了,另外referer也不能少的,少了一样可能都会出现操作太频繁的回复的,这里的referer其实就是你是从哪个页面跳转来的,我们要访问的URL是"https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false", 他是一个Ajax页面,是不对外访问的,所以如果你不加referer而直接去访问这个Ajax页面,服务器肯定知道你是一个爬虫程序。

具体requests.session怎么写,我们会在下面的代码里给出。说到这里我们大概能访问到页面了。

2.分析页面,获取数据

我们可以看到下面的图片,其他这里得到数据很简单,他返回的是一个JSON类型,而且比较规范,我们稍微处理下就能得到我们想要的数据

3.代码

#coding:utf-8
"""
Created on 2019-05-13
@title: ''
@author: 南山南
公众号:pythonislover
"""

import requests
import re
from bs4 import  BeautifulSoup
import pandas as pd
import xlwt
import random
import time

base_url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'





lagou_list = []
def get_lagou(keyword,page_count):
    for i in range(page_count):

        # cookie_dict = dict()
        # s = requests.session()
        # s.cookies.update(cookie_dict)
        # print(cookie_dict)

        Myheaders = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',
            'Referer': 'https://www.lagou.com/jobs/list_java?labelWords=&fromSearch=true&suginput='
            }

        time.sleep(5)
        session = requests.session()  # 获取session
        session.headers.update(Myheaders) #更新header信息,cookies会变
        session.get("https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=")

        try:
            from_data = {
            'first': 'false',
            'pn': str(i+1),
            'kd': keyword
            }

            print('正在爬取第%s职位的%s页' %(keyword,str(i+1)))

            response = session.post(base_url,headers=Myheaders,data= from_data)
            response.encoding = 'utf-8'
            info_list = response.json()['content']['positionResult']['result']
            companyIds_list = []
            for job in info_list:
                information = []
                information.append(keyword)  # 岗位对应ID
                information.append(job['city'])  # 岗位对应城市
                information.append(job['companyFullName'])  # 公司名
                information.append(job['companySize'])  # 公司规模
                information.append(job['companyLabelList'])  # 福利待遇
                information.append(job['district'])  # 工作地点
                information.append(job['education'])  # 学历要求
                information.append(job['firstType'])  # 工作类型
                information.append(job['positionName'])  # 职位名称
                information.append(job['salary'])  # 薪资
                information.append(job['workYear'])  # 工作年限
                information.append(job['financeStage'])  # 公司发展阶段
                information.append(job['skillLables'])  # 技能要求
                lagou_list.append(information)
                companyIds_list.append(job['companyId'])
            # print(companyIds_list)
            # companyIds_str ='%2C'.join(str(s) for s in companyIds_list)
            # print(companyIds_str)
            # get_url='https://www.lagou.com/c/approve.json?companyIds='+companyIds_str
            # print(get_url)
            # res = requests.get(get_url,headers = Myheaders)
            # get_cookies = res.cookies.get_dict()


        except Exception as e:
            print('程序出错',e)
        continue

    return lagou_list


def main():
    info_result = []
    title = ['职位类型','城市','公司名','公司规模','福利待遇', '工作地点', '学历要求', '工作类型', '职位名称', '薪资', '工作年限','公司发展阶段','技能要求']
    info_result.append(title)

    #抓取python语言信息
    lagou_list_python = get_lagou('python',20)

    # 抓取java语言信息
    lagou_list_java = get_lagou('java', 20)

    # 抓取go语言信息
    lagou_list_go = get_lagou('go', 20)


    info_result.extend(lagou_list_python)
    info_result.extend(lagou_list_java)
    info_result.extend(lagou_list_go)

    # 创建workbook,即excel
    workbook = xlwt.Workbook(encoding='utf_8_sig')
    # 创建sheet,第二参数用于确认同一个cell单元是否可以重设值
    worksheet = workbook.add_sheet('lagou', cell_overwrite_ok=True)
    for i, row in enumerate(info_result):
        for j, col in enumerate(row):
            worksheet.write(i, j, col)
    workbook.save('lagou.xls')


if __name__ == '__main__':
    main()
    # get_lagou('python',2)
    # print(res)
    # df = pd.DataFrame(res)
    # df.to_csv('lagou.csv', encoding='utf_8_sig')

4.分析数据

1.薪资对比

bar = Bar("薪资分布图", "数量")
bar.add("python薪资分布", df_python['薪资'], df_python['count'], is_more_utils=True)
bar.add("java薪资分布", df_java['薪资'], df_java['count'], is_more_utils=True)
bar.add("go薪资分布", df_go['薪资'], df_go['count'], is_more_utils=True)
# bar.print_echarts_options() # 该行只为了打印配置项,方便调试时使用
bar.render('薪资分布图.html')  # 生成本地 HTML 文件

从图上大致可以看成在高薪资这块,GO语言的优势比较大,"钱途"还是有的,对于python来说,薪资分布比较均匀,各个层次的人才都需要,但是如果想拿高薪,还是需要努力的,对于java来说呢,感觉比python还低一等,也许是java的需求量比较大,平均下面,薪资就不咋的了。

2.各大中心城市职位需求量

bar = Bar("职位需求量分布图", "数量")
bar.add("python需求量分布", df_python_pos['城市'], df_python_pos['count'], is_more_utils=True)
bar.add("java需求量分布", df_java_pos['城市'], df_java_pos['count'], is_more_utils=True)
bar.add("go需求量分布", df_go_pos['城市'], df_go_pos['count'], is_more_utils=True)
# bar.print_echarts_options() # 该行只为了打印配置项,方便调试时使用
bar.render('各大城市职位需求量大致分布图.html')  # 生成本地 HTML 文件

上图我们可以看到传统的北上广深,职位需求还是远远大于其他城市(抽样数据),但是杭州,成都也是后起之秀,对于我所在的大南京,哎,不说了,哭会去。。。。,但是大城市压力也大,房价也高,如果是年轻人,可以拼几年,如果可以本地安家当然好,如果不能就老老实实回二线城市,哈哈,个人意见,勿喷。

3.学历要求

pie = Pie("各类职位中学历所占的比例", title_pos='center')
pie.add(
    "python",
    df_python_education['学历要求'],
    df_python_education['count'],
    center=[50, 70],
    radius=[20, 30],
    label_text_color=None,
    is_label_show=True,
    legend_orient="vertical",
    legend_pos="left",
)

pie.add(
    "",
    df_java_education['学历要求'],
    df_java_education['count'],
    center=[70, 70],
    radius=[20, 30],
    label_text_color=None,
    is_label_show=True,
    legend_orient="vertical",
    legend_pos="left",
)

pie.add(
    "",
    df_go_education['学历要求'],
    df_go_education['count'],
    center=[90, 70],
    radius=[20, 30],
    label_text_color=None,
    is_label_show=True,
    legend_orient="vertical",
    legend_pos="left",
)

pie.render('python学历要求分布.html')


可以看到搞IT的大多数还是本科,如果可以研究生当然更好,薪资也会更好,大家也可以自己拿数据,分析下研究生和本科生的薪资差距。

完整代码获取关注公众号:pythonislover , 回复"职位"。

目录
相关文章
|
8月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
6463 1
|
9月前
|
人工智能 安全 Shell
Go并发编程避坑指南:从数据竞争到同步原语的解决方案
在高并发场景下,如钱包转账,数据一致性至关重要。本文通过实例演示了 Go 中如何利用 `sync.Mutex` 和 `sync.RWMutex` 解决数据竞争问题,帮助开发者掌握并发编程中的关键技能。
Go并发编程避坑指南:从数据竞争到同步原语的解决方案
|
9月前
|
机器学习/深度学习 JSON Java
Java调用Python的5种实用方案:从简单到进阶的全场景解析
在机器学习与大数据融合背景下,Java与Python协同开发成为企业常见需求。本文通过真实案例解析5种主流调用方案,涵盖脚本调用到微服务架构,助力开发者根据业务场景选择最优方案,提升开发效率与系统性能。
2056 0
|
8月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
715 0
|
10月前
|
机器学习/深度学习 新能源 调度
电力系统短期负荷预测(Python代码+数据+详细文章讲解)
电力系统短期负荷预测(Python代码+数据+详细文章讲解)
756 1
|
8月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
10月前
|
缓存 API 网络架构
淘宝item_search_similar - 搜索相似的商品API接口,用python返回数据
淘宝联盟开放平台中,可通过“物料优选接口”(taobao.tbk.dg.optimus.material)实现“搜索相似商品”功能。该接口支持根据商品 ID 获取相似推荐商品,并返回商品信息、价格、优惠等数据,适用于商品推荐、比价等场景。本文提供基于 Python 的实现示例,包含接口调用、数据解析及结果展示。使用时需配置淘宝联盟的 appkey、appsecret 和 adzone_id,并注意接口调用频率限制和使用规范。
|
8月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
9月前
|
jenkins Shell 测试技术
|
9月前
|
存储 监控 API
Python实战:跨平台电商数据聚合系统的技术实现
本文介绍如何通过标准化API调用协议,实现淘宝、京东、拼多多等电商平台的商品数据自动化采集、清洗与存储。内容涵盖技术架构设计、Python代码示例及高阶应用(如价格监控系统),提供可直接落地的技术方案,帮助开发者解决多平台数据同步难题。

推荐镜像

更多