用爬虫分析互联网大数据行业薪资情况

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 随着互联网大数据行业的日渐兴盛,越来越多的人投身其中,也有很多的朋友对此有着浓厚的兴趣,想要投身其中。从本期开始我们将分四期带大家走进互联网大数据行业,分别了解数据挖掘&机器学习、数据分析、算法&深度学习、数据产品经理这四个不同的与大数据相关的职位。

前言:
随着互联网大数据行业的日渐兴盛,越来越多的人投身其中,也有很多的朋友对此有着浓厚的兴趣,想要投身其中。从本期开始我们将分四期带大家走进互联网大数据行业,分别了解数据挖掘&机器学习、数据分析、算法&深度学习、数据产品经理这四个不同的与大数据相关的职位。

数据来源:
我们未来四期的数据主要来源于拉勾网,目前比较火的招聘网站猎聘、boss直聘、拉勾都有比较多的互联网职位介绍。我们基于以下几点原因选择拉勾:1.薪资大多有直接的范围,较少为面议 2. 企业数量较全,基本上涵盖了互联网相关公司 3.url地址相对比较规整,方便进行批量爬取。数据展示页面如下:

image

该部分使用Python中Selenium爬取,部分代码如下:

while
 
True
:
        
try
:
            
for
 j 
in
 range(
15
):
                xpath = 
'//*[@id="s_position_list"]/ul/li['
+str(j+
1
)+
']'
                a = driver.find_element_by_xpath(xpath)
                job_desc.append(a.text)
                job_code.append(a.find_element_by_class_name(
'position_link'
                                ).get_attribute(
'data-lg-tj-cid'
))
            js=
"var q=document.documentElement.scrollTop=10000"
  
            driver.execute_script(js)
            driver.find_element_by_class_name(
'pager_next'
).click()
        
except
:
            
break

薪资情况:
我们将从多个角度去了解大家所关注的薪资情况,首先看一下各个城市的机会多少与平均月薪,如下图(气泡大小表示职位数量,柱形图高度表示平均月薪):

image

可以看到,排名第八的武汉职位数量已经是北京的四十分之一了,排名靠后的城市职位数量小于20个。这一定程度体现了数据挖掘&机器学习职位在北上广深杭的集中性,除了五大城市之外,成都、南京、武汉未来也有着无限潜力。
下面看一下不同的工作经验所对应的职位数量与薪资情况:

image

可以看到拉勾网上大多的工作机会是针对于有工作经验的求职者。3年、5年工作经验也成为了两个比较重要的门槛,薪资会有明显的提示,这样说明了企业对于经验的看重
下面看一企业对于学历的要求:

image

需要注意的是,拉勾网上的学历要求为最低要求,实际工作中大家的平均学历会远高于图上所显示的。
我们来结合城市和经验看一下不同城市工作经验的提升对薪资的提升幅度:

image

北京在各个工作经验层面的薪资均处于全国领先位置,这也表明了帝都互联网中心的地位。在工作经验5-10年的对比上,广州的涨幅落后于其他几大城市,有在广州工作的朋友可以与我们分享下,这是否具有一定的现实性。
各大公司拉勾网提供平均月薪:

image

我们选取了在拉勾网上提供职位最多的十五家公司,BAT&TMD均在其中,也包括了搜狗、微博、网易这些知名互联网公司。出人意料的是提供职位薪资最高的是新浪微博,众所周知,一个企业内的实际平均薪资情况十分复杂,上述数据也只是其在拉勾网上放出职位的情况,仅供参考。
以上图表我们使用ggplot绘制,代码如下(以公司薪资图为例):

ggplot(company_com,aes(x=reorder(company,-salary),y=salary,fill=
as
.character(rep(
1
:
5
,each=
3
))))+
  geom_bar(stat=
'identity'
)+
  geom_text(aes(label=round(salary,
2
),y= salary+
1
),size=
5
)+
  theme_wsj()+
  scale_fill_wsj()+
  scale_color_wsj()+
  ggtitle(
'各类公司拉勾网职位平均月薪(K)'
)+
  theme(axis.text.x = element_text(size=
12
),
        axis.text.y = element_blank(),
        plot.title = element_text(hjust=
0.5
,size=
25
),
        legend.position=
'none'
,
        panel.grid = element_blank(),
        axis.title  = element_blank(),
        axis.text = element_text(face=
'bold'
,hjus=
0.8
,size=
10
,angle=
15
)
  )

期望月薪计算:
我们用线性回归模型,简易地帮助大家计算一下所可以期待的薪资情况(数据为月薪,单位为K),我们仅选取了经验、城市、学历三个因素,并没有考虑交互项、高次项等因素,结果仅供参考,实际情况要复杂很多:

image

所需技能&福利:
想要得到不错的年薪,除了上述一些硬件条件,个人所掌握的实际技能实际上会起到更加重要的作用,我们就来看一下入职数据挖掘&机器学习所需掌握的技能:

image

顺利入职之后,我们又可以得到什么样的福利呢,可以看一下下图:

image

原文发布时间为:2018-07-19
本文作者:数据森麟
本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
24天前
|
数据可视化 搜索推荐 大数据
基于python大数据的北京旅游可视化及分析系统
本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。
|
1月前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
229 4
|
30天前
|
JSON 大数据 API
巧用苏宁易购 API,精准分析苏宁易购家电销售大数据
在数据驱动的电商时代,精准分析销售数据能助力企业优化库存、提升营销效果。本文详解如何利用苏宁易购API获取家电销售数据,结合Python进行数据清洗与统计分析,实现销量预测与洞察提取,帮助企业降本增效。
43 0
|
6天前
|
存储 SQL 分布式计算
终于!大数据分析不用再“又要快又要省钱”二选一了!Dataphin新功能太香了!
Dataphin推出查询加速新功能,支持用StarRocks等引擎直连MaxCompute或Hadoop查原始数据,无需同步、秒级响应。数据只存一份,省成本、提效率,权限统一管理,打破“又要快又要省”的不可能三角,助力企业实现分析自由。
92 49
|
11天前
|
数据采集 数据可视化 关系型数据库
基于python大数据的电影数据可视化分析系统
电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。
|
11天前
|
数据采集 存储 弹性计算
高并发Java爬虫的瓶颈分析与动态线程优化方案
高并发Java爬虫的瓶颈分析与动态线程优化方案
|
1月前
|
数据采集 存储 JSON
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
|
20天前
|
数据可视化 大数据 数据挖掘
基于python大数据的招聘数据可视化分析系统
本系统基于Python开发,整合多渠道招聘数据,利用数据分析与可视化技术,助力企业高效决策。核心功能包括数据采集、智能分析、可视化展示及权限管理,提升招聘效率与人才管理水平,推动人力资源管理数字化转型。
|
23天前
|
机器学习/深度学习 搜索推荐 算法
基于python大数据的口红商品分析与推荐系统
本研究基于Python大数据技术,构建口红商品分析与推荐系统,旨在解决口红市场产品同质化与消费者选择困难问题。通过分析颜色、质地、价格等多维度数据及用户行为,实现个性化推荐,提升购物体验与品牌营销效率,推动美妆行业数字化转型,具有重要现实意义与市场价值。
|
30天前
|
数据采集 存储 数据可视化
Python网络爬虫在环境保护中的应用:污染源监测数据抓取与分析
在环保领域,数据是决策基础,但分散在多个平台,获取困难。Python网络爬虫技术灵活高效,可自动化抓取空气质量、水质、污染源等数据,实现多平台整合、实时更新、结构化存储与异常预警。本文详解爬虫实战应用,涵盖技术选型、代码实现、反爬策略与数据分析,助力环保数据高效利用。
103 0