数据分析案例-数据分析师岗位招聘信息可视化

简介: 数据分析案例-数据分析师岗位招聘信息可视化

1.数据集介绍


本次实验数据集来源于xx招聘网中关于数据分析师相关岗位的招聘信息,共计1600条数据,每条招聘信息包括岗位名称、公司、薪资、城市、工作类型、学历要求、工作经验要求等共51个字段。


2.实验工具


python3.10


jupyter notebook


3.实验过程


3.1加载数据


首先导入本次实验用到的第三方库并读取数据


查看数据大小


查看数据基本信息


3.2数据预处理


筛选出有价值可分析的变量


统计缺失值情况


删除缺失值


检测数据是存在重复值,若存在则删除


处理薪资范围,转化为平均薪资


3.3数据可视化


3.3.1工作经验要求

# 工作经验要求
df1 = df['workYear'].value_counts()
a1 = Pie(init_opts=opts.InitOpts(theme = ThemeType.DARK))
a1.add(series_name='工作经验要求',
        data_pair=[list(z) for z in zip(df1.index.to_list(),df1.values.tolist())],
        radius='70%',
        )
a1.set_global_opts(title_opts=opts.TitleOpts(title="工作经验要求占比",
                    pos_left='center',
                    pos_top=30))
a1.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} <br/>{b}:{c} ({d}%)'))
a1.render_notebook()


可看出绝大部分都是要求5年以内,不限的很少。


3.3.2学历要求

# 学历要求
df2 = df['education'].value_counts()
a2 = Pie(init_opts=opts.InitOpts(theme = ThemeType.CHALK))
a2.add(series_name='学历要求',
        data_pair=[list(z) for z in zip(df2.index.to_list(),df2.values.tolist())],
        radius='70%',
        )
a2.set_global_opts(title_opts=opts.TitleOpts(title="学历要求占比",
                    pos_left='center',
                    pos_top=30))
a2.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} <br/>{b}:{c} ({d}%)'))
a2.render_notebook()


学历方面绝大部分都是本科以上即可。


3.3.3公司规模

# 公司规模
df3 = df['companySize'].value_counts()
a3 = Pie(init_opts=opts.InitOpts(theme = ThemeType.ESSOS))
a3.add(series_name='公司规模',
        data_pair=[list(z) for z in zip(df3.index.to_list(),df3.values.tolist())],
        radius='70%',
        )
a3.set_global_opts(title_opts=opts.TitleOpts(title="公司规模占比",
                    pos_left='center',
                    pos_top=30))
a3.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} <br/>{b}:{c} ({d}%)'))
a3.render_notebook()


公司人数规模方面主要集中在500人以上,以中大厂为集中。


3.3.4不同城市的岗位数量

# 分析不同城市的岗位数量
df['city'].value_counts()[::-1].plot(kind='barh')
plt.xlabel('数量')
plt.ylabel('城市')
plt.title('不同城市的岗位数量')
plt.show()


可以看出数据分析相关岗位数量最多的是北上深广等沿海城市。


3.3.5岗位需求量最高的前十名公司

# 分析岗位需求量最高的前十名公司
df['companyShortName'].value_counts().head(10)[::-1].plot(kind='barh')
plt.xlabel('数量')
plt.title('岗位需求量最高的前十名公司')
plt.show()


岗位需求量最多是腾讯、拼多多等互联网企业。


3.3.6平均薪资的分布情况

# 分析平均薪资的分布情况
sns.distplot(df['avg_salary'])
plt.show()


从分布图看出平均薪资主要在10000-30000之间。


3.3.7校招和社招的占比

# 分析校招和社招的占比
sns.countplot(data=df,x='isSchoolJob')
plt.xticks([0,1],labels=['社招','校招'])
plt.show()


绝大多数都是社招,校招占据极少数。


3.3.8不同工作年龄的平均薪资差异

# 分析不同工作年龄的平均薪资差异
sns.barplot(data=df,y='avg_salary',x='workYear')
plt.show()


除了不限以外,平均薪资都是随着工作经验年数的增加而增加。


3.3.9不同城市的平均薪资


# 不同城市的平均薪资
df.groupby('city').mean()['avg_salary'].plot(kind='barh')
plt.xlabel('平均薪资')
plt.title('不同城市的平均薪资')
plt.show()

 


可以看出北京上海杭州深圳平均薪资都在20k左右。


3.3.10公司福利词云图

# 分析公司福利词云图
from pyecharts.charts import WordCloud
import collections
result_list = []
for i in data['companyLabelList'].values:
    for j in eval(i):
        result_list.append(j)
word_counts = collections.Counter(result_list)
word_counts_top = word_counts.most_common(100)
print(word_counts_top)
wc = WordCloud()
wc.add('',word_counts_top)
wc.render_notebook()


可以看出带薪年假和绩效奖金是最多的福利。


3.3.11分析哪种行业最火

# 分析那种行业最火
from pyecharts.charts import WordCloud
import collections
result_list = []
for i in data['industryField'].values:
    word_list = str(i).split(',')
    for j in word_list:
        result_list.append(j)
word_counts = collections.Counter(result_list)
word_counts_top = word_counts.most_common(100)
print(word_counts_top)
wc = WordCloud()
wc.add('',word_counts_top)
wc.render_notebook()


可以看出移动互联网、电商、数据服务、金融行业等比较火。


3.3.12数据分析岗位需要的技能

# 分析数据分析岗位需要的技能
from pyecharts.charts import WordCloud
import collections
result_list = []
for i in data['skillLables'].values:
    for j in eval(i):
        result_list.append(j)
word_counts = collections.Counter(result_list)
word_counts_top = word_counts.most_common(100)
print(word_counts_top)
wc = WordCloud()
wc.add('',word_counts_top)
wc.render_notebook()


可以看出SQL、可视化、BI、Python、Hadoop、Hive等都是数据分析师必备的重要技能。


4.总结


 本次通过对数据分析师相关岗位的分析,我们发现数据分析相关岗位主要集中在北上广深等城市,以中大厂为主,经验要求以1-5年为主,学历以本科以上为主,平均薪资在15k左右,技能方面以SQL、可视化、BI、Python、Hadoop、Hive为主。


心得与体会:


通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。


在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。首先,它锻炼了我做项目的潜力,提高了独立思考问题、自我动手操作的潜力,在工作的过程中,复习了以前学习过的知识,并掌握了一些应用知识的技巧等


在此次实战中,我还学会了下面几点工作学习心态:


1)继续学习,不断提升理论涵养。在信息时代,学习是不断地汲取新信息,获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后,我会用心响应单位号召,结合工作实际,不断学习理论、业务知识和社会知识,用先进的理论武装头脑,用精良的业务知识提升潜力,以广博的社会知识拓展视野。

2)努力实践,自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值,也只有将理论付诸于实践才能使理论得以检验。同样,一个人的价值也是透过实践活动来实现的,也只有透过实践才能锻炼人的品质,彰显人的意志。

3)提高工作用心性和主动性。实习,是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土,也分明感受到了沉甸甸的职责。在今后的工作和生活中,我将继续学习,深入实践,不断提升自我,努力创造业绩,继续创造更多的价值。

这次Python实战不仅仅使我学到了知识,丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中,为实现理想而努力。

目录
相关文章
|
1月前
|
数据采集 数据可视化 数据挖掘
基于Python的数据分析与可视化实战
本文将引导读者通过Python进行数据分析和可视化,从基础的数据操作到高级的数据可视化技巧。我们将使用Pandas库处理数据,并利用Matplotlib和Seaborn库创建直观的图表。文章不仅提供代码示例,还将解释每个步骤的重要性和目的,帮助读者理解背后的逻辑。无论你是初学者还是有一定基础的开发者,这篇文章都将为你提供有价值的见解和技能。
104 0
|
11天前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析和可视化
【10月更文挑战第33天】本文将介绍如何使用Python编程语言进行数据分析和可视化。我们将从数据清洗开始,然后进行数据探索性分析,最后使用matplotlib和seaborn库进行数据可视化。通过阅读本文,你将学会如何运用Python进行数据处理和可视化展示。
|
1月前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据处理与可视化——以气温数据分析为例
【10月更文挑战第12天】使用Python进行数据处理与可视化——以气温数据分析为例
187 0
|
1月前
|
数据采集 数据可视化 数据挖掘
Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
【10月更文挑战第3天】Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
91 0
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
49 0
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
ChatGPT在数据分析岗位了解阶段的应用
ChatGPT在数据分析岗位了解阶段的应用
|
2月前
|
机器学习/深度学习 存储 数据可视化
数据分析和可视化
数据分析和可视化
|
2月前
|
数据采集 传感器 数据可视化
利用Python进行数据分析与可视化
【9月更文挑战第11天】在数字化时代,数据已成为企业决策和科学研究的关键。本文将引导读者了解如何使用Python这一强大的工具进行数据分析和可视化,帮助初学者理解数据处理的流程,并掌握基本的可视化技术。通过实际案例,我们将展示如何从原始数据中提取信息,进行清洗、处理,最终以图形方式展现结果,使复杂的数据变得直观易懂。
|
3月前
|
JSON 数据挖掘 API
案例 | 用pdpipe搭建pandas数据分析流水线
案例 | 用pdpipe搭建pandas数据分析流水线
|
3月前
|
SQL 数据可视化 数据挖掘
SQL 在数据分析中简直太牛啦!从数据提取到可视化,带你领略强大数据库语言的神奇魅力!
【8月更文挑战第31天】在数据驱动时代,SQL(Structured Query Language)作为强大的数据库查询语言,在数据分析中扮演着关键角色。它不仅能够高效准确地提取所需数据,还能通过丰富的函数和操作符对数据进行清洗与转换,确保其适用于进一步分析。借助 SQL 的聚合、分组及排序功能,用户可以从多角度深入分析数据,为企业决策提供有力支持。尽管 SQL 本身不支持数据可视化,但其查询结果可轻松导出至 Excel、Python、R 等工具中进行可视化处理,帮助用户更直观地理解数据。掌握 SQL 可显著提升数据分析效率,助力挖掘数据价值。
69 0