数据分析案例-数据分析师岗位招聘信息可视化

简介: 数据分析案例-数据分析师岗位招聘信息可视化

1.数据集介绍


本次实验数据集来源于xx招聘网中关于数据分析师相关岗位的招聘信息,共计1600条数据,每条招聘信息包括岗位名称、公司、薪资、城市、工作类型、学历要求、工作经验要求等共51个字段。


2.实验工具


python3.10


jupyter notebook


3.实验过程


3.1加载数据


首先导入本次实验用到的第三方库并读取数据


查看数据大小


查看数据基本信息


3.2数据预处理


筛选出有价值可分析的变量


统计缺失值情况


删除缺失值


检测数据是存在重复值,若存在则删除


处理薪资范围,转化为平均薪资


3.3数据可视化


3.3.1工作经验要求

# 工作经验要求
df1 = df['workYear'].value_counts()
a1 = Pie(init_opts=opts.InitOpts(theme = ThemeType.DARK))
a1.add(series_name='工作经验要求',
        data_pair=[list(z) for z in zip(df1.index.to_list(),df1.values.tolist())],
        radius='70%',
        )
a1.set_global_opts(title_opts=opts.TitleOpts(title="工作经验要求占比",
                    pos_left='center',
                    pos_top=30))
a1.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} <br/>{b}:{c} ({d}%)'))
a1.render_notebook()


可看出绝大部分都是要求5年以内,不限的很少。


3.3.2学历要求

# 学历要求
df2 = df['education'].value_counts()
a2 = Pie(init_opts=opts.InitOpts(theme = ThemeType.CHALK))
a2.add(series_name='学历要求',
        data_pair=[list(z) for z in zip(df2.index.to_list(),df2.values.tolist())],
        radius='70%',
        )
a2.set_global_opts(title_opts=opts.TitleOpts(title="学历要求占比",
                    pos_left='center',
                    pos_top=30))
a2.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} <br/>{b}:{c} ({d}%)'))
a2.render_notebook()


学历方面绝大部分都是本科以上即可。


3.3.3公司规模

# 公司规模
df3 = df['companySize'].value_counts()
a3 = Pie(init_opts=opts.InitOpts(theme = ThemeType.ESSOS))
a3.add(series_name='公司规模',
        data_pair=[list(z) for z in zip(df3.index.to_list(),df3.values.tolist())],
        radius='70%',
        )
a3.set_global_opts(title_opts=opts.TitleOpts(title="公司规模占比",
                    pos_left='center',
                    pos_top=30))
a3.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} <br/>{b}:{c} ({d}%)'))
a3.render_notebook()


公司人数规模方面主要集中在500人以上,以中大厂为集中。


3.3.4不同城市的岗位数量

# 分析不同城市的岗位数量
df['city'].value_counts()[::-1].plot(kind='barh')
plt.xlabel('数量')
plt.ylabel('城市')
plt.title('不同城市的岗位数量')
plt.show()


可以看出数据分析相关岗位数量最多的是北上深广等沿海城市。


3.3.5岗位需求量最高的前十名公司

# 分析岗位需求量最高的前十名公司
df['companyShortName'].value_counts().head(10)[::-1].plot(kind='barh')
plt.xlabel('数量')
plt.title('岗位需求量最高的前十名公司')
plt.show()


岗位需求量最多是腾讯、拼多多等互联网企业。


3.3.6平均薪资的分布情况

# 分析平均薪资的分布情况
sns.distplot(df['avg_salary'])
plt.show()


从分布图看出平均薪资主要在10000-30000之间。


3.3.7校招和社招的占比

# 分析校招和社招的占比
sns.countplot(data=df,x='isSchoolJob')
plt.xticks([0,1],labels=['社招','校招'])
plt.show()


绝大多数都是社招,校招占据极少数。


3.3.8不同工作年龄的平均薪资差异

# 分析不同工作年龄的平均薪资差异
sns.barplot(data=df,y='avg_salary',x='workYear')
plt.show()


除了不限以外,平均薪资都是随着工作经验年数的增加而增加。


3.3.9不同城市的平均薪资


# 不同城市的平均薪资
df.groupby('city').mean()['avg_salary'].plot(kind='barh')
plt.xlabel('平均薪资')
plt.title('不同城市的平均薪资')
plt.show()

 


可以看出北京上海杭州深圳平均薪资都在20k左右。


3.3.10公司福利词云图

# 分析公司福利词云图
from pyecharts.charts import WordCloud
import collections
result_list = []
for i in data['companyLabelList'].values:
    for j in eval(i):
        result_list.append(j)
word_counts = collections.Counter(result_list)
word_counts_top = word_counts.most_common(100)
print(word_counts_top)
wc = WordCloud()
wc.add('',word_counts_top)
wc.render_notebook()


可以看出带薪年假和绩效奖金是最多的福利。


3.3.11分析哪种行业最火

# 分析那种行业最火
from pyecharts.charts import WordCloud
import collections
result_list = []
for i in data['industryField'].values:
    word_list = str(i).split(',')
    for j in word_list:
        result_list.append(j)
word_counts = collections.Counter(result_list)
word_counts_top = word_counts.most_common(100)
print(word_counts_top)
wc = WordCloud()
wc.add('',word_counts_top)
wc.render_notebook()


可以看出移动互联网、电商、数据服务、金融行业等比较火。


3.3.12数据分析岗位需要的技能

# 分析数据分析岗位需要的技能
from pyecharts.charts import WordCloud
import collections
result_list = []
for i in data['skillLables'].values:
    for j in eval(i):
        result_list.append(j)
word_counts = collections.Counter(result_list)
word_counts_top = word_counts.most_common(100)
print(word_counts_top)
wc = WordCloud()
wc.add('',word_counts_top)
wc.render_notebook()


可以看出SQL、可视化、BI、Python、Hadoop、Hive等都是数据分析师必备的重要技能。


4.总结


 本次通过对数据分析师相关岗位的分析,我们发现数据分析相关岗位主要集中在北上广深等城市,以中大厂为主,经验要求以1-5年为主,学历以本科以上为主,平均薪资在15k左右,技能方面以SQL、可视化、BI、Python、Hadoop、Hive为主。


心得与体会:


通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。


在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。首先,它锻炼了我做项目的潜力,提高了独立思考问题、自我动手操作的潜力,在工作的过程中,复习了以前学习过的知识,并掌握了一些应用知识的技巧等


在此次实战中,我还学会了下面几点工作学习心态:


1)继续学习,不断提升理论涵养。在信息时代,学习是不断地汲取新信息,获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后,我会用心响应单位号召,结合工作实际,不断学习理论、业务知识和社会知识,用先进的理论武装头脑,用精良的业务知识提升潜力,以广博的社会知识拓展视野。

2)努力实践,自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值,也只有将理论付诸于实践才能使理论得以检验。同样,一个人的价值也是透过实践活动来实现的,也只有透过实践才能锻炼人的品质,彰显人的意志。

3)提高工作用心性和主动性。实习,是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土,也分明感受到了沉甸甸的职责。在今后的工作和生活中,我将继续学习,深入实践,不断提升自我,努力创造业绩,继续创造更多的价值。

这次Python实战不仅仅使我学到了知识,丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中,为实现理想而努力。

目录
相关文章
|
1月前
|
数据可视化 数据挖掘 Python
python数据分析和可视化【3】体检数据分析和小费数据分析
python数据分析和可视化【3】体检数据分析和小费数据分析
45 0
|
1月前
|
数据可视化 数据挖掘 Python
python数据分析和可视化【1】
python数据分析和可视化【1】
41 0
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析与可视化
【2月更文挑战第25天】 在当今数据驱动的时代,能够有效地分析和可视化数据变得至关重要。本文将深入探讨如何运用Python语言及其强大的库,包括Pandas、NumPy、Matplotlib和Seaborn,来执行数据处理、分析以及生成直观的图表。我们将通过一个实际案例,从原始数据集的加载开始,逐步展示如何清洗、处理数据,并最终通过可视化手段洞察数据背后的故事。
|
1月前
|
数据可视化 数据挖掘 BI
python数据分析和可视化【2】鸢尾花数据分析
python数据分析和可视化【2】鸢尾花数据分析
35 0
|
10天前
|
数据采集 数据可视化 数据挖掘
SciPy在数据分析中的应用:从数据清洗到可视化
【4月更文挑战第17天】# SciPy在数据分析中的应用:从数据清洗到可视化。文章探讨了SciPy在数据清洗(使用NumPy处理缺失值和异常值)、数据分析(描述性统计和模型拟合)以及数据可视化(结合Matplotlib和Seaborn进行图表绘制)中的作用。SciPy与其他Python库结合,为完整的数据分析流程提供了强大支持。
|
10天前
|
数据采集 数据可视化 数据挖掘
Seaborn在数据分析中的应用:案例分析与实践
【4月更文挑战第17天】本文介绍了Seaborn在数据分析中的应用,它是一个基于Python的可视化库,简化了复杂数据的图表创建。通过一个销售数据分析的案例,展示了数据加载、描述性统计、相关性分析、多变量分析及高级可视化步骤。实践技巧包括数据清洗、图表选择、颜色使用、注释标签和交互性。Seaborn助力高效数据探索和理解,提升分析效率。注意,实际使用需根据数据集和目标调整,并参考最新文档。
|
11天前
|
供应链 搜索推荐 数据挖掘
Pandas实战案例:电商数据分析的实践与挑战
【4月更文挑战第16天】本文通过一个电商数据分析案例展示了Pandas在处理销售数据、用户行为分析及商品销售趋势预测中的应用。在数据准备与清洗阶段,Pandas用于处理缺失值、重复值。接着,通过用户购买行为和商品销售趋势分析,构建用户画像并预测销售趋势。实践中遇到的大数据量和数据多样性挑战,通过分布式计算和数据标准化解决。未来将继续深入研究Pandas与其他先进技术的结合,提升决策支持能力。
|
11天前
|
存储 数据可视化 数据挖掘
实战案例:Pandas在金融数据分析中的应用
【4月更文挑战第16天】本文通过实例展示了Pandas在金融数据分析中的应用。案例中,一家投资机构使用Pandas加载、清洗股票历史价格数据,删除无关列并重命名,将日期设为索引。接着,数据被可视化以观察价格走势,进行基本统计分析了解价格分布,以及计算移动平均线来平滑波动。Pandas的便捷功能在金融数据分析中体现出高效率和实用性。
|
15天前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
|
19天前
|
人工智能 数据可视化 数据挖掘
【python】Python国内GDP经济总量数据分析可视化(源码+报告)【独一无二】
【python】Python国内GDP经济总量数据分析可视化(源码+报告)【独一无二】