1.数据集介绍
本次实验数据集来源于xx招聘网中关于数据分析师相关岗位的招聘信息,共计1600条数据,每条招聘信息包括岗位名称、公司、薪资、城市、工作类型、学历要求、工作经验要求等共51个字段。
2.实验工具
python3.10
jupyter notebook
3.实验过程
3.1加载数据
首先导入本次实验用到的第三方库并读取数据
查看数据大小
查看数据基本信息
3.2数据预处理
筛选出有价值可分析的变量
统计缺失值情况
删除缺失值
检测数据是存在重复值,若存在则删除
处理薪资范围,转化为平均薪资
3.3数据可视化
3.3.1工作经验要求
# 工作经验要求 df1 = df['workYear'].value_counts() a1 = Pie(init_opts=opts.InitOpts(theme = ThemeType.DARK)) a1.add(series_name='工作经验要求', data_pair=[list(z) for z in zip(df1.index.to_list(),df1.values.tolist())], radius='70%', ) a1.set_global_opts(title_opts=opts.TitleOpts(title="工作经验要求占比", pos_left='center', pos_top=30)) a1.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} <br/>{b}:{c} ({d}%)')) a1.render_notebook()
可看出绝大部分都是要求5年以内,不限的很少。
3.3.2学历要求
# 学历要求 df2 = df['education'].value_counts() a2 = Pie(init_opts=opts.InitOpts(theme = ThemeType.CHALK)) a2.add(series_name='学历要求', data_pair=[list(z) for z in zip(df2.index.to_list(),df2.values.tolist())], radius='70%', ) a2.set_global_opts(title_opts=opts.TitleOpts(title="学历要求占比", pos_left='center', pos_top=30)) a2.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} <br/>{b}:{c} ({d}%)')) a2.render_notebook()
学历方面绝大部分都是本科以上即可。
3.3.3公司规模
# 公司规模 df3 = df['companySize'].value_counts() a3 = Pie(init_opts=opts.InitOpts(theme = ThemeType.ESSOS)) a3.add(series_name='公司规模', data_pair=[list(z) for z in zip(df3.index.to_list(),df3.values.tolist())], radius='70%', ) a3.set_global_opts(title_opts=opts.TitleOpts(title="公司规模占比", pos_left='center', pos_top=30)) a3.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} <br/>{b}:{c} ({d}%)')) a3.render_notebook()
公司人数规模方面主要集中在500人以上,以中大厂为集中。
3.3.4不同城市的岗位数量
# 分析不同城市的岗位数量 df['city'].value_counts()[::-1].plot(kind='barh') plt.xlabel('数量') plt.ylabel('城市') plt.title('不同城市的岗位数量') plt.show()
可以看出数据分析相关岗位数量最多的是北上深广等沿海城市。
3.3.5岗位需求量最高的前十名公司
# 分析岗位需求量最高的前十名公司 df['companyShortName'].value_counts().head(10)[::-1].plot(kind='barh') plt.xlabel('数量') plt.title('岗位需求量最高的前十名公司') plt.show()
岗位需求量最多是腾讯、拼多多等互联网企业。
3.3.6平均薪资的分布情况
# 分析平均薪资的分布情况 sns.distplot(df['avg_salary']) plt.show()
从分布图看出平均薪资主要在10000-30000之间。
3.3.7校招和社招的占比
# 分析校招和社招的占比 sns.countplot(data=df,x='isSchoolJob') plt.xticks([0,1],labels=['社招','校招']) plt.show()
绝大多数都是社招,校招占据极少数。
3.3.8不同工作年龄的平均薪资差异
# 分析不同工作年龄的平均薪资差异 sns.barplot(data=df,y='avg_salary',x='workYear') plt.show()
除了不限以外,平均薪资都是随着工作经验年数的增加而增加。
3.3.9不同城市的平均薪资
# 不同城市的平均薪资 df.groupby('city').mean()['avg_salary'].plot(kind='barh') plt.xlabel('平均薪资') plt.title('不同城市的平均薪资') plt.show()
可以看出北京上海杭州深圳平均薪资都在20k左右。
3.3.10公司福利词云图
# 分析公司福利词云图 from pyecharts.charts import WordCloud import collections result_list = [] for i in data['companyLabelList'].values: for j in eval(i): result_list.append(j) word_counts = collections.Counter(result_list) word_counts_top = word_counts.most_common(100) print(word_counts_top) wc = WordCloud() wc.add('',word_counts_top) wc.render_notebook()
可以看出带薪年假和绩效奖金是最多的福利。
3.3.11分析哪种行业最火
# 分析那种行业最火 from pyecharts.charts import WordCloud import collections result_list = [] for i in data['industryField'].values: word_list = str(i).split(',') for j in word_list: result_list.append(j) word_counts = collections.Counter(result_list) word_counts_top = word_counts.most_common(100) print(word_counts_top) wc = WordCloud() wc.add('',word_counts_top) wc.render_notebook()
可以看出移动互联网、电商、数据服务、金融行业等比较火。
3.3.12数据分析岗位需要的技能
# 分析数据分析岗位需要的技能 from pyecharts.charts import WordCloud import collections result_list = [] for i in data['skillLables'].values: for j in eval(i): result_list.append(j) word_counts = collections.Counter(result_list) word_counts_top = word_counts.most_common(100) print(word_counts_top) wc = WordCloud() wc.add('',word_counts_top) wc.render_notebook()
可以看出SQL、可视化、BI、Python、Hadoop、Hive等都是数据分析师必备的重要技能。
4.总结
本次通过对数据分析师相关岗位的分析,我们发现数据分析相关岗位主要集中在北上广深等城市,以中大厂为主,经验要求以1-5年为主,学历以本科以上为主,平均薪资在15k左右,技能方面以SQL、可视化、BI、Python、Hadoop、Hive为主。
心得与体会:
通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。
在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。首先,它锻炼了我做项目的潜力,提高了独立思考问题、自我动手操作的潜力,在工作的过程中,复习了以前学习过的知识,并掌握了一些应用知识的技巧等
在此次实战中,我还学会了下面几点工作学习心态:
1)继续学习,不断提升理论涵养。在信息时代,学习是不断地汲取新信息,获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后,我会用心响应单位号召,结合工作实际,不断学习理论、业务知识和社会知识,用先进的理论武装头脑,用精良的业务知识提升潜力,以广博的社会知识拓展视野。
2)努力实践,自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值,也只有将理论付诸于实践才能使理论得以检验。同样,一个人的价值也是透过实践活动来实现的,也只有透过实践才能锻炼人的品质,彰显人的意志。
3)提高工作用心性和主动性。实习,是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土,也分明感受到了沉甸甸的职责。在今后的工作和生活中,我将继续学习,深入实践,不断提升自我,努力创造业绩,继续创造更多的价值。
这次Python实战不仅仅使我学到了知识,丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中,为实现理想而努力。