基于Python的51job招聘数据采集与可视化项目实践

简介: 本文介绍了一个基于Python的51job招聘数据采集与可视化项目,该项目通过自动化手段获取大量招聘信息,并运用数据分析和可视化工具对就业市场进行深度分析,旨在为求职者和企业提供数据支持和决策依据。
  1. 项目背景与目标
    在当今竞争激烈的就业市场中,深入分析招聘信息对于求职者和企业都具有重要意义。基于Python的51job招聘数据采集与可视化项目旨在通过自动化手段高效获取大量招聘信息,并对这些数据进行深度分析和展示。 51job作为中国领先的招聘网站,汇集了海量的招聘信息,涵盖各行各业,提供了极为丰富的数据源。通过采集这些数据,可以帮助我们了解当前的就业市场需求,岗位分布,薪资水平等关键信息。另一方面,随着数据科学和机器学习的发展,传统的人工分析方法已经无法满足大数据分析的需求。因此,使用Python进行数据采集和分析,不仅提高了效率,还可以利用多种数据分析和可视化工具,实现对招聘信息的全面解读。 项目目标主要利用Python爬虫技术,自动从51job网站上获取招聘信息,包括职位名称、公司、地点、薪资、要求等数据。对采集到的数据进行清洗和整理,确保数据的完整性和一致性。运用Python的数据分析库(如Pandas、NumPy等)对招聘数据进行分析,挖掘出有价值的趋势和模式。使用Matplotlib、Seaborn等可视化工具,将分析结果以图表形式展示,便于直观理解和决策支持。 通过该项目,可以为求职者提供更有针对性的求职建议,为企业制定招聘策略提供数据支持,进一步促进人力资源的合理配置。

  2. 数据采集
    本项目采集51招聘网站招聘数据1400条,其中1000条存入csv,400条存入json文件。采集的网页信息如下图:

  3. 数据采集项目主要使用Python的Selenium库和BeautifulSoup库来自动化抓取51job网站的招聘信息,并将其存储到本地文件csv和json文件中。 首先,通过Selenium库启动Chrome浏览器,并设置一些选项来规避反爬虫机制。login函数负责打开51job网站,并根据输入的关键词(如"python")进行搜索。在搜索结果页面,代码通过BeautifulSoup解析网页内容,提取每个招聘信息的具体细节,如岗位名称、公司名称、薪资、城市、区县、行业、标签、企业性质、企业人数和回复情况。 在每一页的招聘信息提取完毕后,程序会点击“下一页”按钮,继续抓取下一页的内容,直到预定的页数(如5页)结束。提取的信息以字典形式存储,并使用json库将其保存到本地的51招聘.json文件中,确保每条数据都成功存入,存入json主要代码如下图。

  4. 存入csv主要代码如下图:

  5. 项目通过Selenium实现自动化浏览和操作,有效避免了手动数据收集的繁琐,同时使用BeautifulSoup进行网页解析,确保数据的准确提取。整个流程包括网页的加载、数据提取、翻页操作以及数据的本地存储,确保了数据采集的高效性和全面性。采集结果如下图:

  6. 数据处理
  • 数据集成
    数据集成主要通过以下几个步骤实现: 首先,读取两个数据源:一个JSON文件和一个CSV文件。从存储招聘信息的JSON文件和CSV文件中读取数据。利用pandas库,将这些数据转换为DataFrame格式以便于后续操作。通过json.loads逐行读取JSON文件中的招聘数据,并将其添加到一个列表中,随后使用pd.DataFrame将列表转换为数据框。接着,代码读取CSV文件中的数据,并将两个数据框通过pd.concat合并为一个。集成后数据集信息如下图。

  • 数据清洗
    通过df.drop_duplicates函数删除重复记录,并重置索引。接下来,处理缺失值和异常值。填充缺失值时,将“性质”列的缺失值填充为“未知”,然后删除所有包含缺失值的行。数据标准化方面,主要针对“薪资”列进行了单位换算,将不同格式的薪资统一转换为“万/年”的格式,并将转换后的薪资列拆分为最小值和最大值两列。数据清洗后结果如下图:

  • 数据变换
    数据变换主要通过以下几个步骤实现,以便将原始数据转换为可分析的格式: 针对薪资数据,定义了一个convert_salary函数,用于将各种格式的薪资统一转换为“万/年”。这个函数处理不同单位(如“万”、“千”、“元/天”)的薪资,并进行相应的换算和格式转换。转换后的薪资数据被拆分为最小值和最大值两列,以便后续分析,薪资数据变换结果如下图:

    行业数据也进行了分词和统计。通过将“行业”列中的数据按“/”分割,统计每个行业的频次,生成一个包含行业和其对应频次的字典。

  • 数据规约
    数据规约的实现旨在减少数据量,同时保留数据的主要特征,以便提高分析和处理的效率。数据规约具体实现如下: 1、通过删除重复数据来减少数据量。利用drop_duplicates方法,依据‘公司’和‘岗位名’两个字段去重,并重置索引。 df.drop_duplicates(subset=['公司', '岗位名'], inplace=True) df.reset_index(drop=True, inplace=True) 2、删除缺失值较多的记录。在处理缺失值时,先将“性质”列的缺失值填充为“未知”,然后删除所有包含其他缺失值的行,从而减少不完整数据的影响。 df['性质'].fillna('未知', axis=0, inplace=True) df.dropna(axis=0, inplace=True) 3、通过单位换算,将不同单位的薪资数据统一转换为“万/年”的格式,并将转换后的薪资列拆分为最小值和最大值两列。这不仅标准化了数据格式,还减少了数据的复杂性。 df['薪资_g'] = df['薪资'].apply(convert_salary) df['薪资_g'] = df['薪资_g'].str.replace('万/年', '') df['薪资_min'] = df['薪资_g'].str.split('-', expand=True)[0].astype('float').round(1) df['薪资_max'] = df['薪资_g'].str.split('-', expand=True)[1].astype('float').round(1) 4、对冗余信息进行规约,例如通过合并标签中的重复项,实现对标签列的简化。 df['标签'] = df['标签'].apply(lambda x: ' '.join(set(x.split('-'))))

    8. 数据分析与可视化
    (1)词云图实现 实现词云图需要几个关键步骤,从文本准备到图像生成。下面详细描述了如何使用 stylecloud 库来生成词云图: 步骤一:安装必要的库 安装 stylecloud 和其他必要的库 步骤二:准备文本数据 首先,准备好生成词云的文本数据。从 DataFrame 中提取了标签并将其组合成一个文本字符串 text: # 将标签列表转换为文本 text = ' '.join(df['标签'].tolist()) 这一步将所有标签合并为一个字符串,生成词云时会根据词频来决定每个词的大小和位置。 步骤三:生成词云图 使用 stylecloud 库生成词云图非常简单。需要指定文本、字体路径、颜色、图标以及背景颜色等参数。代码如下: import stylecloud # 指定字体文件路径 font_path = 'simhei.ttf' # 使用本地的黑体字体文件 # 使用 stylecloud 生成词云图 stylecloud.gen_stylecloud( text=text, # 文本数据 font_path=font_path, # 字体路径 palette='cartocolors.qualitative.Bold_5', # 颜色方案 max_font_size=100, # 最大字体大小 icon_name='fas fa-yen-sign', # 图标形状 background_color='#f4f4f4', # 背景颜色 output_name='福利.jpg' # 输出文件名 ) 参数解释: text: 输入的文本数据,将会用于生成词云。 font_path: 字体文件路径,simhei.ttf 是常用的中文字体。 palette: 颜色方案,cartocolors.qualitative.Bold_5 是一个颜色方案的名字,可以根据需要调整。 max_font_size: 最大字体大小,控制词云中最大词的大小。 icon_name: 词云的形状,这里使用的是“人民币符号”,你可以更换为其他图标,例如 'fas fa-heart' (爱心)。 background_color: 词云图的背景颜色。 output_name: 输出文件的名称和格式。 步骤四:保存和查看词云图 词云图生成后,会自动保存为指定名称的文件(如 '福利.jpg')。可以在输出文件中查看词云效果。如下图:

(2)招聘数量前20的区县数据柱形图实现 数据分组与统计: df.groupby('区县')['链接'].count() 对区县进行分组,统计每个区县的招聘链接数。 排序与选取: reset_index() 重置索引,sort_values(by='链接', ascending=False) 按招聘数量降序排列,取前20个数据。 柱形图绘制: plt.bar(x_data, y_data, color='skyblue') 绘制柱形图,设置柱形颜色为浅蓝色。 标题与标签: plt.title、plt.xlabel和plt.ylabel 添加标题和轴标签,明确图表内容。 这种方法清晰地展示了招聘数量最多的前20个区县,有助于了解招聘热点地区。如下图:

(3)不同公司性质招聘数量分布实现 实现不同公司性质招聘数量分布,主要步骤包括数据分组、统计数量、绘制饼图等。数据分组与统计: df.groupby('性质')['链接'].count() 对公司性质进行分组,统计每种公司性质的招聘链接数量。 排序与重置索引: reset_index() 重置索引,sort_values(by='链接', ascending=False) 按招聘数量降序排列。 饼图绘制: plt.pie 绘制饼图,labels 参数设置标签,autopct 参数显示百分比,colors 参数设置颜色。 文本属性和标签距离: textprops={'fontsize': 12} 设置文本字体大小,labeldistance=1.05 设置标签距离。 图例与标题: plt.legend(fontsize=5) 添加图例并设置字体大小,plt.title 添加标题并设置字体大小。 通过这些步骤,生成了一个展示不同公司性质招聘数量分布的饼图,直观显示各类型公司在招聘市场中的占比。如下图:

15. 总结与展望

总结

在本项目中,我们通过Python实现了51job招聘数据的采集与可视化,数据采集方面,使用json库逐行读取JSON文件,将招聘评论数据存储在列表中,并转换为Pandas DataFrame。使用pandas.read_csv读取CSV文件,并合并两种数据源,保证数据的完整性。数据处理方面, 对数据进行去重、缺失值填补和处理。特别是对薪资字段进行单位转换,确保数据的一致性。 提取并处理招聘信息的关键特征,包括薪资、行业、城市分类等。使用正则表达式和自定义函数处理薪资数据。数据分析与可视化方面, 使用词云图展示招聘行业的分布情况,利用stylecloud库生成形象化的词云。分类和比较不同城市和行业的薪资水平,帮助用户理解薪资分布。绘制饼图展示不同公司性质的招聘数量分布,直观显示各类型公司的招聘需求。 使用柱形图展示招聘数量前20的区县数据,识别招聘热点地区。

展望

未来的改进和发展方向包括:

(1)数据采集自动化:使用爬虫技术实时获取最新的招聘数据,确保数据的时效性。结合API接口,扩展数据来源,获取更多维度的招聘信息。

(2)数据处理优化:增加数据清洗的自动化程度,减少人工干预,提高处理效率。引入更多的特征工程方法,如自然语言处理技术,深入挖掘文本信息。

(3)高级数据分析:利用机器学习算法进行薪资预测、岗位匹配等高级分析,提供更具指导性的结果。引入地理信息系统(GIS)技术,进行更精细的地域分布分析。

(4)可视化改进:使用交互式可视化工具(如Plotly、Bokeh),提升用户体验。

开发Web应用或仪表盘,实现招聘数据的动态展示和分析结果的实时更新。

(5)用户定制化服务:根据用户需求,提供个性化的分析报告和数据推送服务。

结合用户反馈,不断优化数据分析模型和可视化效果。

通过这些改进,项目可以更加全面、准确地分析招聘市场动态,为求职者和招聘方提供更具价值的信息和决策支持。

参考文献

[1] 基于Python的网页数据爬取与可视化分析[J]. 田雪丽;郭志斌;刘梦贤.电脑知识与技术,2022(06)

[2] 基于Python的南京二手房数据爬取及分析[J]. 戴瑗;郑传行.计算机时代,2021(01)

[3] Python爬虫技术的网页数据抓取与分析[J]. 徐志;金伟.数字技术与应用,2020(10)

[4] Python招聘数据分析[J]. 葛琳;杨娜.计算机与网络,2020(16)

[5] 基于Python的豆瓣图书数据的爬取与分析[J]. 张娇.晋城职业技术学院学报,2023(04).

相关文章
|
8天前
|
Python
深入理解Python装饰器:从入门到实践####
本文旨在通过简明扼要的方式,为读者揭开Python装饰器的神秘面纱,从基本概念、工作原理到实际应用场景进行全面解析。不同于常规的摘要仅概述内容概要,本文将直接以一段精炼代码示例开篇,展示装饰器如何优雅地增强函数功能,激发读者探索兴趣,随后深入探讨其背后的机制与高级用法。 ####
37 11
|
4天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的自我修养:从Python编程入门到深度学习实践
【10月更文挑战第39天】本文旨在为初学者提供一条清晰的道路,从Python基础语法的掌握到深度学习领域的探索。我们将通过简明扼要的语言和实际代码示例,引导读者逐步构建起对人工智能技术的理解和应用能力。文章不仅涵盖Python编程的基础,还将深入探讨深度学习的核心概念、工具和实战技巧,帮助读者在AI的浪潮中找到自己的位置。
|
4天前
|
设计模式 缓存 开发框架
Python中的装饰器:从入门到实践####
本文深入探讨了Python中装饰器的工作原理与应用,通过具体案例展示了如何利用装饰器增强函数功能、提高代码复用性和可读性。读者将学习到装饰器的基本概念、实现方法及其在实际项目开发中的实用技巧。 ####
17 3
|
7天前
|
机器学习/深度学习 数据采集 数据可视化
Python在数据科学中的应用:从入门到实践
本文旨在为读者提供一个Python在数据科学领域应用的全面概览。我们将从Python的基础语法开始,逐步深入到数据处理、分析和可视化的高级技术。文章不仅涵盖了Python中常用的数据科学库,如NumPy、Pandas和Matplotlib,还探讨了机器学习库Scikit-learn的使用。通过实际案例分析,本文将展示如何利用Python进行数据清洗、特征工程、模型训练和结果评估。此外,我们还将探讨Python在大数据处理中的应用,以及如何通过集成学习和深度学习技术来提升数据分析的准确性和效率。
|
6天前
|
数据采集 IDE 测试技术
Python实现自动化办公:从基础到实践###
【10月更文挑战第21天】 本文将探讨如何利用Python编程语言实现自动化办公,从基础概念到实际操作,涵盖常用库、脚本编写技巧及实战案例。通过本文,读者将掌握使用Python提升工作效率的方法,减少重复性劳动,提高工作质量。 ###
20 1
|
7天前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
17 2
|
10天前
|
算法 Python
Python图论探索:从理论到实践,DFS与BFS遍历技巧让你秒变技术大牛
图论在数据结构与算法中占据重要地位,应用广泛。本文通过Python代码实现深度优先搜索(DFS)和广度优先搜索(BFS),帮助读者掌握图的遍历技巧。DFS沿路径深入搜索,BFS逐层向外扩展,两者各具优势。掌握这些技巧,为解决复杂问题打下坚实基础。
23 2
|
10天前
|
搜索推荐 Python
快速排序的 Python 实践:从原理到优化,打造你的排序利器!
本文介绍了 Python 中的快速排序算法,从基本原理、实现代码到优化方法进行了详细探讨。快速排序采用分治策略,通过选择基准元素将数组分为两部分,递归排序。文章还对比了快速排序与冒泡排序的性能,展示了优化前后快速排序的差异。通过这些分析,帮助读者理解快速排序的优势及优化的重要性,从而在实际应用中选择合适的排序算法和优化策略,提升程序性能。
23 1
|
11天前
|
Python
探索Python装饰器:从入门到实践
【10月更文挑战第32天】在编程世界中,装饰器是一种特殊的函数,它允许我们在不改变原有函数代码的情况下,增加额外的功能。本文将通过简单易懂的语言和实际案例,带你了解Python中装饰器的基础知识、应用以及如何自定义装饰器,让你的代码更加灵活和强大。
16 2
|
12天前
|
监控 Python
探索Python中的装饰器:从入门到实践
【10月更文挑战第31天】在Python的世界里,装饰器是那些隐藏在幕后的魔法师,它们拥有着改变函数行为的能力。本文将带你走进装饰器的世界,从基础概念到实际应用,一步步揭开它的神秘面纱。你将学会如何用几行代码增强你的函数功能,以及如何避免常见的陷阱。让我们一起来发现装饰器的魔力吧!