基于Python的51job招聘数据采集与可视化项目实践

简介: 本文介绍了一个基于Python的51job招聘数据采集与可视化项目,该项目通过自动化手段获取大量招聘信息,并运用数据分析和可视化工具对就业市场进行深度分析,旨在为求职者和企业提供数据支持和决策依据。
  1. 项目背景与目标
    在当今竞争激烈的就业市场中,深入分析招聘信息对于求职者和企业都具有重要意义。基于Python的51job招聘数据采集与可视化项目旨在通过自动化手段高效获取大量招聘信息,并对这些数据进行深度分析和展示。 51job作为中国领先的招聘网站,汇集了海量的招聘信息,涵盖各行各业,提供了极为丰富的数据源。通过采集这些数据,可以帮助我们了解当前的就业市场需求,岗位分布,薪资水平等关键信息。另一方面,随着数据科学和机器学习的发展,传统的人工分析方法已经无法满足大数据分析的需求。因此,使用Python进行数据采集和分析,不仅提高了效率,还可以利用多种数据分析和可视化工具,实现对招聘信息的全面解读。 项目目标主要利用Python爬虫技术,自动从51job网站上获取招聘信息,包括职位名称、公司、地点、薪资、要求等数据。对采集到的数据进行清洗和整理,确保数据的完整性和一致性。运用Python的数据分析库(如Pandas、NumPy等)对招聘数据进行分析,挖掘出有价值的趋势和模式。使用Matplotlib、Seaborn等可视化工具,将分析结果以图表形式展示,便于直观理解和决策支持。 通过该项目,可以为求职者提供更有针对性的求职建议,为企业制定招聘策略提供数据支持,进一步促进人力资源的合理配置。

  2. 数据采集
    本项目采集51招聘网站招聘数据1400条,其中1000条存入csv,400条存入json文件。采集的网页信息如下图:

  3. 数据采集项目主要使用Python的Selenium库和BeautifulSoup库来自动化抓取51job网站的招聘信息,并将其存储到本地文件csv和json文件中。 首先,通过Selenium库启动Chrome浏览器,并设置一些选项来规避反爬虫机制。login函数负责打开51job网站,并根据输入的关键词(如"python")进行搜索。在搜索结果页面,代码通过BeautifulSoup解析网页内容,提取每个招聘信息的具体细节,如岗位名称、公司名称、薪资、城市、区县、行业、标签、企业性质、企业人数和回复情况。 在每一页的招聘信息提取完毕后,程序会点击“下一页”按钮,继续抓取下一页的内容,直到预定的页数(如5页)结束。提取的信息以字典形式存储,并使用json库将其保存到本地的51招聘.json文件中,确保每条数据都成功存入,存入json主要代码如下图。

  4. 存入csv主要代码如下图:

  5. 项目通过Selenium实现自动化浏览和操作,有效避免了手动数据收集的繁琐,同时使用BeautifulSoup进行网页解析,确保数据的准确提取。整个流程包括网页的加载、数据提取、翻页操作以及数据的本地存储,确保了数据采集的高效性和全面性。采集结果如下图:

  6. 数据处理
  • 数据集成
    数据集成主要通过以下几个步骤实现: 首先,读取两个数据源:一个JSON文件和一个CSV文件。从存储招聘信息的JSON文件和CSV文件中读取数据。利用pandas库,将这些数据转换为DataFrame格式以便于后续操作。通过json.loads逐行读取JSON文件中的招聘数据,并将其添加到一个列表中,随后使用pd.DataFrame将列表转换为数据框。接着,代码读取CSV文件中的数据,并将两个数据框通过pd.concat合并为一个。集成后数据集信息如下图。

  • 数据清洗
    通过df.drop_duplicates函数删除重复记录,并重置索引。接下来,处理缺失值和异常值。填充缺失值时,将“性质”列的缺失值填充为“未知”,然后删除所有包含缺失值的行。数据标准化方面,主要针对“薪资”列进行了单位换算,将不同格式的薪资统一转换为“万/年”的格式,并将转换后的薪资列拆分为最小值和最大值两列。数据清洗后结果如下图:

  • 数据变换
    数据变换主要通过以下几个步骤实现,以便将原始数据转换为可分析的格式: 针对薪资数据,定义了一个convert_salary函数,用于将各种格式的薪资统一转换为“万/年”。这个函数处理不同单位(如“万”、“千”、“元/天”)的薪资,并进行相应的换算和格式转换。转换后的薪资数据被拆分为最小值和最大值两列,以便后续分析,薪资数据变换结果如下图:

    行业数据也进行了分词和统计。通过将“行业”列中的数据按“/”分割,统计每个行业的频次,生成一个包含行业和其对应频次的字典。

  • 数据规约
    数据规约的实现旨在减少数据量,同时保留数据的主要特征,以便提高分析和处理的效率。数据规约具体实现如下: 1、通过删除重复数据来减少数据量。利用drop_duplicates方法,依据‘公司’和‘岗位名’两个字段去重,并重置索引。 df.drop_duplicates(subset=['公司', '岗位名'], inplace=True) df.reset_index(drop=True, inplace=True) 2、删除缺失值较多的记录。在处理缺失值时,先将“性质”列的缺失值填充为“未知”,然后删除所有包含其他缺失值的行,从而减少不完整数据的影响。 df['性质'].fillna('未知', axis=0, inplace=True) df.dropna(axis=0, inplace=True) 3、通过单位换算,将不同单位的薪资数据统一转换为“万/年”的格式,并将转换后的薪资列拆分为最小值和最大值两列。这不仅标准化了数据格式,还减少了数据的复杂性。 df['薪资_g'] = df['薪资'].apply(convert_salary) df['薪资_g'] = df['薪资_g'].str.replace('万/年', '') df['薪资_min'] = df['薪资_g'].str.split('-', expand=True)[0].astype('float').round(1) df['薪资_max'] = df['薪资_g'].str.split('-', expand=True)[1].astype('float').round(1) 4、对冗余信息进行规约,例如通过合并标签中的重复项,实现对标签列的简化。 df['标签'] = df['标签'].apply(lambda x: ' '.join(set(x.split('-'))))

    8. 数据分析与可视化
    (1)词云图实现 实现词云图需要几个关键步骤,从文本准备到图像生成。下面详细描述了如何使用 stylecloud 库来生成词云图: 步骤一:安装必要的库 安装 stylecloud 和其他必要的库 步骤二:准备文本数据 首先,准备好生成词云的文本数据。从 DataFrame 中提取了标签并将其组合成一个文本字符串 text: # 将标签列表转换为文本 text = ' '.join(df['标签'].tolist()) 这一步将所有标签合并为一个字符串,生成词云时会根据词频来决定每个词的大小和位置。 步骤三:生成词云图 使用 stylecloud 库生成词云图非常简单。需要指定文本、字体路径、颜色、图标以及背景颜色等参数。代码如下: import stylecloud # 指定字体文件路径 font_path = 'simhei.ttf' # 使用本地的黑体字体文件 # 使用 stylecloud 生成词云图 stylecloud.gen_stylecloud( text=text, # 文本数据 font_path=font_path, # 字体路径 palette='cartocolors.qualitative.Bold_5', # 颜色方案 max_font_size=100, # 最大字体大小 icon_name='fas fa-yen-sign', # 图标形状 background_color='#f4f4f4', # 背景颜色 output_name='福利.jpg' # 输出文件名 ) 参数解释: text: 输入的文本数据,将会用于生成词云。 font_path: 字体文件路径,simhei.ttf 是常用的中文字体。 palette: 颜色方案,cartocolors.qualitative.Bold_5 是一个颜色方案的名字,可以根据需要调整。 max_font_size: 最大字体大小,控制词云中最大词的大小。 icon_name: 词云的形状,这里使用的是“人民币符号”,你可以更换为其他图标,例如 'fas fa-heart' (爱心)。 background_color: 词云图的背景颜色。 output_name: 输出文件的名称和格式。 步骤四:保存和查看词云图 词云图生成后,会自动保存为指定名称的文件(如 '福利.jpg')。可以在输出文件中查看词云效果。如下图:

(2)招聘数量前20的区县数据柱形图实现 数据分组与统计: df.groupby('区县')['链接'].count() 对区县进行分组,统计每个区县的招聘链接数。 排序与选取: reset_index() 重置索引,sort_values(by='链接', ascending=False) 按招聘数量降序排列,取前20个数据。 柱形图绘制: plt.bar(x_data, y_data, color='skyblue') 绘制柱形图,设置柱形颜色为浅蓝色。 标题与标签: plt.title、plt.xlabel和plt.ylabel 添加标题和轴标签,明确图表内容。 这种方法清晰地展示了招聘数量最多的前20个区县,有助于了解招聘热点地区。如下图:

(3)不同公司性质招聘数量分布实现 实现不同公司性质招聘数量分布,主要步骤包括数据分组、统计数量、绘制饼图等。数据分组与统计: df.groupby('性质')['链接'].count() 对公司性质进行分组,统计每种公司性质的招聘链接数量。 排序与重置索引: reset_index() 重置索引,sort_values(by='链接', ascending=False) 按招聘数量降序排列。 饼图绘制: plt.pie 绘制饼图,labels 参数设置标签,autopct 参数显示百分比,colors 参数设置颜色。 文本属性和标签距离: textprops={'fontsize': 12} 设置文本字体大小,labeldistance=1.05 设置标签距离。 图例与标题: plt.legend(fontsize=5) 添加图例并设置字体大小,plt.title 添加标题并设置字体大小。 通过这些步骤,生成了一个展示不同公司性质招聘数量分布的饼图,直观显示各类型公司在招聘市场中的占比。如下图:

15. 总结与展望

总结

在本项目中,我们通过Python实现了51job招聘数据的采集与可视化,数据采集方面,使用json库逐行读取JSON文件,将招聘评论数据存储在列表中,并转换为Pandas DataFrame。使用pandas.read_csv读取CSV文件,并合并两种数据源,保证数据的完整性。数据处理方面, 对数据进行去重、缺失值填补和处理。特别是对薪资字段进行单位转换,确保数据的一致性。 提取并处理招聘信息的关键特征,包括薪资、行业、城市分类等。使用正则表达式和自定义函数处理薪资数据。数据分析与可视化方面, 使用词云图展示招聘行业的分布情况,利用stylecloud库生成形象化的词云。分类和比较不同城市和行业的薪资水平,帮助用户理解薪资分布。绘制饼图展示不同公司性质的招聘数量分布,直观显示各类型公司的招聘需求。 使用柱形图展示招聘数量前20的区县数据,识别招聘热点地区。

展望

未来的改进和发展方向包括:

(1)数据采集自动化:使用爬虫技术实时获取最新的招聘数据,确保数据的时效性。结合API接口,扩展数据来源,获取更多维度的招聘信息。

(2)数据处理优化:增加数据清洗的自动化程度,减少人工干预,提高处理效率。引入更多的特征工程方法,如自然语言处理技术,深入挖掘文本信息。

(3)高级数据分析:利用机器学习算法进行薪资预测、岗位匹配等高级分析,提供更具指导性的结果。引入地理信息系统(GIS)技术,进行更精细的地域分布分析。

(4)可视化改进:使用交互式可视化工具(如Plotly、Bokeh),提升用户体验。

开发Web应用或仪表盘,实现招聘数据的动态展示和分析结果的实时更新。

(5)用户定制化服务:根据用户需求,提供个性化的分析报告和数据推送服务。

结合用户反馈,不断优化数据分析模型和可视化效果。

通过这些改进,项目可以更加全面、准确地分析招聘市场动态,为求职者和招聘方提供更具价值的信息和决策支持。

参考文献

[1] 基于Python的网页数据爬取与可视化分析[J]. 田雪丽;郭志斌;刘梦贤.电脑知识与技术,2022(06)

[2] 基于Python的南京二手房数据爬取及分析[J]. 戴瑗;郑传行.计算机时代,2021(01)

[3] Python爬虫技术的网页数据抓取与分析[J]. 徐志;金伟.数字技术与应用,2020(10)

[4] Python招聘数据分析[J]. 葛琳;杨娜.计算机与网络,2020(16)

[5] 基于Python的豆瓣图书数据的爬取与分析[J]. 张娇.晋城职业技术学院学报,2023(04).

相关文章
|
1天前
|
Python
Python编程中的异常处理:理解与实践
【9月更文挑战第14天】在编码的世界里,错误是不可避免的。它们就像路上的绊脚石,让我们的程序跌跌撞撞。但是,如果我们能够预见并优雅地处理这些错误,我们的程序就能像芭蕾舞者一样,即使在跌倒的边缘,也能轻盈地起舞。本文将带你深入了解Python中的异常处理机制,让你的代码在面对意外时,依然能保持优雅和从容。
135 73
|
1天前
|
人工智能 数据挖掘 数据处理
揭秘Python编程之美:从基础到进阶的代码实践之旅
【9月更文挑战第14天】本文将带领读者深入探索Python编程语言的魅力所在。通过简明扼要的示例,我们将揭示Python如何简化复杂问题,提升编程效率。无论你是初学者还是有一定经验的开发者,这篇文章都将为你打开一扇通往高效编码世界的大门。让我们开始这段充满智慧和乐趣的Python编程之旅吧!
|
1天前
|
机器学习/深度学习 数据采集 数据挖掘
掌握Python编程:从基础到实践
【9月更文挑战第14天】Python,作为一门易于学习且功能强大的编程语言,在数据分析、人工智能、网站开发等多个领域都有广泛应用。本文将深入浅出地介绍Python的基础知识,并通过实际代码示例,帮助读者快速掌握Python编程的核心技能。无论你是编程新手还是希望扩展技能的开发者,这篇文章都将为你开启Python编程之旅提供坚实的基石。
|
6天前
|
开发者 Python
探索Python中的装饰器:从入门到实践
【8月更文挑战第41天】本文通过深入浅出的方式,引导读者理解Python装饰器的概念、原理及应用。我们将从装饰器的定义出发,逐步深入其背后的工作原理,并通过实际代码示例,展示如何自定义装饰器以及装饰器的高级用法。文章旨在帮助初学者快速掌握装饰器的使用,同时为有一定基础的开发者提供进阶知识。
|
2天前
|
数据可视化 数据处理 开发者
构建高效的数据流图:Python与PyGraphviz的实践
【9月更文挑战第13天】在本文中,我们将探索如何利用Python和PyGraphviz库来创建和操作数据流图。我们将通过一个具体示例,展示如何从零开始构建一张数据流图,并讨论如何优化图表以提高可读性。文章旨在为初学者提供一个清晰的入门指南,同时为有经验的开发者提供一些高级技巧。
|
3天前
|
Rust API Python
Python Requests 库中的重试策略实践
在网络请求中,由于网络波动或服务暂时不可达等原因,请求可能失败。为增强客户端健壮性,自动重试机制变得尤为重要。本文介绍如何在 Python 的 `requests` 库中实现请求自动重试,通过 `urllib3` 的 `Retry` 类配置重试策略,并提供了一个具体示例,展示了如何设置重试次数、状态码集合及异常类型等参数,从而提高系统的可靠性和容错能力。
|
4天前
|
数据采集 传感器 数据可视化
利用Python进行数据分析与可视化
【9月更文挑战第11天】在数字化时代,数据已成为企业决策和科学研究的关键。本文将引导读者了解如何使用Python这一强大的工具进行数据分析和可视化,帮助初学者理解数据处理的流程,并掌握基本的可视化技术。通过实际案例,我们将展示如何从原始数据中提取信息,进行清洗、处理,最终以图形方式展现结果,使复杂的数据变得直观易懂。
|
12天前
|
缓存 测试技术 Python
Python 中的装饰器:从入门到实践
【9月更文挑战第3天】本文将引导你理解 Python 中装饰器的概念,并通过实际代码示例展示如何创建和使用装饰器。我们将从基础出发,逐步深入到装饰器的高级应用,让你能够轻松掌握这一强大的工具。
|
9天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的编程实践:从Python到深度学习的探索之旅
【9月更文挑战第6天】 在人工智能的黄金时代,编程不仅仅是一种技术操作,它成为了连接人类思维与机器智能的桥梁。本文将通过一次从Python基础入门到构建深度学习模型的实践之旅,揭示编程在AI领域的魅力和重要性。我们将探索如何通过代码示例简化复杂概念,以及如何利用编程技能解决实际问题。这不仅是一次技术的学习过程,更是对人工智能未来趋势的思考和预见。
|
7天前
|
C语言 Python
深入理解并实践Python中的列表推导式
深入理解并实践Python中的列表推导式
9 1