用简历实体模型分析人力资源情况

简介: HR妹子说校招季来了,简历铺天盖地,随便看了几个,不得不说现在的简历实在是太“卷”了。我就突然很想分析下今年的校招投递的简历的整体情况。无意中发现modelscope里提供了简历实体识别的模型。提供了对简历里几种重要实体的识别(https://modelscope.cn/#/models/damo/nlp_raner_named-entity-recognition_chinese-base-resume/summary)可以拿来用下。真实的投递简历当然是不能公开的啦,这里就以热心网友提供为公开的简历数据(https://paperswithcode.com/dataset/resume-n


-------------------我是正文分割线---------------------

分析流程

  1. 将简历内容调用简历实体识别模型识别实体内容,调用方法参考官方给出的代码范例。
  2. 将分析结果存储到hive并进行数据分析。
  3. 对接FineBI进行数据展示。

分析结果

我选了三个实体类型:专业、学历、职称 (Emm, 其实很想选学校,但是这个模型不区分学校和企业)

数据量总共1508条,识别出有专业的有20条,有学历的数据有108条,有职称的数据有695条。(Emm, 为啥有人不写专业呢)

ODS(hive)=>DWS(hive)=>APP(mysql)

话不多说,上图:

学历大部分集中在大专以上,本科居多,可能是数据都是在职员工的简历吧,如果是现在的校招简历,一沓一沓的硕士。

职称看起来都是很高级的职位,可能是数据来源是公开简历,我等小透明也不会去公开简历。

专业集中在经管类,对着职称一票的经理董事,想问下我等码农专业还有机会吗?

最后,说下总体的使用感受吧:

  1. 识别准确率还是蛮高的,对行业、学历、职称的识别度较高,几乎没有识别错的,就是跑的有点慢 (小pc瑟瑟发抖)
  2. 单是一个抽取模型,不能将同义词进行归一,如识别出来大学本科、本科、本科学历,对BI还是有点不够用。
  3. 实体类型有点少,ORG类型有点粗,不能区分学校和企业。这个好像是原始训练数据就是这样?


附件

  1. 模型调用
frommodelscope.pipelinesimportpipelinefrommodelscope.utils.constantimportTasksimportjsonner_pipeline=pipeline(Tasks.named_entity_recognition, 'damo/nlp_raner_named-entity-recognition_chinese-base-resume')
result_file=open("./result.txt", "w", encoding="utf-8")
withopen("./test.txt", "r", encoding="utf-8") asf:
forlineinf.readlines():
result=ner_pipeline(line)
result_file.write(json.dumps(result) +"\n")
result_file.close()
  1. ner结果

result.txt

  1. 生成ODS并导入到hive
ods_f=open("ods.csv", "w", encoding="utf-8")
withopen("./result.txt", 'r', encoding="utf-8") asf:
forlineinf.readlines():
output=eval(line).get("output")
print(output)
fortype_listinoutput:
dict_one= {}
dict_one[type_list.get("type")] =type_list.get("span")
name=dict_one.get("NAME", '-1')
occupation=dict_one.get("PRO", "-1")
education=dict_one.get("EDU", '-1')
title=dict_one.get("TITLE", '-1')
s1=name+"\t"+occupation+"\t"+education+"\t"+title+"\n"ods_f.write(s1)
ods_f.close()

ods.csv

--建库建表

create database jianli default character set utf8mb4 collate UTF8MB4_UNICODE_CI;CREATETABLE jianli_ods (  name VARCHAR(30),  education VARCHAR(30),  occupation VARCHAR(30),  title VARCHAR(30));load data local inpath '/root/ods.csv'intotable jianli_ods  partition(create_day='2022-08-16');
  1. 生成DWS(hive中操作)

-- 建库建表

USE jianli;CREATETABLE jianli_app (  group_type VARCHAR(30),  occupation_name VARCHAR(30),  occupation_count INT,  education_name VARCHAR(30),  education_count INT,  title_name VARCHAR(30),  title_count INT) row format delimited fields terminated by'\t' stored as textfile;INSERTINTO jianli.jianli_app(group_type, occupation_name, occupation_count, education_name, education_count, title_name,title_count)SELECT'1'as group_type,occupation as occupation_name,count(name)as occupation_count,'-1'as education_name,0as education_count,'-1'as title_name,0as title_count
from jianli.jianli_odsgroupby occupation;INSERTINTO jianli.jianli_app(group_type, occupation_name, occupation_count, education_name, education_count, title_name,title_count)SELECT'2'as group_type,'-1'as occupation_name,0as occupation_count,education as education_name,count(name)as education_count,'-1'as title_name,0as title_count
from jianli.jianli_odsgroupby education;INSERTINTO jianli.jianli_app(group_type, occupation_name, occupation_count, education_name, education_count, title_name,title_count)SELECT'3'as group_type,'-1'as occupation_name,0as occupation_count,'-1'as education_name,0as education_count,title as title_name,count(name)as title_count
from jianli.jianli_odsgroupby title;sqoop export \
--connect jdbc:mysql://xx.xx.xx.xx:3306/jianli \--username root --password xxxx \--table jianli_app \ --hcatalog-database jianli \ --hcatalog-table jianli_app \ -m 1
  1. mysql对接FineBI
目录
相关文章
|
11月前
|
数据挖掘 项目管理
PMBOK泛读(第十二章) - 项目采购管理
PMBOK泛读(第十二章) - 项目采购管理
56 1
|
11月前
|
存储 安全 数据管理
PMBOK泛读(第十章) - 项目沟通管理
PMBOK泛读(第十章) - 项目沟通管理
96 0
|
存储 数据采集 XML
再谈主数据管理|一文读懂主数据项目实施
主数据管理是企业改善其关键数据资产(如产品数据,资产数据,客户数据,位置数据等)的一致性和质量的必要数据管理活动。
|
5月前
如何使用敏捷相关知识管理好自己的装修过程?
如何使用敏捷相关知识管理好自己的装修过程?
如何使用敏捷相关知识管理好自己的装修过程?
|
10月前
招聘数据汇总不再繁琐!用八爪鱼RPA轻松搞定
通过使用八爪鱼rpa进行招聘数据汇总,企业可以实现数据的自动化收集和处理,大大提高工作效率和数据准确性。同时,减少了人为因素带来的错误和遗漏,降低了人力成本,帮助企业更好地应对招聘需求的增长。
|
5月前
|
算法 大数据
【简历优化平台-04】对复杂字段进行规范性和建议
【简历优化平台-04】对复杂字段进行规范性和建议
|
监控 Cloud Native Go
面试中的项目管理:如何展示你的组织能力
面试中的项目管理:如何展示你的组织能力
121 0
面试中的项目管理:如何展示你的组织能力
|
存储 SQL 开发框架
企业人事管理系统的设计与实现(论文+源码)_kaic
。基于 C/S 框架分析的人事管理系统 中存在的问题,采用J2EE 和 b/S 框架进行模型设计、系统分析和系统开发,层模型、 显示层和层控制器满足联邦战略计划 J2EE 服务器的要求。此外,该技术还应基于物理 层设计和基于 J2EE 逻辑的数据库应用,以及 Arwin 蜂窝数据库和信息管理系统的选择。 基于需求分析 J2EE 的标准化建模技术、数据库技术、人事管理项目应用和人事管理系 统的实现。
|
SQL 存储 自然语言处理
浅谈大数据背景下用简历实体模型分析人力资源情况
一年一度的校招季来了,简历铺天盖地,随便看了几个,不得不说现在的简历实在是太“卷”了。我就突然很想分析下今年的校招投递的简历的整体情况。无意中发现modelscope里提供了简历实体识别的模型。提供了对简历里几种重要实体的识别技术及图解,大家可以借鉴与交流一下。