用简历实体模型分析人力资源情况

简介: HR妹子说校招季来了,简历铺天盖地,随便看了几个,不得不说现在的简历实在是太“卷”了。我就突然很想分析下今年的校招投递的简历的整体情况。无意中发现modelscope里提供了简历实体识别的模型。提供了对简历里几种重要实体的识别(https://modelscope.cn/#/models/damo/nlp_raner_named-entity-recognition_chinese-base-resume/summary)可以拿来用下。真实的投递简历当然是不能公开的啦,这里就以热心网友提供为公开的简历数据(https://paperswithcode.com/dataset/resume-n


-------------------我是正文分割线---------------------

分析流程

  1. 将简历内容调用简历实体识别模型识别实体内容,调用方法参考官方给出的代码范例。
  2. 将分析结果存储到hive并进行数据分析。
  3. 对接FineBI进行数据展示。

分析结果

我选了三个实体类型:专业、学历、职称 (Emm, 其实很想选学校,但是这个模型不区分学校和企业)

数据量总共1508条,识别出有专业的有20条,有学历的数据有108条,有职称的数据有695条。(Emm, 为啥有人不写专业呢)

ODS(hive)=>DWS(hive)=>APP(mysql)

话不多说,上图:

学历大部分集中在大专以上,本科居多,可能是数据都是在职员工的简历吧,如果是现在的校招简历,一沓一沓的硕士。

职称看起来都是很高级的职位,可能是数据来源是公开简历,我等小透明也不会去公开简历。

专业集中在经管类,对着职称一票的经理董事,想问下我等码农专业还有机会吗?

最后,说下总体的使用感受吧:

  1. 识别准确率还是蛮高的,对行业、学历、职称的识别度较高,几乎没有识别错的,就是跑的有点慢 (小pc瑟瑟发抖)
  2. 单是一个抽取模型,不能将同义词进行归一,如识别出来大学本科、本科、本科学历,对BI还是有点不够用。
  3. 实体类型有点少,ORG类型有点粗,不能区分学校和企业。这个好像是原始训练数据就是这样?


附件

  1. 模型调用
frommodelscope.pipelinesimportpipelinefrommodelscope.utils.constantimportTasksimportjsonner_pipeline=pipeline(Tasks.named_entity_recognition, 'damo/nlp_raner_named-entity-recognition_chinese-base-resume')
result_file=open("./result.txt", "w", encoding="utf-8")
withopen("./test.txt", "r", encoding="utf-8") asf:
forlineinf.readlines():
result=ner_pipeline(line)
result_file.write(json.dumps(result) +"\n")
result_file.close()
  1. ner结果

result.txt

  1. 生成ODS并导入到hive
ods_f=open("ods.csv", "w", encoding="utf-8")
withopen("./result.txt", 'r', encoding="utf-8") asf:
forlineinf.readlines():
output=eval(line).get("output")
print(output)
fortype_listinoutput:
dict_one= {}
dict_one[type_list.get("type")] =type_list.get("span")
name=dict_one.get("NAME", '-1')
occupation=dict_one.get("PRO", "-1")
education=dict_one.get("EDU", '-1')
title=dict_one.get("TITLE", '-1')
s1=name+"\t"+occupation+"\t"+education+"\t"+title+"\n"ods_f.write(s1)
ods_f.close()

ods.csv

--建库建表

create database jianli default character set utf8mb4 collate UTF8MB4_UNICODE_CI;CREATETABLE jianli_ods (  name VARCHAR(30),  education VARCHAR(30),  occupation VARCHAR(30),  title VARCHAR(30));load data local inpath '/root/ods.csv'intotable jianli_ods  partition(create_day='2022-08-16');
  1. 生成DWS(hive中操作)

-- 建库建表

USE jianli;CREATETABLE jianli_app (  group_type VARCHAR(30),  occupation_name VARCHAR(30),  occupation_count INT,  education_name VARCHAR(30),  education_count INT,  title_name VARCHAR(30),  title_count INT) row format delimited fields terminated by'\t' stored as textfile;INSERTINTO jianli.jianli_app(group_type, occupation_name, occupation_count, education_name, education_count, title_name,title_count)SELECT'1'as group_type,occupation as occupation_name,count(name)as occupation_count,'-1'as education_name,0as education_count,'-1'as title_name,0as title_count
from jianli.jianli_odsgroupby occupation;INSERTINTO jianli.jianli_app(group_type, occupation_name, occupation_count, education_name, education_count, title_name,title_count)SELECT'2'as group_type,'-1'as occupation_name,0as occupation_count,education as education_name,count(name)as education_count,'-1'as title_name,0as title_count
from jianli.jianli_odsgroupby education;INSERTINTO jianli.jianli_app(group_type, occupation_name, occupation_count, education_name, education_count, title_name,title_count)SELECT'3'as group_type,'-1'as occupation_name,0as occupation_count,'-1'as education_name,0as education_count,title as title_name,count(name)as title_count
from jianli.jianli_odsgroupby title;sqoop export \
--connect jdbc:mysql://xx.xx.xx.xx:3306/jianli \--username root --password xxxx \--table jianli_app \ --hcatalog-database jianli \ --hcatalog-table jianli_app \ -m 1
  1. mysql对接FineBI
目录
相关文章
|
7月前
|
数据采集 安全 测试技术
信息系统项目管理师重点内容汇总(第八天)
【1月更文挑战第4天】乘风破浪会有时,直挂云帆济沧海
680 0
信息系统项目管理师重点内容汇总(第八天)
|
7月前
|
存储 大数据 物联网
信息系统项目管理师重点内容汇总(第五天)
乘风破浪会有时,直挂云帆济沧海
323 1
|
7月前
|
数据采集 运维 监控
信息系统项目管理师重点内容汇总(第七天)
乘风破浪会有时,直挂云帆济沧海
460 1
|
7月前
|
算法 项目管理
信息系统项目管理师重点内容汇总(第十天)
【1月更文挑战第10天】乘风破浪会有时,直挂云帆济沧海
308 0
招聘数据汇总不再繁琐!用八爪鱼RPA轻松搞定
通过使用八爪鱼rpa进行招聘数据汇总,企业可以实现数据的自动化收集和处理,大大提高工作效率和数据准确性。同时,减少了人为因素带来的错误和遗漏,降低了人力成本,帮助企业更好地应对招聘需求的增长。
|
数据采集 机器人 数据挖掘
提升企业绩效!用八爪鱼RPA实现员工绩效考核的绝佳方法!
RPA机器人可以帮助客户完成考勤到业务系统下载考勤报告、数据分析透视和邮件发送等系列工作内容。凭借7x24小时的工作优势,帮助人力资源团队在每月、每季度重要节点高效完成工作,节省时间
|
7月前
|
存储 安全 SDN
信息系统项目管理师重点内容汇总(第四天)
乘风破浪会有时,直挂云帆济沧海
237 0
|
SQL 存储 自然语言处理
浅谈大数据背景下用简历实体模型分析人力资源情况
一年一度的校招季来了,简历铺天盖地,随便看了几个,不得不说现在的简历实在是太“卷”了。我就突然很想分析下今年的校招投递的简历的整体情况。无意中发现modelscope里提供了简历实体识别的模型。提供了对简历里几种重要实体的识别技术及图解,大家可以借鉴与交流一下。
|
测试技术 程序员
程序员岗位考核方式
程序员组内考核: 1.工作量大小     2.工作效率高低 3.工作进度快慢 4.代码质量 5.bug 数量,考察代码质量和态度 6.相关文档书写质量 7.技术考核: 组内成员每人出n道题,之后互相解答,查看最终成绩,出题范围可以局限在某本书中。
1970 0
幼儿园食品安全舆情工作怎么做?
一直以来食品安全问题就是全民关注的焦点,再加上幼儿园作为这一特殊主体,尤其是近年来有关幼儿园食品安全问题的报道层出不穷,如涉及到的食堂餐具安全问题、食材安全问题、食堂工作人员卫生安全问题等等。