分析流程
- 将简历内容调用简历实体识别模型识别实体内容,调用方法参考官方给出的代码范例。
- 将分析结果存储到hive并进行数据分析。
- 对接FineBI进行数据展示。
分析结果
我选了三个实体类型:专业、学历、职称 (Emm, 其实很想选学校,但是这个模型不区分学校和企业)
数据量总共1508条,识别出有专业的有20条,有学历的数据有108条,有职称的数据有695条。(Emm, 为啥有人不写专业呢)
ODS(hive)=>DWS(hive)=>APP(mysql)
话不多说,上图:
学历大部分集中在大专以上,本科居多,可能是数据都是在职员工的简历吧,如果是现在的校招简历,一沓一沓的硕士。
职称看起来都是很高级的职位,可能是数据来源是公开简历,我等小透明也不会去公开简历。
专业集中在经管类,对着职称一票的经理董事,想问下我等码农专业还有机会吗?
最后,说下总体的使用感受吧:
- 识别准确率还是蛮高的,对行业、学历、职称的识别度较高,几乎没有识别错的,就是跑的有点慢 (小pc瑟瑟发抖)
- 单是一个抽取模型,不能将同义词进行归一,如识别出来大学本科、本科、本科学历,对BI还是有点不够用。
- 实体类型有点少,ORG类型有点粗,不能区分学校和企业。这个好像是原始训练数据就是这样?
通过数据,与图标相结合,简化了流程,缩短了时间,方便查看,效果及质量得到了很大的提升,为大数据背景下简历投放,查看节省了大量时间。