【视频】N-Gram、逻辑回归反欺诈模型文本分析招聘网站欺诈可视化讲解|附数据代码1

简介: 【视频】N-Gram、逻辑回归反欺诈模型文本分析招聘网站欺诈可视化讲解|附数据代码

随着互联网的快速发展,招聘网站已成为求职者与雇主之间的重要桥梁。然而,随之而来的欺诈行为也日益猖獗,给求职者带来了极大的困扰和风险点击文末“阅读原文”获取完整代码数据


视频


image.png

因此,如何帮助客户有效地识别和防范招聘网站上的欺诈行为,已成为一个亟待解决的问题。

ef974929ac12f1a00f0a041928f948f1.png

逻辑回归模型作为一种强大的分类工具,在识别欺诈行为方面具有独特的优势。它能够根据输入的特征,通过训练和学习,自动发现数据中的规律和模式,从而实现对欺诈行为的准确预测。在招聘网站的欺诈检测中,逻辑回归模型可以帮助我们快速识别出潜在的欺诈行为,保护求职者的合法权益。

本文将通过视频讲解,展示如何用N-Gram、逻辑回归模型分析招聘网站欺诈可视化,并结合R语言逻辑回归logistic模型ROC曲线可视化分析2个例子的代码数据,为读者提供一套完整的实践数据分析流程。

一、数据整理

首先,我们从招聘网站上收集了大量数据,包括职位名称、职位描述、行业分类、岗位要求等信息。接下来,我们对数据进行了清洗和预处理,去除空值、重复项和异常值,确保数据的准确性和完整性。


c61696943f8e6524be1b55aa2526134e.png


二、探索性数据分析

为了深入了解数据的分布和特征,我们进行了探索性数据分析。使用直方图、箱线图等可视化工具,我们分析了各个特征的分布情况,包括职位数量、行业分布、薪资水平等。此外,我们还利用词云图对职位描述中的关键词进行了可视化展示,以便更直观地了解招聘市场的热点和趋势。

1b815534a6d70b2cd00310dd96febd05.png

b7a6774111d02ef371260fef47d573ef.png

d724469bc9bb1223a42f1698b185ecd0.png

三、特征工程

特征工程是机器学习建模的关键步骤。我们首先对文字信息进行了预处理,包括分词、去除停用词、词干提取等。接着,我们利用N-Gram分析提取了职位描述中的词组特征,以捕捉更多的语义信息。此外,我们还进行了特征合并,将行业、岗位和描述信息结合起来,形成更具代表性的特征。在特征选择方面,我们根据相关性分析和重要性评估,去除了不相关的特征,以降低模型的复杂度。

9fcf90448f6f76f3fb47914259c28d8c.png

四、建模

在本研究中,我们选择了逻辑回归模型作为分析工具。逻辑回归是一种广泛应用于分类问题的机器学习算法,它能够根据输入特征预测目标变量的概率分布。我们将经过特征工程处理后的数据输入到逻辑回归模型中,通过训练和优化模型参数,使其能够准确识别招聘网站上的欺诈行为。

fd7432c992a733556544b4b63caf0710.png 五、模型评估

为了评估模型的性能,我们使用了混淆矩阵来衡量准确性。混淆矩阵展示了模型在不同类别上的分类结果,包括真正例、假正例、真反例和假反例。通过计算准确率、召回率、F1值等指标,我们全面评估了模型在识别招聘欺诈方面的表现。此外,我们还对模型的稳定性进行了检验,确保其在不同数据集上都能保持较好的性能。

a2d3901bc942c75aab45b323f9bfc359.png

六、结论与展望

通过逻辑回归模型的分析,我们成功地识别了招聘网站上的欺诈行为,并揭示了欺诈行为的一些典型特征。这为招聘网站和求职者提供了有益的参考,有助于维护招聘市场的公平和诚信。然而,本研究还存在一些局限性,如模型假设的简化等。未来,我们将进一步拓展数据来源,优化模型结构,提高模型的泛化能力和鲁棒性,以更好地应对招聘欺诈问题。


R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为

本文利用R语言,通过逐步逻辑回归模型帮助客户分析两个实际案例:麻醉剂用量对手术病人移动的影响以及汽车购买行为预测。通过构建模型并解释结果,我们探究了各自变量对因变量的影响程度。同时,借助ROC曲线可视化分析,评估了模型的预测性能。本文旨在为相关领域的研究提供方法学参考和实际应用指导。

R语言分析麻醉剂用量(conc)对手术病人是否移动(nomove)的影响

在医学实践中,麻醉剂用量的精确控制对于手术过程的顺利进行和病人的术后恢复至关重要。随着医疗技术的不断发展,数据分析和统计学方法在医学研究中的应用日益广泛。本文旨在通过逻辑回归模型,探究麻醉剂用量(conc)对手术病人是否移动(nomove)的影响。逻辑回归是一种广泛应用于二元响应变量分析的统计方法,它可以帮助我们理解自变量与因变量之间的概率关系。本文使用的数据集包含了一组医学数据,其中变量conc表示麻醉剂的用量,而nomove作为因变量,用于表示手术病人是否有所移动。

首先载入数据集并读取部分文件,为了观察两个变量之间关系,我们可以利cdplot函数来绘制条件密度图

head(anesthetic)


f7498e6859f5d649dae47603fec0b195.png

chart.Correlation(anesthetic,  
                  method="spearman",  
                  histogram=TRUE,  
                  pch=16)
                  

8d90901c2d0d08f4accab1f507109604.png

cdplot(factor(nomove)~conc,data=anesthetic,main='条件密度图',ylab='病人移动',xlab='麻醉剂量')

676f935ebd0373b063913c9b0ba2428f.png

从图中可见,随着麻醉剂量加大,手术病人倾向于静止。下面利用logistic回归进行建模,得到intercept和conc的系数为-6.47和5.57,由此可见麻醉剂量超过1.16(6.47/5.57)时,病人静止概率超过50%。

75a77c5ff8b4fdded4e5ab1247768333.png

偏差残差:这是逻辑回归模型拟合后每个观测值与模型预测值之间的差异。从最小值-1.76666到最大值2.06900,我们可以看到数据点的分布。通常,我们希望这些残差接近0,并且分布均匀。

系数

  • 截距 (Intercept) : -6.469。这是当模型中的其他变量都为0时,预测值的起点。这里的截距为负,可能意味着在没有其他因素影响时,某个特定的结果(例如,响应变量为1的概率)是较低的。
  • conc: 5.567。这是anes1数据集中conc变量的系数。它表示当conc每增加一个单位时,响应变量(通常是二元结果,如1或0)的对数几率平均增加5.567个单位。这通常意味着conc与响应变量之间存在正相关关系。

显著性代码:输出还提供了系数的显著性水平。例如,'***' 表示该系数的p值小于0.001,是非常显著的。这意味着我们可以非常确信conc与响应变量之间的关系不仅仅是偶然的。

分散参数:对于二项分布家族,分散参数通常被设为1,这里也是如此。

偏差统计

  • Null偏差:这是仅包含截距的模型的偏差,用于比较完整模型的效果。在这里,Null偏差为82.911,表示在没有其他预测变量的情况下,模型与数据的拟合程度。
  • 残差偏差:这是包含所有预测变量的完整模型的偏差。残差偏差为55.508,比Null偏差小,说明添加conc变量后,模型对数据的拟合度有所提高。

AIC (赤池信息准则) :这是一个衡量模型拟合度的指标,同时考虑了模型的复杂性和拟合度。较低的AIC值通常表示模型更好。这里的AIC为59.508。

Fisher评分迭代次数:在逻辑回归模型拟合过程中,算法使用了5次迭代来收敛到最终的系数估计。

综上所述,anes1数据集中的conc变量与响应变量之间存在显著的正相关关系,而逻辑回归模型在拟合数据方面表现良好。这些结果提供了关于conc如何影响响应变量的有用信息。

对模型做出预测结果

根据不同的临界值threshold来计算TPR和FPR,之后绘制成图

for (i in 1:n){  
   
  threshold=data$prob[i]  
   
  tp=sum(data$prob>threshld&data$obs==1)  
   
  fp=sum(data$prob>thresold&data$obs==0)  
   
  tn=sum(data$prob)

7ab2a7f8250a8728abc810e3dfd8f99a.png

f241116f403f83013944cde63635550d.png

上面的方法是使用原始的0-1数据进行建模,即每一行数据均表示一个个体,另一种是使用汇总数据进行建模,先将原始数据按下面步骤进行汇总


gate(aneshetic[,c('move','nostheic$conc),FUN=sum)

对于汇总数据,有两种方法可以得到同样的结果,一种是将两种结果的向量合并做为因变量,如anes2模型。另一种是将比率做为因变量,总量做为权重进行建模,如anes3模型。这两种建模结果是一样的。


42e0449aba3e77b085154564cb2e6470.png

根据logistic模型,我们可以使用predict函数来预测结果,下面根据上述模型来绘图:

f126575159f3ae73397c90dcdadc5dcc.png

【视频】N-Gram、逻辑回归反欺诈模型文本分析招聘网站欺诈可视化讲解|附数据代码2:https://developer.aliyun.com/article/1501327


相关文章
|
Kubernetes Linux Docker
银河麒麟v10离线安装docker二进制包
银河麒麟v10离线安装docker二进制包
3554 0
|
域名解析 网络协议 Ubuntu
虚拟机ip不停地变每次使用ssh不好登录?有手就行!
虚拟机ip不停地变每次使用ssh不好登录?有手就行!
637 1
|
8月前
|
存储 人工智能 自然语言处理
AI在法律行业难以从简单工具转变为认知引擎,法律知识图谱如何解决这一难题?
本文AI产品专家三桥君探讨了AI如何从法律行业的辅助工具升级为具备认知能力的智能引擎。通过构建法律知识图谱,AI可实现法条精准引用、案件智能分析等核心功能,解决法律语义鸿沟和动态更新等挑战。三桥君介绍了知识图谱的构建过程及其在案件匹配、法条推理中的应用场景,并展示了智能助理在录音转写、案例检索、文书生成等实务中的落地价值。三桥君认为,法律知识图谱将推动AI从工具属性向认知引擎跃迁,提升法律服务效率与透明度。
378 1
|
7月前
|
弹性计算 负载均衡 安全
阿里云轻量应用服务器与ECS区别
阿里云轻量应用服务器与ECS云服务器对比:轻量版适合新手和小型应用,套餐化设计,含大流量,易上手但性能和灵活性有限;ECS为专业版,配置灵活,性能强,适合企业级应用,但操作复杂,生态丰富,按需计费。两者定位不同,适用于不同场景。
|
安全 数据处理 数据安全/隐私保护
C/S架构与B/S架构的适用场景分析
C/S架构(客户端/服务器架构)与B/S架构(浏览器/服务器架构)在适用场景上各有特点,主要取决于应用的具体需求、用户群体、系统维护成本、跨平台需求等因素。
1383 6
|
开发框架 Oracle Java
【编程基础知识】《Java 世界探秘:JRE、JDK 与 JDK 版本全解析》
JRE(Java Runtime Environment)是运行Java程序所需的环境,包含JVM和Java核心类库,适合普通用户使用。JDK(Java Development Kit)则是Java开发工具包,不仅包含JRE,还提供了编译器、调试器等开发工具,适用于开发者。两者的主要区别在于JDK用于开发,而JRE仅用于运行Java程序。JDK各版本不断引入新特性,如Java 8中的Lambda表达式和默认方法等。环境配置方面,Windows和Linux系统都有详细的步骤,确保Java程序能够顺利编译和运行。
629 1
|
运维 监控 数据可视化
贝锐蒲公英视频监控方案用户答疑:4G/5G入网,没有公网IP也能用
贝锐蒲公英提供创新的视频监控解决方案,适用于多种监控场景,无需依赖专网或公网IP,支持4G/5G网络,实现快速部署与高质量传输。其云端配置平台简化操作流程,具备二层组网与弱网优化功能,确保视频传输流畅。蒲公英还支持多品牌设备集中管理,提供专业级技术支持,适用于有无公网IP环境,确保远程监控高效稳定。
409 4
|
关系型数据库 MySQL Linux
Linux下查看软件安装与安装路径
Linux下查看软件安装与安装路径
2010 0
|
存储 Kubernetes 调度
在K8S中,突然之间无法访问到Pod,正确的排查思路是什么?
在K8S中,突然之间无法访问到Pod,正确的排查思路是什么?

热门文章

最新文章