R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享

简介: R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享

数据挖掘技术跨区域犯罪预警中的研究与应用尚处于起步阶段,许多跨区域犯罪预警业务信息系统还停留在初级处理水平,缺乏综合性的开发应用,智能化的分析研判,科学性的决策预警;缺乏对数据由微观到宏观的加工能力,由宏观数据到微观数据的问题发现手段点击文末“阅读原文”获取完整代码数据

相关视频

image.png

image.png

如何利用数据挖掘技术挖掘和提取潜藏在大量业务数据中具备关联性的规律趋势,提高跨区域犯罪预警执法效率与快速反应能力、及时预防和打击犯罪行为,为警务决策提供支持服务,是本文研究的重点。

在结合公安犯罪行为分析实际的基础上,进行了基于决策树算法的犯罪行为分析原型系统设计,提出了功能需求与系统流程图,介绍了原型系统模块构成和实现。

分析表明:运用数据挖掘技术对公安信息数据库中的海量数据进行挖掘处理,发现趋势规律,从而快速准确的辅助警务决策,在跨区域犯罪预警中具有重要的现实意义。

数据准备

本文使用社区与犯罪相关数据查看文末了解数据免费获取方式,其结合了人口普查的社会经济数据。通过相关的数据,我们将进行数据分析,得到想要的结果。社区犯罪本身与许多因素有关,Communities也提供了很多相关数据。因为数据有所缺失,在使用前我们进行了相关处理。

首先,我们取ViolentCrimesPerPop(total number ofviolent crimes per 100K popuation)作为因变量,与这些影响元素做回归分析,发现拟合的效果很差,而且结果也难以解读。

跨区域犯罪预警模型的建立

在结合公安犯罪行为分析实际的基础上,进行了基于决策树算法的犯罪行为分析原型系统设计与实验,提出了功能需求与系统流程图,介绍了原型系统模块构成和实现。实验及分析表明:运用数据挖掘技术对公安信息数据库中的海量数据进行挖掘处理,发现趋势规律,从而快速准确的辅助警务决策,在跨区域犯罪中具有重要的现实意义。

建立模型和评估优化

接下来我们通过画图来观察部分系数检验效果很好的变量:

79ec852f302813525ba3113eeb3ecb49.png

93651debc198014ee563105633b54d91.png

采用主成分分析降维

看图screeplot,考虑前6个主成分。

11d4de3dddba6be016a9161d6f9f7fea.png


6f16523c84ec87b84bbf3edfe3452dd5.png

可以看到检验效果还不错,再进一步观察:

dd010df30018fe71b8e8a70af968fb2b.png

观察图predict.jpg可以看到总体趋势确实接近,但是无法再进一步作更精确的预测,因而转向其他方法。

建立模型和优化

接下来,我们用决策树对communities分类

并找出那些对ViolentCrimesPerPop最有影响的因素

summary(D$ViolentCrimesPerPop)

d00988904ef5c33c0403f796cac1e52c.png

按1st Qu,3rd Qu划分,将社区评级为Good,Medium,Bad

plot(rp)
text(rp)

1f3fffa71e87c46dd7082e5f2d88124d.png

可以看到,决策树的主要的分类节点为

PctKids2Par: percentage of kids in familyhousing with two parents

HousVacant: number of vacant households

pctWInvInc: percentage of households withinvestment / rent income in 1989

OwnOccHiQuart: owner occupied housing -upper quartile value

NumIlleg: number of kids born to nevermarried

racePctWhite: percentage of population thatis caucasian

PersPerOccupHous: mean persons perhousehold

MalePctDivorce: percentage of males who aredivorced

使用决策树对communities进行分类并找出对ViolentCrimesPerPop(每人口的暴力犯罪数)最有影响的因素是一个很好的分析策略。决策树通过递归地将数据集分割成更小的、更纯的子集来工作,每个分割点都基于一个特定的特征值。

在给出的特征中对犯罪数有影响的因素有:

  • PctKids2Par:家庭住房中双亲家庭的孩子百分比
  • HousVacant:空置户数的数量
  • pctWInvInc:1989年拥有投资/租金收入的户数的百分比
  • OwnOccHiQuart:业主自住房的上四分位数价值
  • NumIlleg:从未结婚的孩子的数量
  • racePctWhite:白种人人口的百分比
  • PersPerOccupHous:每户平均人数
  • MalePctDivorce:离婚的男性百分比

模型发布和模型应用

·OwnOccHiQuart

函数关系不明确。但是大多数的点集中在左下角,正相关。

·NumIlleg

·racePctWhite

函数关系不明确。但是大多数的点集中在右下角,负相关。

image.png

预警模型的验证

我们对模型进行检测:

pre=predict(rp,A)
for(i in 1:3){
for (j in 1:1994)
if (pre[j,i]>=pre[j,1] &&pre[j,i]>

决策树分类效果不错,准确率大概0.742。可以预见,如果用组合算法的话,准确率会很高。

下面,我们将一半的数据用于训练。

boost(Rank~.,data=A[1:1000,])

efb18cc738fda1adcc88668258cd80aa.png

准确率约为0.860。

存在问题和相关建议

尽管开展了基于犯罪行为分析的决策树原型系统的设计,但还有许多不足之处,如数据表中的离散化数据缺少一定的灵活性,不能够完全反映复杂类型数据的信息,需要进一步改进;其次数据是基于内存而不是磁盘或磁盘组,也未能实现动态的加载数据,另外程序还有待于进一步优化以提高程序运行速度。

相关文章
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
21天前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
40 3
|
2月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
3月前
|
SQL 存储 算法
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
恒生科技2022年9月24号数据ETL工程师岗位的笔试题目及答案汇总,包括了SQL选择题、SQL编程题和业务应用SQL编程题,涵盖了数据库基础知识、SQL语句编写以及数据仓库概念等多个方面。
60 2
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
3月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
3月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
3月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
68 3
|
3月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
59 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
3月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
74 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解

热门文章

最新文章