数据分享|R语言关联规则挖掘apriori算法挖掘评估汽车性能数据

2024-04-28 359

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据分享|R语言关联规则挖掘apriori算法挖掘评估汽车性能数据

全文链接：http://tecdat.cn/?p=32092

我们一般把一件事情发生，对另一件事情也会产生影响的关系叫做关联。而关联分析就是在大量数据中发现项集之间有趣的关联和相关联系（形如“由于某些事件的发生而引起另外一些事件的发生”）（点击文末“阅读原文”获取完整代码数据）。

我们的生活中有许多关联，一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中的不同商品之间的联系，分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买，这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。

本文运用Apriori算法帮助客户对汽车性能相关数据（查看文末了解数据免费获取方式）进行数据挖掘，探索变量间的关联性。为汽车厂商分类汽车性能提供参考。

汽车性能数据

这个数据模型用于评估车的性能方面的好坏。该数据主要包含一些车的技术性和价格等变量。

数据变量介绍

数据描述2种类型的列车。变量包括：

汽车可接受的价格
买入价格
维护价格
技术特点
舒适度
车门数
携带能力
行李箱
汽车的安全性

所有的变量为分类变量，值为好，一般，较差。

最后的分类属性为车的总体分类：分为4个类型：好，较好，一般和较差。

数据分析框架

本文使用关联规则挖掘apriori算法来发现车的性能价格等属性的常见模式和规则：

1 数据预处理：包括读取数据，清理缺失数据，将数据转化成关联挖掘数据类型。

2 查看频繁项集，发现合适的支持度和置信度阈值用于后续的关联规则挖掘。

3 查看关联规则挖掘结果，发现有价值的规则。

具体数据分析过程

读取数据

表原始数据

查看数据，V1-V7为相应的属性。下面的值分别代表车中设备的数量和性能的好坏。

首先以最小支持度为0.05来挖掘出较频繁出现的规则：

表频繁规则

可以发现，V4，V7，V5这些属性在数据集中是经常出现的变量。同时可以看到他们的属性值。

于是我们找到最频繁出现的前十个集合（频繁项集）：

表前十个频繁项集

可以看到V7也就是价格是不可接受的车达到了70%左右。其次是V7为unacc和V6为low的车辆集合，也就是价格难以接受和安全性能低的车辆。

进行 Apriori 关联规则模型的拟合

通过上面的判断，我们将支持度设置为0.1也就是10-%左右，用于筛选出较频繁的规则。

于是进行关联规则挖掘：

表规则概要

通过查看模型概要，我们可以发现得到了20条规则，其中规则长度1的有1条，2的有8条，3的有11条。

查看规则：

表规则数据

以及规则的支持度置信度和提高度。

表规则质量

可以看到每条规则的质量。比如前6条规则，我们可以看到当车的购入价格很高时，大部分消费者认为不能接受这部车。或者当车的维护费用很高时，购买者也不能接受。

或者当车是两个门的时候，一般该车是跑车或者设计特殊，这是人们也会不能接受购买这部车，也许因为它的价格因素。

点击标题查阅往期内容

R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化

图关联规则模型结果

从圆圈的大小，我们可以判断规则的支持度大小，从圆圈的颜色深浅我们可以判断该规则的置信度大小。

图关联规则结果

从上面结果，我们可以看到20条规则的可视化结果，圆圈越大代表该规则的支持度越高，通过箭头我们可以判断其规则的前后推断关系。

于是我们找到置信度和支持度最高的规则，作为最有价值的规则。

表关联规则有价值的结果

V6为车的安全性，V4为车的装载人数，如果安全性差并且只能装载2个人，消费者不会购买这辆车。因此车的安全性是一个是否购买车的重要的影响因素。

数据分析结论

从分析的结果可以看到，关联规则的模型效果在该数据集上效果较好，同时得到了一些有价值的规则，比如人们在购买车辆时主要会考虑车的价格因素，以及他的维护费用，这些因素会影响人们是否购买车辆，其中，人们也十分关心车辆的安全性能和装载性能，当车性能不安全的话，人们很难接受，甚至该因素的影响会超过价格的因素。通过这些规则我们可以对车辆提出一些营销策略。

数据分享|R语言关联规则挖掘apriori算法挖掘评估汽车性能数据

全文链接：http://tecdat.cn/?p=32092

汽车性能数据

数据变量介绍

数据分析框架

具体数据分析过程

读取数据

进行 Apriori 关联规则模型的拟合

查看规则：

数据分析结论

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据分享|R语言关联规则挖掘apriori算法挖掘评估汽车性能数据

全文链接：http://tecdat.cn/?p=32092

汽车性能数据

数据变量介绍

数据分析框架

具体数据分析过程

读取数据

进行 Apriori 关联规则 模型的拟合

查看规则：

数据分析结论

热门文章

最新文章

相关课程

相关电子书

进行 Apriori 关联规则模型的拟合