数据分享|R语言改进Apriori关联规则挖掘研究西安PM2.5含量与天气因素关系数据可视化

简介: 数据分享|R语言改进Apriori关联规则挖掘研究西安PM2.5含量与天气因素关系数据可视化

全文链接:http://tecdat.cn/?p=32284

随着社会的发展,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新点击文末“阅读原文”获取完整代码数据


而大数据的意义并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。

关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。关联分析是一个很有用的数据挖掘模型,能够帮助企业、政府做很多有用的决策,而“基于大数据的天气状况研究”目的是通过使用数据挖掘方法对某区域某段时间的天气情况和细颗粒物污染状况进行了分析,研究了细颗粒物污染程度与天气状况的关系,可视化呈现了地区天气温度等的变化趋势,最后得出对民众生活具有参考价值的结论。

大数据时代,气象服务在不断地拓宽领域,2012 年 12 月,绿色和平与北京大学公共卫生学院共同发布的 《 PM2.5 的健康危害和经济损失评估研究》指出:PM2.5污染对公众健康有致命危害。中国对 PM2.5 的浓度监测刚刚起步,对于 PM2.5 的来源、如何治理 PM2.5 的讨论也刚刚开始,PM2.5 作为在大气中存在着的污染物,它的含量与天气因素有关系,因此通过分析天气因素与 PM2.5 值的相关性,可以更好的了解以及控制 PM2.5 污染状况。

在这些美好蓝图的背后,数据分析、数据挖掘技术得到了充分的关注和研究。但在如今的大数据背景下,海量数据只有在被合理采集、解读与表达之后才能完美展现它们的瑰丽与深奥,而可视化则无疑是让数据变的亲切和便于理解的最有效的途径。只有在理解了数据可视化概念的本质之后,才能通过对其原理和方法进行研究和合理运用,获取数据背后隐含的价值。


在天气状况情况研究的应用和研究现状

随着全球工业化进程的不断加速,工业污染日趋严重,各地气象灾害频发,因此迫切需要对各类气象数据进行采集、处理和分析,对气象灾害进行预测和预警,减少经济损失。大数据技术的发展,使得处理海量、分布式的气象数据成为可能。国内硕士博士都进行着相关理论研究。


任务概述


目标

PM2.5 作为在大气中存在着的污染物,它的含量与天气因素有关系,因此通过分析天气与PM2.5值的相关性,可以更好的了解 PM2.5污染状况。

在研究 PM2.5 含量与天气因素关系时采用了西安PM值与天气状况作为样本查看文末了解数据免费获取方式,通过使用数据挖掘软件R对上述获得的数据进行预处理、可视化分析,从而得到关于天气状况和PM2.5值的关系分析。

用户特点

该平台应用西安地区天气状况数据,尤其是PM值与天气因素的相关性,因此其主要用户为普通市民群众。PM2.5是指大气中直径小于或等于2.5微米的颗粒物,PM2.5被吸入人体后易引发包括哮喘、支气管炎和心血管病等方面的疾病。因此利用大数据来研究天气因素与PM2.5值的相关性以及温度走向,可以更好的服务普通群众,给群众的生活和出行带来方便。

假定和约束

为了得出PM2.5与天气状况(气温、风力风向等)的相关性分析结果。首先要获得西安地区六个月的PM2.5数值与天气状况(气温、风力风向等)的数据.在得到数据之后,将数据导入到 R软件中,完成数据的预处理和可视化后,采用 Apriori 算法对数据进行关联规则分析。为了将问题进一步简化,现作如下假设:

1、所查的数据均真实有效;

2、检测到的数据均为天气预报数据,忽略当天天气的变化;


关联分析


在研究PM2.5含量与天气因素关系时采用了西安的PM值与天气因素作为样本。通过使用数据挖掘软件 R 对上述获得的数据进行处理从而得到关于天气状况和 PM2.5 值的关系分析。在本次研究中,釆用了气温、天气情况( 晴天,多云,阴天,雾天,小雪,雪天,雾霾,小雨,雨天)和风向 ( 东风,西风,南风,北风,微风)作为选取的天气因素,将其与 PM2.5(以空气污染指数替代,分为优秀,良好,轻微污染,轻度污染,中度污染,重度污染)一起作为数据挖掘对象。

原始数据

读取数据

x=**read.xlsx**("西安近6个月天气情况数据源.xlsx" )

查看数据

**head**(x)

查看数据概述

**summary**(x)

改进算法CRApriori

CRApriori=function(support,confidence){  
for(i in 1:2){  
(minlen=i,support=saxlen=i))  
**inspect**(frequentsets) *#查看i项频繁项集*  
*#这里如果支持度选的比较大,也许没有10这么多,这里就不能写[1:10].*  
**inspect**(**sort**(frequentsets,by="support")[1:10]) *#排序后查看*  
*#多选几次支持度阈值,更好的发现频繁模式。*  
fqout=**capture.output**(**inspect**(frequentsets)) *#获得i项频繁项集*  
for(ii in 1:**length**(data)){  
  data[[ii]]=**intersect**(data[[ii]],fq3) *#运用改进算法CRApriori删除事务集中不包括候选项集Ci即频繁i-1项集L(i-1),*  
}
parameter = **list**(sup,  
                                  target = "rules") )

查看模型结果关联规则概述

**summary**(rles)


点击标题查阅往期内容


R语言用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律


01

02

03

04


按支持度查看前6条规则


**inspect**(**sort**(rusupport")[1:6])


按置信度查看前6条规则


**inspect**(**sort**(rules,bence")[1:6])

FrequencyPlot**ex.names =0.8)   *#数据画频繁项的图

#绘制不同规则图形来表示支持度,置信度和提升度*  
**plot**(rules,

通过该图可以看到规则前项和规则后项分别有哪些天气情况 以及每个天气情况的支持度大小,支持度越大则圆圈越大。

从该图可以看到支持度和置信度的关系,置信度越高提升度也越高。

从该图可以看到支持度和置信度的关系,提升度越高置信度也越高。

**plot**(rules, method=


参考资料

  • 危蓉.基于大数据的天气状况研究[A].湖北警官学院信息技术系,2015.
  • 李观松.城市环境空气质量数据挖掘与可视化的研究[D].山东大学计算机软件与理论,2007.
  • 曾悠.大数据时代背景下的数据可视化概念研究[D].浙江大学计算机科学与技术学院,2014.
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5天前
|
数据库
R语言关联规则Apriori对抗肿瘤中药数据库知识发现研究(下)
R语言关联规则Apriori对抗肿瘤中药数据库知识发现研究(下)
|
5天前
|
机器学习/深度学习 数据采集 算法
R语言、WEKA关联规则、决策树、聚类、回归分析工业企业创新情况影响因素数据
R语言、WEKA关联规则、决策树、聚类、回归分析工业企业创新情况影响因素数据
|
5天前
|
数据采集 数据可视化
R语言关联规则Apriori对杭州空气质量与气象因子数据研究可视化
R语言关联规则Apriori对杭州空气质量与气象因子数据研究可视化
|
5天前
|
机器学习/深度学习 算法 数据可视化
R语言改进关联规则挖掘Apriori在超市销售数据可视化
R语言改进关联规则挖掘Apriori在超市销售数据可视化
|
5天前
|
数据可视化 数据建模
R语言广义加性混合模型(GAMM)分析长沙气象因子、空气污染、PM2.5浓度、显著性检验、逐日变化可视化(下)
R语言广义加性混合模型(GAMM)分析长沙气象因子、空气污染、PM2.5浓度、显著性检验、逐日变化可视化
|
5天前
|
机器学习/深度学习 数据可视化
R语言广义加性混合模型(GAMM)分析长沙气象因子、空气污染、PM2.5浓度、显著性检验、逐日变化可视化(上)
R语言广义加性混合模型(GAMM)分析长沙气象因子、空气污染、PM2.5浓度、显著性检验、逐日变化可视化
|
5天前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
5天前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
5天前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
5天前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)

热门文章

最新文章