全文链接:http://tecdat.cn/?p=32284
随着社会的发展,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新(点击文末“阅读原文”获取完整代码数据)。
而大数据的意义并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。
关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。关联分析是一个很有用的数据挖掘模型,能够帮助企业、政府做很多有用的决策,而“基于大数据的天气状况研究”目的是通过使用数据挖掘方法对某区域某段时间的天气情况和细颗粒物污染状况进行了分析,研究了细颗粒物污染程度与天气状况的关系,可视化呈现了地区天气温度等的变化趋势,最后得出对民众生活具有参考价值的结论。
大数据时代,气象服务在不断地拓宽领域,2012 年 12 月,绿色和平与北京大学公共卫生学院共同发布的 《 PM2.5 的健康危害和经济损失评估研究》指出:PM2.5污染对公众健康有致命危害。中国对 PM2.5 的浓度监测刚刚起步,对于 PM2.5 的来源、如何治理 PM2.5 的讨论也刚刚开始,PM2.5 作为在大气中存在着的污染物,它的含量与天气因素有关系,因此通过分析天气因素与 PM2.5 值的相关性,可以更好的了解以及控制 PM2.5 污染状况。
在这些美好蓝图的背后,数据分析、数据挖掘技术得到了充分的关注和研究。但在如今的大数据背景下,海量数据只有在被合理采集、解读与表达之后才能完美展现它们的瑰丽与深奥,而可视化则无疑是让数据变的亲切和便于理解的最有效的途径。只有在理解了数据可视化概念的本质之后,才能通过对其原理和方法进行研究和合理运用,获取数据背后隐含的价值。
在天气状况情况研究的应用和研究现状
随着全球工业化进程的不断加速,工业污染日趋严重,各地气象灾害频发,因此迫切需要对各类气象数据进行采集、处理和分析,对气象灾害进行预测和预警,减少经济损失。大数据技术的发展,使得处理海量、分布式的气象数据成为可能。国内硕士博士都进行着相关理论研究。
任务概述
目标
PM2.5 作为在大气中存在着的污染物,它的含量与天气因素有关系,因此通过分析天气与PM2.5值的相关性,可以更好的了解 PM2.5污染状况。
在研究 PM2.5 含量与天气因素关系时采用了西安PM值与天气状况作为样本(查看文末了解数据免费获取方式),通过使用数据挖掘软件R对上述获得的数据进行预处理、可视化分析,从而得到关于天气状况和PM2.5值的关系分析。
用户特点
该平台应用西安地区天气状况数据,尤其是PM值与天气因素的相关性,因此其主要用户为普通市民群众。PM2.5是指大气中直径小于或等于2.5微米的颗粒物,PM2.5被吸入人体后易引发包括哮喘、支气管炎和心血管病等方面的疾病。因此利用大数据来研究天气因素与PM2.5值的相关性以及温度走向,可以更好的服务普通群众,给群众的生活和出行带来方便。
假定和约束
为了得出PM2.5与天气状况(气温、风力风向等)的相关性分析结果。首先要获得西安地区六个月的PM2.5数值与天气状况(气温、风力风向等)的数据.在得到数据之后,将数据导入到 R软件中,完成数据的预处理和可视化后,采用 Apriori 算法对数据进行关联规则分析。为了将问题进一步简化,现作如下假设:
1、所查的数据均真实有效;
2、检测到的数据均为天气预报数据,忽略当天天气的变化;
关联分析
在研究PM2.5含量与天气因素关系时采用了西安的PM值与天气因素作为样本。通过使用数据挖掘软件 R 对上述获得的数据进行处理从而得到关于天气状况和 PM2.5 值的关系分析。在本次研究中,釆用了气温、天气情况( 晴天,多云,阴天,雾天,小雪,雪天,雾霾,小雨,雨天)和风向 ( 东风,西风,南风,北风,微风)作为选取的天气因素,将其与 PM2.5(以空气污染指数替代,分为优秀,良好,轻微污染,轻度污染,中度污染,重度污染)一起作为数据挖掘对象。
原始数据
读取数据
x=**read.xlsx**("西安近6个月天气情况数据源.xlsx" )
查看数据
**head**(x)
查看数据概述
**summary**(x)
改进算法CRApriori
CRApriori=function(support,confidence){ for(i in 1:2){ (minlen=i,support=saxlen=i)) **inspect**(frequentsets) *#查看i项频繁项集* *#这里如果支持度选的比较大,也许没有10这么多,这里就不能写[1:10].* **inspect**(**sort**(frequentsets,by="support")[1:10]) *#排序后查看* *#多选几次支持度阈值,更好的发现频繁模式。* fqout=**capture.output**(**inspect**(frequentsets)) *#获得i项频繁项集* for(ii in 1:**length**(data)){ data[[ii]]=**intersect**(data[[ii]],fq3) *#运用改进算法CRApriori删除事务集中不包括候选项集Ci即频繁i-1项集L(i-1),* } parameter = **list**(sup, target = "rules") )
查看模型结果关联规则概述
**summary**(rles)
点击标题查阅往期内容
01
02
03
04
按支持度查看前6条规则
**inspect**(**sort**(rusupport")[1:6])
按置信度查看前6条规则
**inspect**(**sort**(rules,bence")[1:6])
FrequencyPlot**ex.names =0.8) *#数据画频繁项的图
#绘制不同规则图形来表示支持度,置信度和提升度* **plot**(rules,
通过该图可以看到规则前项和规则后项分别有哪些天气情况 以及每个天气情况的支持度大小,支持度越大则圆圈越大。
从该图可以看到支持度和置信度的关系,置信度越高提升度也越高。
从该图可以看到支持度和置信度的关系,提升度越高置信度也越高。
**plot**(rules, method=
参考资料
- 危蓉.基于大数据的天气状况研究[A].湖北警官学院信息技术系,2015.
- 李观松.城市环境空气质量数据挖掘与可视化的研究[D].山东大学计算机软件与理论,2007.
- 曾悠.大数据时代背景下的数据可视化概念研究[D].浙江大学计算机科学与技术学院,2014.