数据分享|R语言改进Apriori关联规则挖掘研究西安PM2.5含量与天气因素关系数据可视化

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 数据分享|R语言改进Apriori关联规则挖掘研究西安PM2.5含量与天气因素关系数据可视化

全文链接:http://tecdat.cn/?p=32284

随着社会的发展,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新点击文末“阅读原文”获取完整代码数据


而大数据的意义并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。

关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。关联分析是一个很有用的数据挖掘模型,能够帮助企业、政府做很多有用的决策,而“基于大数据的天气状况研究”目的是通过使用数据挖掘方法对某区域某段时间的天气情况和细颗粒物污染状况进行了分析,研究了细颗粒物污染程度与天气状况的关系,可视化呈现了地区天气温度等的变化趋势,最后得出对民众生活具有参考价值的结论。

大数据时代,气象服务在不断地拓宽领域,2012 年 12 月,绿色和平与北京大学公共卫生学院共同发布的 《 PM2.5 的健康危害和经济损失评估研究》指出:PM2.5污染对公众健康有致命危害。中国对 PM2.5 的浓度监测刚刚起步,对于 PM2.5 的来源、如何治理 PM2.5 的讨论也刚刚开始,PM2.5 作为在大气中存在着的污染物,它的含量与天气因素有关系,因此通过分析天气因素与 PM2.5 值的相关性,可以更好的了解以及控制 PM2.5 污染状况。

在这些美好蓝图的背后,数据分析、数据挖掘技术得到了充分的关注和研究。但在如今的大数据背景下,海量数据只有在被合理采集、解读与表达之后才能完美展现它们的瑰丽与深奥,而可视化则无疑是让数据变的亲切和便于理解的最有效的途径。只有在理解了数据可视化概念的本质之后,才能通过对其原理和方法进行研究和合理运用,获取数据背后隐含的价值。


在天气状况情况研究的应用和研究现状

随着全球工业化进程的不断加速,工业污染日趋严重,各地气象灾害频发,因此迫切需要对各类气象数据进行采集、处理和分析,对气象灾害进行预测和预警,减少经济损失。大数据技术的发展,使得处理海量、分布式的气象数据成为可能。国内硕士博士都进行着相关理论研究。


任务概述


目标

PM2.5 作为在大气中存在着的污染物,它的含量与天气因素有关系,因此通过分析天气与PM2.5值的相关性,可以更好的了解 PM2.5污染状况。

在研究 PM2.5 含量与天气因素关系时采用了西安PM值与天气状况作为样本查看文末了解数据免费获取方式,通过使用数据挖掘软件R对上述获得的数据进行预处理、可视化分析,从而得到关于天气状况和PM2.5值的关系分析。

用户特点

该平台应用西安地区天气状况数据,尤其是PM值与天气因素的相关性,因此其主要用户为普通市民群众。PM2.5是指大气中直径小于或等于2.5微米的颗粒物,PM2.5被吸入人体后易引发包括哮喘、支气管炎和心血管病等方面的疾病。因此利用大数据来研究天气因素与PM2.5值的相关性以及温度走向,可以更好的服务普通群众,给群众的生活和出行带来方便。

假定和约束

为了得出PM2.5与天气状况(气温、风力风向等)的相关性分析结果。首先要获得西安地区六个月的PM2.5数值与天气状况(气温、风力风向等)的数据.在得到数据之后,将数据导入到 R软件中,完成数据的预处理和可视化后,采用 Apriori 算法对数据进行关联规则分析。为了将问题进一步简化,现作如下假设:

1、所查的数据均真实有效;

2、检测到的数据均为天气预报数据,忽略当天天气的变化;


关联分析


在研究PM2.5含量与天气因素关系时采用了西安的PM值与天气因素作为样本。通过使用数据挖掘软件 R 对上述获得的数据进行处理从而得到关于天气状况和 PM2.5 值的关系分析。在本次研究中,釆用了气温、天气情况( 晴天,多云,阴天,雾天,小雪,雪天,雾霾,小雨,雨天)和风向 ( 东风,西风,南风,北风,微风)作为选取的天气因素,将其与 PM2.5(以空气污染指数替代,分为优秀,良好,轻微污染,轻度污染,中度污染,重度污染)一起作为数据挖掘对象。

原始数据

读取数据

x=**read.xlsx**("西安近6个月天气情况数据源.xlsx" )

查看数据

**head**(x)

查看数据概述

**summary**(x)

改进算法CRApriori

CRApriori=function(support,confidence){  
for(i in 1:2){  
(minlen=i,support=saxlen=i))  
**inspect**(frequentsets) *#查看i项频繁项集*  
*#这里如果支持度选的比较大,也许没有10这么多,这里就不能写[1:10].*  
**inspect**(**sort**(frequentsets,by="support")[1:10]) *#排序后查看*  
*#多选几次支持度阈值,更好的发现频繁模式。*  
fqout=**capture.output**(**inspect**(frequentsets)) *#获得i项频繁项集*  
for(ii in 1:**length**(data)){  
  data[[ii]]=**intersect**(data[[ii]],fq3) *#运用改进算法CRApriori删除事务集中不包括候选项集Ci即频繁i-1项集L(i-1),*  
}
parameter = **list**(sup,  
                                  target = "rules") )

查看模型结果关联规则概述

**summary**(rles)


点击标题查阅往期内容


R语言用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律


01

02

03

04


按支持度查看前6条规则


**inspect**(**sort**(rusupport")[1:6])


按置信度查看前6条规则


**inspect**(**sort**(rules,bence")[1:6])

FrequencyPlot**ex.names =0.8)   *#数据画频繁项的图

#绘制不同规则图形来表示支持度,置信度和提升度*  
**plot**(rules,

通过该图可以看到规则前项和规则后项分别有哪些天气情况 以及每个天气情况的支持度大小,支持度越大则圆圈越大。

从该图可以看到支持度和置信度的关系,置信度越高提升度也越高。

从该图可以看到支持度和置信度的关系,提升度越高置信度也越高。

**plot**(rules, method=


参考资料

  • 危蓉.基于大数据的天气状况研究[A].湖北警官学院信息技术系,2015.
  • 李观松.城市环境空气质量数据挖掘与可视化的研究[D].山东大学计算机软件与理论,2007.
  • 曾悠.大数据时代背景下的数据可视化概念研究[D].浙江大学计算机科学与技术学院,2014.
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
4月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
|
4月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
3月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
66 3
|
8月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
8月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
5月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
5月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
5月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
98 3