面向大数据的时空数据挖掘

简介:

早期的数据挖掘研究主要针对字符、数值型的商业数据,随着信息技术的不断提高以及移动设备和网络的广泛使用,数据产生的速度越来越快,数据收集的频率越来越高,数据密度的增长越来越显著,这些因素都使得大数据问题成为一种必然的趋势。而在大数据时代下很多商业数据都包含有时间和空间信息,比如设备,建筑,机构等的管理,能量的产生,分布及预测等。

早期的数据挖掘研究主要针对字符、数值型的商业数据,随着信息技术的不断提高以及移动设备和网络的广泛使用,数据产生的速度越来越快,数据收集的频率越来越高,数据密度的增长越来越显著,这些因素都使得大数据问题成为一种必然的趋势。而在大数据时代下很多商业数据都包含有时间和空间信息,比如设备,建筑,机构等的管理,能量的产生,分布及预测等。

IBM SPSS Modeler 是参照行业标准 CRISP-DM 模型设计而成的数据挖掘工具,可支持从数据到更优商业成果的整个数据挖掘过程。通过结合时空数据和其他商业数据,并且运用数据挖掘工具 IBM SPSS Modeler 对时间和空间属性进行观测分析,进而获得对数据的充分理解,并将其应用于商业活动,从而改进决策过程。

面向大数据的时空数据挖掘的重要性

20世纪90年代中后期,数据挖掘领域的一些较成熟的技术,如关联规则挖掘、分类、预测与聚类等被逐渐用于时间序列数据挖掘和空间结构数据挖掘,以发现与时间或空间相关的有价值的模式,并且得到了快速发展。信息网络和手持移动设备等的普遍应用,以及遥感卫星和地理信息系统等的显著进步,使人们前所未有地获取了大量的地理科学数据。这些地理科学数据通常与时间序列相互关联,并且隐含许多不易发现的、又潜在有用的模式。从这些非线性、海量、高维和高噪声的时空数据中提取出有价值的信息并用于商业应用,使得时空数据挖掘具有额外的特殊性和复杂性。因此,寻找有效的时空数据分析技术对于时空数据中有价值的时空模式的自动抽取与分析具有重要意义。

近年来,时空数据已成为数据挖掘领域的研究热点,在国内外赢得了广泛关注。同时,时空数据挖掘也在许多领域得到应用,如交通管理、犯罪分析、疾病监控、环境监测、公共卫生与医疗健康等。时空数据挖掘作为一个新兴的研究领域,正致力于开发和应用新兴的计算技术来分析海量、高维的时空数据,发掘时空数据中有价值的信息。

面向大数据的时空数据挖掘的挑战

尽管时空数据挖掘研究在近几年引起了人们的广泛关注并得到快速发展,但与传统数据挖掘相比,时空数据挖掘研究还远未成熟。随着时空数据采集效率的不断提高,时空数据积累越来越大,时空数据挖掘也面临诸多挑战。

理论框架

相较于传统的数据挖掘技术,时空数据挖掘研究还远未成熟。对于结构复杂且形式多样的时空数据,如何寻找合适的数据挖掘算法或者技术,可以挖掘什么有价值的模式,如何对这些模式进行分析?这些问题的解决都迫切需要构建一个时空数据挖掘的理论框架。清晰定义的理论框架将会给该研究领域带来理论上的指导,一方面可更好地理解时空模式需要具备的表达能力,另一方面有助于提出更有效的实现技术。

大数据管理

近年来,传感器网络、移动互联网、射频识别、全球定位系统等设备的快速发展和广泛应用,造成数据量的爆炸式增长,数据增加的速度远远超过现有的处理能力。虽然以 MapReduce 和 Hadoop 为代表的大规模并行计算平台的出现,为学术界提供了一条研究大数据问题的新思路,但这些技术也有其固有的局限性。一方面,时空数据本质上是非结构化数据,不仅包含时间序列模型,还存在地图模型,例如城市网络、道路网络等。基于地图模型的算法时间复杂度通常比较大,对时空数据的存储管理和索引技术要求比较高。另一方面,MapReduce 计算模型的组织形式和数据处理方法不适合处理时空数据模型;Hadoop 技术也无法有效支持数据挖掘中监督学习所用的迭代式计算方法,因而无法完全满足时空数据分析的需要。这些对学术界和工业界来数都是一项巨大的挑战。因此,为了分析处理时空大数据,迫切需要更可靠、更有效和更实用的数据管理和处理技术。

时空数据融合

社交网络、遥感和传感器等设备的普遍应用产生了海量的时空数据,且每种设备生成的数据和数据形式各不相同,形成了时空数据结构复杂且来源多样的特性。此外,互联网的蓬勃发展,在文字、音频和视频等多媒体数据中同样包含了丰富的时空数据。例如,广泛覆盖城市的监控摄像头,记录了道路车辆的轨迹信息,从视频中可以还原出被监控车辆的移动轨迹。所以,对时空数据进行有效整合、清洗、转换和提取是时空数据预处理面临的重要问题。

时空推理和数据挖掘的深度结合

时空数据中的时间关系和空间关系通常比较复杂,尤其很多可度量的和不可度量的时间关系和空间关系都是隐含在时空数据中,这就需要在数据挖掘系统中结合时空推理加以考虑这些复杂的时空关系。时空推理和数据挖掘的深度结合,一方面可以发掘更多时空模式及信息,增强时空模式的可理解性;另一方面可以显著提高挖掘的效率和质量。但有利亦有弊:挖掘数据中隐含的时空关系必然会引入某种程度的不确定性和模糊性,这将很大程度上影响数据挖掘的结果。因此,结合时空推理和数据挖掘需要适当折中模型表达能力和时空推理能力。

面向大数据的时空数据挖掘的应用

如上所述,时空数据挖掘的应用非常广泛,如交通运输、地质灾害监测与预防、气象研究、竞技体育、犯罪分析、公共卫生与医疗及社交网络应用等。这里我们简单介绍两个时空数据挖掘的应用案例,借此了解一下时空数据挖掘在现实生活中的实际应用。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
|
5月前
|
机器学习/深度学习 算法 数据挖掘
【大数据】数据挖掘工具:发现数据中的宝藏
【大数据】数据挖掘工具:发现数据中的宝藏
65 0
|
存储 数据采集 算法
Paper Time|开放式时空大数据助力智能公交路线规划
Paper Time|开放式时空大数据助力智能公交路线规划
498 0
Paper Time|开放式时空大数据助力智能公交路线规划
|
人工智能 数据挖掘
AI:2020年6月23日北京智源大会演讲分享之AI交通专题论坛——11:05-11:35杜博文教授《基于广义时空数据挖掘的交通复杂行为认知-从研究到工业》
AI:2020年6月23日北京智源大会演讲分享之AI交通专题论坛——11:05-11:35杜博文教授《基于广义时空数据挖掘的交通复杂行为认知-从研究到工业》
AI:2020年6月23日北京智源大会演讲分享之AI交通专题论坛——11:05-11:35杜博文教授《基于广义时空数据挖掘的交通复杂行为认知-从研究到工业》
|
机器学习/深度学习 人工智能 大数据
人工智能、大数据、数据挖掘、机器学习-数据集来源(下)
人工智能、大数据、数据挖掘、机器学习-数据集来源(下)
180 0
|
机器学习/深度学习 存储 人工智能
人工智能、大数据、数据挖掘、机器学习-数据集来源(中)
人工智能、大数据、数据挖掘、机器学习-数据集来源(中)
140 0
|
机器学习/深度学习 数据采集 存储
人工智能、大数据、数据挖掘、机器学习-数据集来源(上)
人工智能、大数据、数据挖掘、机器学习-数据集来源(上)
156 0

热门文章

最新文章