面向大数据的时空数据挖掘

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

早期的数据挖掘研究主要针对字符、数值型的商业数据,随着信息技术的不断提高以及移动设备和网络的广泛使用,数据产生的速度越来越快,数据收集的频率越来越高,数据密度的增长越来越显著,这些因素都使得大数据问题成为一种必然的趋势。而在大数据时代下很多商业数据都包含有时间和空间信息,比如设备,建筑,机构等的管理,能量的产生,分布及预测等。

早期的数据挖掘研究主要针对字符、数值型的商业数据,随着信息技术的不断提高以及移动设备和网络的广泛使用,数据产生的速度越来越快,数据收集的频率越来越高,数据密度的增长越来越显著,这些因素都使得大数据问题成为一种必然的趋势。而在大数据时代下很多商业数据都包含有时间和空间信息,比如设备,建筑,机构等的管理,能量的产生,分布及预测等。

IBM SPSS Modeler 是参照行业标准 CRISP-DM 模型设计而成的数据挖掘工具,可支持从数据到更优商业成果的整个数据挖掘过程。通过结合时空数据和其他商业数据,并且运用数据挖掘工具 IBM SPSS Modeler 对时间和空间属性进行观测分析,进而获得对数据的充分理解,并将其应用于商业活动,从而改进决策过程。

面向大数据的时空数据挖掘的重要性

20世纪90年代中后期,数据挖掘领域的一些较成熟的技术,如关联规则挖掘、分类、预测与聚类等被逐渐用于时间序列数据挖掘和空间结构数据挖掘,以发现与时间或空间相关的有价值的模式,并且得到了快速发展。信息网络和手持移动设备等的普遍应用,以及遥感卫星和地理信息系统等的显著进步,使人们前所未有地获取了大量的地理科学数据。这些地理科学数据通常与时间序列相互关联,并且隐含许多不易发现的、又潜在有用的模式。从这些非线性、海量、高维和高噪声的时空数据中提取出有价值的信息并用于商业应用,使得时空数据挖掘具有额外的特殊性和复杂性。因此,寻找有效的时空数据分析技术对于时空数据中有价值的时空模式的自动抽取与分析具有重要意义。

近年来,时空数据已成为数据挖掘领域的研究热点,在国内外赢得了广泛关注。同时,时空数据挖掘也在许多领域得到应用,如交通管理、犯罪分析、疾病监控、环境监测、公共卫生与医疗健康等。时空数据挖掘作为一个新兴的研究领域,正致力于开发和应用新兴的计算技术来分析海量、高维的时空数据,发掘时空数据中有价值的信息。

面向大数据的时空数据挖掘的挑战

尽管时空数据挖掘研究在近几年引起了人们的广泛关注并得到快速发展,但与传统数据挖掘相比,时空数据挖掘研究还远未成熟。随着时空数据采集效率的不断提高,时空数据积累越来越大,时空数据挖掘也面临诸多挑战。

理论框架

相较于传统的数据挖掘技术,时空数据挖掘研究还远未成熟。对于结构复杂且形式多样的时空数据,如何寻找合适的数据挖掘算法或者技术,可以挖掘什么有价值的模式,如何对这些模式进行分析?这些问题的解决都迫切需要构建一个时空数据挖掘的理论框架。清晰定义的理论框架将会给该研究领域带来理论上的指导,一方面可更好地理解时空模式需要具备的表达能力,另一方面有助于提出更有效的实现技术。

大数据管理

近年来,传感器网络、移动互联网、射频识别、全球定位系统等设备的快速发展和广泛应用,造成数据量的爆炸式增长,数据增加的速度远远超过现有的处理能力。虽然以 MapReduce 和 Hadoop 为代表的大规模并行计算平台的出现,为学术界提供了一条研究大数据问题的新思路,但这些技术也有其固有的局限性。一方面,时空数据本质上是非结构化数据,不仅包含时间序列模型,还存在地图模型,例如城市网络、道路网络等。基于地图模型的算法时间复杂度通常比较大,对时空数据的存储管理和索引技术要求比较高。另一方面,MapReduce 计算模型的组织形式和数据处理方法不适合处理时空数据模型;Hadoop 技术也无法有效支持数据挖掘中监督学习所用的迭代式计算方法,因而无法完全满足时空数据分析的需要。这些对学术界和工业界来数都是一项巨大的挑战。因此,为了分析处理时空大数据,迫切需要更可靠、更有效和更实用的数据管理和处理技术。

时空数据融合

社交网络、遥感和传感器等设备的普遍应用产生了海量的时空数据,且每种设备生成的数据和数据形式各不相同,形成了时空数据结构复杂且来源多样的特性。此外,互联网的蓬勃发展,在文字、音频和视频等多媒体数据中同样包含了丰富的时空数据。例如,广泛覆盖城市的监控摄像头,记录了道路车辆的轨迹信息,从视频中可以还原出被监控车辆的移动轨迹。所以,对时空数据进行有效整合、清洗、转换和提取是时空数据预处理面临的重要问题。

时空推理和数据挖掘的深度结合

时空数据中的时间关系和空间关系通常比较复杂,尤其很多可度量的和不可度量的时间关系和空间关系都是隐含在时空数据中,这就需要在数据挖掘系统中结合时空推理加以考虑这些复杂的时空关系。时空推理和数据挖掘的深度结合,一方面可以发掘更多时空模式及信息,增强时空模式的可理解性;另一方面可以显著提高挖掘的效率和质量。但有利亦有弊:挖掘数据中隐含的时空关系必然会引入某种程度的不确定性和模糊性,这将很大程度上影响数据挖掘的结果。因此,结合时空推理和数据挖掘需要适当折中模型表达能力和时空推理能力。

面向大数据的时空数据挖掘的应用

如上所述,时空数据挖掘的应用非常广泛,如交通运输、地质灾害监测与预防、气象研究、竞技体育、犯罪分析、公共卫生与医疗及社交网络应用等。这里我们简单介绍两个时空数据挖掘的应用案例,借此了解一下时空数据挖掘在现实生活中的实际应用。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
机器学习/深度学习 数据采集 算法
如何用大数据与机器学习挖掘瞪羚企业认定标准
本文探讨如何利用大数据与机器学习技术挖掘瞪羚企业认定标准。通过阿里云的大数据平台和政策宝资源整合能力,结合机器学习算法分析政策文本,提取关键信息,助力企业精准理解认定标准。文章对比了传统获取方式的局限性与新技术的优势,并以案例说明政策宝在申报中的作用,强调数据整合、模型选择及数据安全的重要性,为企业提供发展方向和政策支持。
|
2月前
|
存储 弹性计算 分布式计算
云端智链:挖掘云计算中的大数据潜能
云端智链:挖掘云计算中的大数据潜能
81 21
|
4月前
|
数据采集 存储 机器学习/深度学习
数据的秘密:如何用大数据分析挖掘商业价值
数据的秘密:如何用大数据分析挖掘商业价值
110 9
|
9月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
185 10
|
9月前
|
数据采集 存储 NoSQL
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
|
9月前
|
分布式计算 并行计算 大数据
【数据挖掘】百度2015大数据云计算研发笔试卷
百度2015年大数据云计算研发笔试卷的题目总结,涵盖了Hadoop、Spark、MPI计算框架特点、TCP连接建立过程、数组最大和问题、二分查找实现以及灯泡开关问题,提供了部分题目的解析和伪代码。
102 1
|
10月前
|
存储 监控 数据挖掘
云上大数据分析平台:赋能企业决策,挖掘数据金矿
5.3 场景化 针对不同行业和领域的需求特点,云上大数据分析平台将推出更多场景化的解决方案。这些解决方案将结合行业特点和业务场景进行
461 7
|
9月前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
153 0
|
12月前
|
存储 分布式计算 算法
大数据处理:挖掘价值之道
大数据处理:挖掘价值之道
|
机器学习/深度学习 算法 数据挖掘
【大数据分析与挖掘技术】概述
【大数据分析与挖掘技术】概述
176 1

热门文章

最新文章