ArcGIS新一代大数据挖掘技术

简介:

Esri自2013年发布了GIS tools for Hadoop,正式加入互联网大数据厂商的行列,至今已经3年了。在这3年中风云变幻,业界技术在不断的发生着变更,Esri的大数据战略也在不断的向前推进。 在刚刚结束的2016Esri空间信息技术开发者大会上,在IT热点技术专场的《ArcGIS平台下的大数据挖掘》,与往年相比,发生了明显的变化。往年因为Esri自身的原因,将大数据限定在空间大数据这个领域里面。但是今年很明显的发现,在ArcGIS的平台上,已将传统的空间二字去掉,使得平台支持的领域更加广泛。

实际上,地理信息发展了这么多年,如果说最能与互联网大数据概念挂钩的,只有LBS(基于位置的服务)数据和遥感影像的数据。这两类数据无论是从体量上,还是从生成速度、数据结构、维度以及价值密度上,都能够与互联网大数据的概念贴合。但是传统的空间分析乃至于空间数据挖掘领域,却更多是在地理空间统计样本上进行分析。而且因为空间数据的特点,诸如空间自相关、空间异质性等空间统计学与传统统计学截然不同的概念,使得很多的分析,无法采用互联网大数据中那些分布式计算的方法来实现。

在Esri中国高级咨询师卢萌看来,“这一次开发者大会,从大数据的热炒状态中,回归了地理分析的本源。”

卢萌在其《ArcGIS平台下的大数据挖掘》讲座中谈到,地理分析一直是地理信息系统区别于其他系统最大的不同点。地理信息首先是一个从不一样的视角来看待整个世界。很多人都说,做地理信息的人,每天都像神一样,在离地几百米以上的高空俯视着整个大地。而地理分析让这个视角更进了一步,不但是从高空俯视着大地,而且通过不同的痕迹,可以让我们的视野穿越过去未来,在更广阔的空间和时间线了解发生了什么事情。

其次,地理学研究的领域是所有领域中最为广泛的,上至无穷的太空,下至人类所能探测到的最深的地底,都是地理学的研究范围,很多研究都在改变着我们的生活。这样一个广泛的领域构成了一个巨复杂的系统,比之这个系统的庞大程度,特别是随着人类观察手段的日益提升,互联网所谓的大数据,在它面前,也都是九牛一毛。

在回归地理分析本源的情况下,卢萌还介绍了新一代技术能够给地理分析带来什么。

他认为,首先就是业界最流行的Hadoop的MapReduce框架进化到2.0之后,对地理分析带来的价值。本次开发者大会,首次在GIS领域演示了新一代大数据分析框架Spark的应用。

因为传统的MpaReduce架构对迭代运算的支持很不好,所以很多地理分析都无法运行在其上面,更多的只是在它上面运行诸如过滤、聚合这样的简单的空间分析。而新一代的Spark框架,因为其采用了弹性分布式数据集(RDD)这一特性,能够使得在Spark框架上,进行迭代运算的效率,超过传统MapReduce的百倍以上。这样,很多的分析算法就能够直接跑在Spark上面了,诸如空间分析领域中最重要的前提计算步骤:构建空间权重矩阵。利用Spark的优势,完全可以将庞大的空间权重矩阵加载到RDD中,然后每次运算都可以从预先构建的矩阵中快速获取邻近要素。这样就让很多在以前不可能实现、具有强空间自相关的分析在分布式集群框架上运行了。

据卢萌透露,未来,Esri的分布式并行计算框架,将慢慢的从MapReduce上转移到Spark上来。另外作为空间技术的业界领导者,Esri也致力于推动开源技术的发展。所以他建议有兴趣的朋友可以从GitHub上下载最新的GIS Tools for Hadoop,开始尝试Spark分析框架在空间分析领域给我们带来的变化。

卢萌最后还指出,ArcGIS软件作为平台级产品,无论是对空间信息技术的支撑,还是对非空间信息的内容进行支撑,都在不断的进步。“从淘汰VB,将Python作为官方指定脚本,到能够在平台中直接引入R语言,都表明了这种趋势,未来ArcGIS平台将更加强大,也会有更广泛的应用。”

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
4月前
|
数据采集 传感器 人工智能
大数据关键技术之电商API接口接入数据采集发展趋势
本文从数据采集场景、数据采集系统、数据采集技术方面阐述数据采集的发展趋势。 01 数据采集场景的发展趋势 作为大数据和人工智能工程的源头,数据采集的场景伴随着应用场景的发展而变化,以下是数据采集场景的发展趋势。
|
1月前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
1月前
|
存储 数据采集 数据可视化
大数据处理技术
【4月更文挑战第10天】大数据处理涵盖采集、预处理、存储、分析挖掘、展现和应用等关键步骤。采集涉及多种类型数据,预处理确保数据质量,存储管理关注规模、速度和安全,分析挖掘利用机器学习发现价值,展现和应用则通过可视化和检索实现数据价值。云计算和AI强化了大数据处理能力,整体目标是提取数据中的价值,驱动企业和社会进步。
35 4
大数据处理技术
|
6天前
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
近日,由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。
|
11天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
23天前
|
存储 数据可视化 大数据
大数据技术框架
【4月更文挑战第20天】大数据一般需要经过6个主要环节,包括数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析和数据可视化。
|
1月前
|
存储 大数据 数据管理
大数据技术是如何发展的?
大数据虽已发展多年,但仍面临将恰当信息在正确时间传递给合适人员的挑战。尽管技术进步,大部分企业员工仍难以获取所需信息。数据仓库、数据湖和数据结构等存储系统涌现,但集中数据并不实际,数据去中心化趋势明显。数据结构允许异构数据并促进治理,同时,云计算影响大数据战略,提供灵活实验空间。数据治理和隐私规则的遵守至关重要,流程成熟度聚焦于数据质量和共享。目前大数据正处于“幻灭低谷”,成功的关键在于数据治理和处理流程的改进。
|
1月前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
2月前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。