高峰对话:数据挖掘与可视化

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

6月11日,北京国家会议中心,以“融合 开放 智能”为主题的2014地理信息开发者大会(WGDC2014)在此拉开帷幕。地理信息开发者大会自2012年起开始举办,三年时间里,伴随着中国地理信息产业的快速发展,已经成为地理信息领域最具影响力的技术创新盛会,与跨界融合、国际交流的重要平台。


在6月12日下午的位置大数据专场中,最后一个环节是高峰对话。主持人:3sNews中国地理信息产业网执行主编张凯,嘉宾介绍:北京大学“百人计划”研究员袁晓如、北京超图软件股份有限公司地图汇业务部总监王天宝,北京捷泰天域信息技术有限公司GeoQ位置智能咨询部总监陈建英。


以下为实录:(根据现场速记整理,未经演讲本人审核)

张凯:今天和三位嘉宾讨论一下数据挖掘,都是带有地理位置标签的讨论。我想问一下三位嘉宾,地理位置数据如果对它挖掘的话,可以有哪些有价值的信息?


袁晓如:我们做数据挖掘,现在我们各种各样的数据都可能获得,我们在微博,或者是微信里发布一些信息的时候,同时不自觉或者自觉的把一些地理信息也放在上面,单个来说可能没有意义,但是积少成多,它的信息可能描述你整个人的行为,甚至描述整个社会的行为。随着数据越来越多,随着分析能力越来越加强,我们一定会看到更多的东西。可能我们更需要警惕的是,它也会带来安全的问题,很可能你原来不想让人知道,或者某一些不应该知道的信息,他能够通过这些挖掘出来。所以这是一个充满了各种希望,但是又充满了各种陷井的地方。


王天宝:我觉得先从数据源来讲,包括我们传统的空间,信息产业获取的空间数据,比如遥感卫星,或者是无人机,包括各种数据,这是一个传统获取数据的方式。为什么咱们圈里关注的分析,就是互联网行为,比如你去搜索,你去发微博,用的微信,甚至可穿戴设备,都是地理位置信息,数据源越来越多样,不管是传统的卫星,无人机,特别现在互联网的行为分析数据,原来大家说信息里面带有位置,在有这么多数据之后,我觉得可能从地理位置把数据组织起来,从地理空间的角度来挖掘数据。你从不同的数据源叠加在一起,可以得出一些更明显的特征。它同时也可以做一个交叉验证。


对于企业,比如选址分析,银行要开在哪里,连锁店开在哪里,包括经营分析,广告往那里投放,策划在哪里做更有效果,这也是我们做了很多年的事情。对于个人来讲,交通大数据除了对政府部门做规划有用,可能对个人出行也更有用,避开拥堵的路段,通过互联网行为的数据分析,你可能会了解一些自己甚至都没有洞察到的自己的一些特点行为。


陈建英:其实数据源对我们可视化来说还是挺重要的。位置数据是一个信息,在我们看来,这种信息可以说是我们从中挖掘的一个最关键的途径。比如现在我们服务的一些客户,我们可以向一些商家,还有卖场的VIP数据,可以上传到地图上面,如果之前这些卖场和商家没有地理位置的数据,他可以把数据上传,以不同的方式反馈出来,他可以得到很多的信息。比如说可以做一个精准的营销,我还可以做一些销售的合理分析。在做广告精准营销的时候,其实位置数据是非常非常重要的。其实地理位置信息是一种关系网络的数据,如果要是我们将所有卖场和商家,这把些VIP数据一条直线连接起来,其实我们可以看到卖场所有的客户在什么地方,如果知道这个客户在什么地方,我会对所有的店面进行合理化布局的分析。另外还可以做一些,像一些大型商超会有一些班车,比如班车的路线合不合理,能不能覆盖所有的客户,这也是从地理位置信息挖掘其中的一个方面吧。


张凯:今年百度推出的地图,也是第一次让很多的大众,通过电视的手段,了解到分析的一些魅力。在你们看来,把数据进行可视化之后,到底对人们的生活和决策,能够带来什么帮助,我们为什么要对这些数据进行可视化的展示?


袁晓如:现在可视化产品比较多。可视分析这个词出现在2001年的911之后,是美国的西北太平洋国家实验室的几个人,再加上做情报分析的,做可视化的这些联合起来提出这样一个概念。可视分析其实是一种推理分析的科学,但是它是通过交互的,可视界面,实际上它是把自动算法挖掘的方式,跟人通过可视交互的界面参与,相当于把人和机器结合起来,但是对于人来说,怎么样才能理解周围的世界,我们必须通过交互的界面,所以是这样的工作。


可视化相对来说发展得早一点,之前我们看到很多可视化,我们往往只看在它的表达、展示上。因为今天大家都在看到有很多的数据,而这些数据如何进行分析,怎么样让人进入环境,可视化和可视分析扮演非常重要的角色。我们看到有的可视化非常漂亮,但是它未必是真正可视化的精髓。更多的我们看一些需要人做一些交互操作的时候,这些案例你会发现更有意思一点。因为在这个过程中,人可以扮演更重要的角色,不仅仅发一条命令,像我们发一条数据库的查询,我们更多的是通过发现了解的方式,在里面发现它的异常,或者发现原来意想不到的东西,这个会越来越多的被人所接受,并且这是计算机科学发展的过程。


最开始的时候,我们做计算机科学,其实没有人机交互这个概念,但是发展到一定程度的时候,我们发现人怎么样跟计算机进行交流是非常重要的。所以说我们看到了成功,包括鼠标的装置,可以帮助我们很好的跟计算机结合。就像今天拿到鼠标,大家会感到非常习惯。


在后面我们来看将来对于数据分析,这个可视分析会扮演更多的角色。它恰恰就是像人机交互一样,我们通过可视分析的方式,在数据之间打开这样一个渠道。在交通上面,它非常直观的,因为我们有利益的体系。但是我们怎么样来观察一个道路,它在一年之内它的变化,我们既希望看到它的细节,又希望看到它的趋势,这可能有一些很有意思的方式我们可以来进行,这时候就不是简单的把原来采集到的原始数据把它直接划分出来,我们要转化。这方面我们感到现在是一个开始,将来会有更多更多的案例来去探讨。当然现在最大的问题,可能还是来做可视化分析的人比较少,但是除此之外还有太多的东西值得我们去进行探索。它基本上是一个还没有被开发的一块,特别是相比国外来说,中国更加落后一点。所以我也希望感兴趣的人可以去看一看,这里面有很多的机会。


王天宝:你用可视化的方式展示它的体验,体验的好,可以造成传播效应。比如百度迁徙在媒体上传播很广泛。用可视化的方式,你会洞察到一些原来没有注意到的信息。第一可能有很好的宣传效果,第二可以用可视化的方式去呈现。


陈建英:通过这张迁徙地图,我可以感受到来北京的人,基本上都是来自哪,是哪些地方。所以这个是一个我们可视化比较明显的东西。去年的时候我的同事还发布了一张地图,在微博上转发了将近一万次,他做了一件事情,就是把美国所有的麦当劳的数据放到地图上,当时引起了一些轰动,大家没有想到能够把美国地图勾勒了出来。我们这个数据库的同事觉得挺有意思,然后就想有没有这样一个兴趣点体现呢?后来我们把所有的数据过了一下,全国收费站的数据能够把中国的全景勾勒出来。我觉得可视化让我们能够抛开表面,挖掘一些更深层次的概念和现象,帮助我们甚至一些客户,把一些深层的信息挖掘出来。


张凯:像这些数据会非常多,人口数据,经济数据,地理数据,你们怎么把数据整合起来,为客户分析出合理的方案?在商业地理智能的发展如何?


陈建英:地理位置数据和商业数据还是非常多的,这是很大的一块数据,可以说是一个大数据。我们在做这些数据处理的时候,我们会将数据先做分类,汇总,抽出数据的一些比较关联的属性。在这个过程中,还会做一些筛选、过滤,清洗,最后把所有的数据通过500米半径的网格数据分割出去,展现给大家。


另外因为这些数据比较复杂,我们可以要求客户把他的数据先上传到地图上面,在他想要关注的一些,因为我们有很多分类的数据,选择他关心的数据,这些客户关心的不是所有的数据,而是其中某组数据,把他关心的数据,和他自己的业务数据叠加起来。


第二个问题就是发展,现在国内地理商业智能平台可以从两方面发展来说,第一方面就是平台提供商,现在的一些服务平台能够提供的除了可视化,还有比较高深的分析。


张凯:你们GeoQ是怎么把用户的数据进行管理,又是怎么让数据发挥更大的价值?


王天宝:公开的一些数据,我们现在做的主要就是来看一下这些用户,他用地图来做什么,他本身是哪个行业的,他从事什么行业,从事什么工作,另外就是新闻,包括财经网,搜狐网,他们可能都是用地图的工具来展开他们的数据。所以从这个角度来讲,我们更多是把一个工具和品牌开放出来,看看到底有哪些企业和客户,个人类的用户使用地图,我们可以做针对行业推广等其他的分析。


张凯:现在有很多可视化的爱好者在地图上做了一些呈现,这些是不是比较初级的可视分析,我们可视分析的差距在哪里?怎么提高?


袁晓如:也不能讲是不是初级的,因为你有什么样的数据,你有什么目的,就会找到一个跟它相合适匹配的可视化方法。无论只是一个直接的可视化,还是一个比较复杂的设计。


当然对于我们国家来说,我觉得这都是在逐渐发展的,因为我们的传统,我们是重硬轻软,我们轻视这些软的东西。但是我们会发现,在随着工作的进展到最后,非常重要的是你怎么样修复好系统,给用户体验好。今天我们看到有很多的人关心这些事情,这个过程怎么样进步,对于学校来说,我们会开网络公开课,再过一两个月,就会上线。同时我们也有各种各样的学术活动,像今天的会议我们可以交流讨论,随着越来越多的人加入,只要有需求,一定会有更多的人加入进来。我们需要正视和国外的差距,将来慢慢的我们无论在学术上,还是在应用上,都会看到一些东西。只要大家认识到它的重要性,并不是一个太遥远的事情。所以我们还是可以多关注这些。


张凯:谢谢袁老师。希望我们以后可以有更多的交流,共同讨论可视化的发展。非常感谢三位嘉宾,也非常感谢在座的各位观众,和我们几位嘉宾一起对数据挖掘和可视化进行了现场交流,谢谢大家!


原文发布时间为:2014-06-16

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
移动开发 监控 数据可视化
通过C++实现对管理员工上网行为的数据挖掘与可视化
这篇文章介绍了如何使用C++进行员工上网行为的监控数据挖掘与可视化。首先,通过读取系统日志收集上网数据,然后进行数据分析,包括统计访问频率和识别异常行为。接着,利用数据可视化工具展示结果。最后,讨论了如何将监控数据自动提交到网站,以实现实时监控和问题响应。示例代码展示了使用Boost.Asio库创建HTTP客户端上传数据的基本过程。
147 2
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
496 0
|
6月前
|
SQL 数据可视化 算法
SQL Server聚类数据挖掘信用卡客户可视化分析
SQL Server聚类数据挖掘信用卡客户可视化分析
|
5月前
|
数据采集 数据可视化 数据挖掘
数据挖掘实战:使用Python进行数据分析与可视化
在大数据时代,Python因其强大库支持和易学性成为数据挖掘的首选语言。本文通过一个电商销售数据案例,演示如何使用Python进行数据预处理(如处理缺失值)、分析(如销售额时间趋势)和可视化(如商品类别销售条形图),揭示数据背后的模式。安装`pandas`, `numpy`, `matplotlib`, `seaborn`后,可以按照提供的代码步骤,从读取CSV到数据探索,体验Python在数据分析中的威力。这只是数据科学的入门,更多高级技术等待发掘。【6月更文挑战第14天】
450 11
|
6月前
|
SQL 数据可视化 算法
R语言公交地铁路线进出站数据挖掘网络图可视化
R语言公交地铁路线进出站数据挖掘网络图可视化
|
6月前
|
数据可视化 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
6月前
|
数据可视化 算法 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
机器学习/深度学习 数据采集 数据可视化
数据挖掘可视化+机器学习初探
数据挖掘可视化+机器学习初探
123 0
数据挖掘可视化+机器学习初探
|
数据可视化 数据挖掘 Linux
数据挖掘导论——可视化分析实验
数据挖掘导论——可视化分析实验
160 0
数据挖掘导论——可视化分析实验
|
人工智能 自然语言处理 算法
【数据挖掘】使用移动平均预测道琼斯、纳斯达克、标准普尔指数——Python中的基本数据操作和可视化
本文将使用简单移动平均预测道琼斯、纳斯达克、标准普尔指数。 作为技术分析中⼀种分析时间序列的常⽤⼯具,常被应⽤于股票价格序列。移动平均可过滤⾼频噪声,反映出中⻓期低频趋势,辅助投资者做出投资判断。
【数据挖掘】使用移动平均预测道琼斯、纳斯达克、标准普尔指数——Python中的基本数据操作和可视化

热门文章

最新文章

下一篇
无影云桌面