6月11日,北京国家会议中心,以“融合 开放 智能”为主题的2014地理信息开发者大会(WGDC2014)在此拉开帷幕。地理信息开发者大会自2012年起开始举办,三年时间里,伴随着中国地理信息产业的快速发展,已经成为地理信息领域最具影响力的技术创新盛会,与跨界融合、国际交流的重要平台。
在6月12日下午的位置大数据专场中,最后一个环节是高峰对话。主持人:3sNews中国地理信息产业网执行主编张凯,嘉宾介绍:北京大学“百人计划”研究员袁晓如、北京超图软件股份有限公司地图汇业务部总监王天宝,北京捷泰天域信息技术有限公司GeoQ位置智能咨询部总监陈建英。
以下为实录:(根据现场速记整理,未经演讲本人审核)
张凯:今天和三位嘉宾讨论一下数据挖掘,都是带有地理位置标签的讨论。我想问一下三位嘉宾,地理位置数据如果对它挖掘的话,可以有哪些有价值的信息?
袁晓如:我们做数据挖掘,现在我们各种各样的数据都可能获得,我们在微博,或者是微信里发布一些信息的时候,同时不自觉或者自觉的把一些地理信息也放在上面,单个来说可能没有意义,但是积少成多,它的信息可能描述你整个人的行为,甚至描述整个社会的行为。随着数据越来越多,随着分析能力越来越加强,我们一定会看到更多的东西。可能我们更需要警惕的是,它也会带来安全的问题,很可能你原来不想让人知道,或者某一些不应该知道的信息,他能够通过这些挖掘出来。所以这是一个充满了各种希望,但是又充满了各种陷井的地方。
王天宝:我觉得先从数据源来讲,包括我们传统的空间,信息产业获取的空间数据,比如遥感卫星,或者是无人机,包括各种数据,这是一个传统获取数据的方式。为什么咱们圈里关注的分析,就是互联网行为,比如你去搜索,你去发微博,用的微信,甚至可穿戴设备,都是地理位置信息,数据源越来越多样,不管是传统的卫星,无人机,特别现在互联网的行为分析数据,原来大家说信息里面带有位置,在有这么多数据之后,我觉得可能从地理位置把数据组织起来,从地理空间的角度来挖掘数据。你从不同的数据源叠加在一起,可以得出一些更明显的特征。它同时也可以做一个交叉验证。
对于企业,比如选址分析,银行要开在哪里,连锁店开在哪里,包括经营分析,广告往那里投放,策划在哪里做更有效果,这也是我们做了很多年的事情。对于个人来讲,交通大数据除了对政府部门做规划有用,可能对个人出行也更有用,避开拥堵的路段,通过互联网行为的数据分析,你可能会了解一些自己甚至都没有洞察到的自己的一些特点行为。
陈建英:其实数据源对我们可视化来说还是挺重要的。位置数据是一个信息,在我们看来,这种信息可以说是我们从中挖掘的一个最关键的途径。比如现在我们服务的一些客户,我们可以向一些商家,还有卖场的VIP数据,可以上传到地图上面,如果之前这些卖场和商家没有地理位置的数据,他可以把数据上传,以不同的方式反馈出来,他可以得到很多的信息。比如说可以做一个精准的营销,我还可以做一些销售的合理分析。在做广告精准营销的时候,其实位置数据是非常非常重要的。其实地理位置信息是一种关系网络的数据,如果要是我们将所有卖场和商家,这把些VIP数据一条直线连接起来,其实我们可以看到卖场所有的客户在什么地方,如果知道这个客户在什么地方,我会对所有的店面进行合理化布局的分析。另外还可以做一些,像一些大型商超会有一些班车,比如班车的路线合不合理,能不能覆盖所有的客户,这也是从地理位置信息挖掘其中的一个方面吧。
张凯:今年百度推出的地图,也是第一次让很多的大众,通过电视的手段,了解到分析的一些魅力。在你们看来,把数据进行可视化之后,到底对人们的生活和决策,能够带来什么帮助,我们为什么要对这些数据进行可视化的展示?
袁晓如:现在可视化产品比较多。可视分析这个词出现在2001年的911之后,是美国的西北太平洋国家实验室的几个人,再加上做情报分析的,做可视化的这些联合起来提出这样一个概念。可视分析其实是一种推理分析的科学,但是它是通过交互的,可视界面,实际上它是把自动算法挖掘的方式,跟人通过可视交互的界面参与,相当于把人和机器结合起来,但是对于人来说,怎么样才能理解周围的世界,我们必须通过交互的界面,所以是这样的工作。
可视化相对来说发展得早一点,之前我们看到很多可视化,我们往往只看在它的表达、展示上。因为今天大家都在看到有很多的数据,而这些数据如何进行分析,怎么样让人进入环境,可视化和可视分析扮演非常重要的角色。我们看到有的可视化非常漂亮,但是它未必是真正可视化的精髓。更多的我们看一些需要人做一些交互操作的时候,这些案例你会发现更有意思一点。因为在这个过程中,人可以扮演更重要的角色,不仅仅发一条命令,像我们发一条数据库的查询,我们更多的是通过发现了解的方式,在里面发现它的异常,或者发现原来意想不到的东西,这个会越来越多的被人所接受,并且这是计算机科学发展的过程。
最开始的时候,我们做计算机科学,其实没有人机交互这个概念,但是发展到一定程度的时候,我们发现人怎么样跟计算机进行交流是非常重要的。所以说我们看到了成功,包括鼠标的装置,可以帮助我们很好的跟计算机结合。就像今天拿到鼠标,大家会感到非常习惯。
在后面我们来看将来对于数据分析,这个可视分析会扮演更多的角色。它恰恰就是像人机交互一样,我们通过可视分析的方式,在数据之间打开这样一个渠道。在交通上面,它非常直观的,因为我们有利益的体系。但是我们怎么样来观察一个道路,它在一年之内它的变化,我们既希望看到它的细节,又希望看到它的趋势,这可能有一些很有意思的方式我们可以来进行,这时候就不是简单的把原来采集到的原始数据把它直接划分出来,我们要转化。这方面我们感到现在是一个开始,将来会有更多更多的案例来去探讨。当然现在最大的问题,可能还是来做可视化分析的人比较少,但是除此之外还有太多的东西值得我们去进行探索。它基本上是一个还没有被开发的一块,特别是相比国外来说,中国更加落后一点。所以我也希望感兴趣的人可以去看一看,这里面有很多的机会。
王天宝:你用可视化的方式展示它的体验,体验的好,可以造成传播效应。比如百度迁徙在媒体上传播很广泛。用可视化的方式,你会洞察到一些原来没有注意到的信息。第一可能有很好的宣传效果,第二可以用可视化的方式去呈现。
陈建英:通过这张迁徙地图,我可以感受到来北京的人,基本上都是来自哪,是哪些地方。所以这个是一个我们可视化比较明显的东西。去年的时候我的同事还发布了一张地图,在微博上转发了将近一万次,他做了一件事情,就是把美国所有的麦当劳的数据放到地图上,当时引起了一些轰动,大家没有想到能够把美国地图勾勒了出来。我们这个数据库的同事觉得挺有意思,然后就想有没有这样一个兴趣点体现呢?后来我们把所有的数据过了一下,全国收费站的数据能够把中国的全景勾勒出来。我觉得可视化让我们能够抛开表面,挖掘一些更深层次的概念和现象,帮助我们甚至一些客户,把一些深层的信息挖掘出来。
张凯:像这些数据会非常多,人口数据,经济数据,地理数据,你们怎么把数据整合起来,为客户分析出合理的方案?在商业地理智能的发展如何?
陈建英:地理位置数据和商业数据还是非常多的,这是很大的一块数据,可以说是一个大数据。我们在做这些数据处理的时候,我们会将数据先做分类,汇总,抽出数据的一些比较关联的属性。在这个过程中,还会做一些筛选、过滤,清洗,最后把所有的数据通过500米半径的网格数据分割出去,展现给大家。
另外因为这些数据比较复杂,我们可以要求客户把他的数据先上传到地图上面,在他想要关注的一些,因为我们有很多分类的数据,选择他关心的数据,这些客户关心的不是所有的数据,而是其中某组数据,把他关心的数据,和他自己的业务数据叠加起来。
第二个问题就是发展,现在国内地理商业智能平台可以从两方面发展来说,第一方面就是平台提供商,现在的一些服务平台能够提供的除了可视化,还有比较高深的分析。
张凯:你们GeoQ是怎么把用户的数据进行管理,又是怎么让数据发挥更大的价值?
王天宝:公开的一些数据,我们现在做的主要就是来看一下这些用户,他用地图来做什么,他本身是哪个行业的,他从事什么行业,从事什么工作,另外就是新闻,包括财经网,搜狐网,他们可能都是用地图的工具来展开他们的数据。所以从这个角度来讲,我们更多是把一个工具和品牌开放出来,看看到底有哪些企业和客户,个人类的用户使用地图,我们可以做针对行业推广等其他的分析。
张凯:现在有很多可视化的爱好者在地图上做了一些呈现,这些是不是比较初级的可视分析,我们可视分析的差距在哪里?怎么提高?
袁晓如:也不能讲是不是初级的,因为你有什么样的数据,你有什么目的,就会找到一个跟它相合适匹配的可视化方法。无论只是一个直接的可视化,还是一个比较复杂的设计。
当然对于我们国家来说,我觉得这都是在逐渐发展的,因为我们的传统,我们是重硬轻软,我们轻视这些软的东西。但是我们会发现,在随着工作的进展到最后,非常重要的是你怎么样修复好系统,给用户体验好。今天我们看到有很多的人关心这些事情,这个过程怎么样进步,对于学校来说,我们会开网络公开课,再过一两个月,就会上线。同时我们也有各种各样的学术活动,像今天的会议我们可以交流讨论,随着越来越多的人加入,只要有需求,一定会有更多的人加入进来。我们需要正视和国外的差距,将来慢慢的我们无论在学术上,还是在应用上,都会看到一些东西。只要大家认识到它的重要性,并不是一个太遥远的事情。所以我们还是可以多关注这些。
张凯:谢谢袁老师。希望我们以后可以有更多的交流,共同讨论可视化的发展。非常感谢三位嘉宾,也非常感谢在座的各位观众,和我们几位嘉宾一起对数据挖掘和可视化进行了现场交流,谢谢大家!
原文发布时间为:2014-06-16
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号