茅明睿:大数据时代的城市规划【大数据100分】

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

我是一名非典型规划师,我很少做具体的规划设计项目,在北京规划院工作近15年,入行之初遇到了数字城市建设大潮,参与了数字北京的先发工程——数字绿化带,群里的@王国良的武大吉奥公司就是当年主要的合作伙伴。

2000-2010年从事的工作都围绕以地理信息系统、遥感、三维仿真、数据建库为核心的数字规划技术体系的构建,为北京的规划工作建立数据基础和GIS应用基础。2010年开始,基于10年的基础积累,我们开始把视线放到数据挖掘,城市定量研究或者说城市计算上来。

群里都是高大上的技术大牛、上市公司老总、参与国家级智慧城市顶层设计的大拿,所以我没有能力也没有意义去说顶层设计、战略的事情,甚至会主动回避智慧城市这个概念。我及规划行业做类似研究的同行们在过去几年里做了些有点趣味的小研究、小应用。

所以我这里都是案例,基于这些案例,我在过去的一个月做了一些总结、提炼和思考,但不敢说这个就能算智慧城市的某个层次的内容了,算是自下而上的探索。

今天的介绍我先集中从我的论文里摘抄一些关于大数据在城市规划行业应用的段落,以及案例和截图,然后留出时间跟大家交流,我也有很多需求希望能从群里获得资源或者寻求合作。

规划行业是个小众、公共性强、综合性很强的行业,规划人圈子很紧,也相对比较开放,近年来规划改革的方向也很多,基于信息技术和数据科学的城市定量研究是其中非常受关注的一个方向。在城市规划及相关领域,以柴彦威、甄峰、刘瑜、郑宇等城市规划、地理、计算机等学科的研究者开展了一系列基于大数据的城市研究,在规划行业形成了当下的一股热潮。

我今天的介绍首先会介绍这个热潮的背景,然后会介绍城市规划行业大数据应用或者大数据的几个标志性相关事件,接下来会简介一些城市定量研究的案例以及我们的一些思考。

首先要理解为什么城市规划行业会形成大数据热潮。

除了智慧城市和大数据火热的大背景以外,还有两个背景;

1、开放数据运动——规划师大多都是数据控

2、互联网上的规划圈

中国的城市规划和城市研究长期受制于数据的获取,规划工作的数据基础高度依赖官方的测绘数据、统计资料以及政府的行业主管部门的官方数据。作为一个日益依赖数据的综合学科,规划师一直都处于数据饥渴状态,进而大多有点数据控倾向。

开放数据运动开始改变这个局面。开放数据的概念大家比较清楚,我就不介绍了,百科里也有。

从民间和学术组织看,近年来国际上知名的开放数据组织都陆续在中国建立了本地化小组或分部,比如共享知识(Creative Commons)、开放知识基金会(Open Knowledge Foundation)、开放获取(Open Access)、开放街道地图(Open Street Map),同时中国本土也产生了若干个致力于促进数据开放的网站和虚拟合作组织,比如开放数据中国(Open Data China)、城市数据派(Urban Data Party)等;

从政府看,中国政府也在积极推动政府信息公开的工作,政府的开放程度逐步提高,20112013年陆续上线的国家数据(NationalData.gov.cn)、北京市政务数据资源网(BjData.gov.cn)和上海政府数据服务网(DataShanghai.gov.cn)都是中国政府数据开放的典型代表;

从商业公司看,大批互联网公司开始在一定程度上开放自己的数据,或者提供开放的API,将自己的商业平台转变为开放或半开放平台,比如新浪微博(Weibo.com),大众点评网(DianPing.com)、百度(Baidu.com)等,此外还诞生了以数据堂(DataTang.com)为代表的数据共享商业平台。

上述这些开放数据组织、网站的出现极大的改变了城市研究开展的数据基础,大批基于开放数据以及通过开放API抓取自商业网站的半开放数据的城市研究成果密集涌现,研究者们利用开放的地理数据、社会化网络数据、签到数据、浮动车轨迹数据等进行了不同尺度、不同视角的研究,既有宏观如城市形态、区域联系度研究,也有微观如个体行为模式的研究。虽然这些研究所使用数据并不100%都属于大数据范畴,但在当前的大数据概念热潮下,它们往往被打上了大数据的标签。大数据本身的概念都很模糊,而阿里云的技术总监薛桂荣对大数据时代最典型特征的判断我深表认同,即“数据的可获得性”,正是这种可获得性奠定了大数据时代的城市研究基础。

开放数据运动是大数据应用于城市规划、城市研究的重要数据基础,而规划人对社会化网络的热衷则为大数据迅速对城市规划行业造成冲击构成了传播基础。与其他行业相比,规划行业规模较小,相互间的联系较紧;而规划话题则社会性、公共性较强,规划编制工作也开始强调开放性,扩大公众参与,所以从2009年新浪微博上线以来,规划师群体是高度活跃、互动性较强的群体,这个群体因其话题的特殊性和自身的活跃度曾引起了《南方周末》等传统媒体的关注,并进入大众视野。

自媒体的自身特性以及处于转型和改革中的城市规划行业特性决定了与规划相关却又新颖的内容更容易引起这个规划师群体的关注并获得转发,比如与空间有关的大数据及可视化内容。龙瀛、刘行健、王江浩、李栋、吴康等一批青年规划师和地理研究者利用微博平台陆续发布了一系列国内外基于大数据、开放数据所做的城市研究案例和自己的研究成果,在规划师群体中得到了广泛的传播,并使这些草根青年规划师和地理学人在规划圈里收获了一定的影响力。

2012年我在新浪微博平台创办了微刊《大数据与小规划》,将上述资料、案例和研究成果进行了汇总发布,使其成为城市规划主题的微刊中订阅量排名第一的微刊。

2013年我根据微博上的人脉关系利用聚类规则抓取了16000名微博上的规划圈成员(主体为规划师)的ID信息及社交关系,并通过聚类分析实现了对微博上规划圈的人脉全貌、影响力、规划群体的空间分布和增长趋势等特征的分析和可视化。考虑到规划行业从业者规模也就在15-20万人之间,所以这次研究基本上覆盖了整个规划行业的微博用户。

201311月,北京市城市规划设计研究院策划并承办了2013年中国城市规划年会的“大数据时代的城乡规划与智慧城市”自由论坛,论坛采用线上和线下联动的方式,将大数据的有关概念和城市研究在更广阔的范围进行了扩散。

2013年末,北京规划院龙瀛博士发起了一个名为北京城市实验室(Beijing City Lab, BCL, http://longy.jimdo.com/)的网络型实验室,BCL专注于运用跨学科方法量化城市发展动态,开展城市科学研究。BCL是中国第一个开放的城市定量研究网络,通过邀请学者发布其工作论文(workingpaper)等形式阐释其对城市研究的最新见解,通过数据分享行为为科研群体提供开放的城市定量研究数据。BCL的诞生使微博上以及线下松散的跨学科研究群体得以汇聚,形成了一个具有一定组织性的虚拟社区。

接下来展示一些研究案例

1、对开放数据的获取

针对大数据矿产、开放数据资源,2012BICP在院内利用自有资金立项开展了《多源社会数据的获取与规划应用》课题,我对互联网上的主要开放和半开放数据资源进行了探索和分类,吴运超针对不同网站特征收集和开发了若干抓取工具,进行了比较系统的数据获取工作。

针对OSM数据、企业黄页、房产交易网站、各政府网站的空间数据或者带有位置描述的非空间数据,吴运超等人系统性的抓取和整理了一套结构化数据表,并对获取的数据利用各种地图API进行了地址匹配,针对我国独有的坐标偏移问题,对火星坐标系、百度坐标系、北京经信委坐标系进行了函数拟合,纠正坐标偏差,形成了一套针对不同坐标系的空间数据进行坐标纠偏转换的工作流程;最后对获取的数据资源进行了同一化处理,形成了从点到线到面的一套包括了POI信息、建筑信息、地块信息、道路信息的空间数据成果。

2、基于开放地理数据的研究

BCL开展了多项面向全国所有大中小城市的大模型研究,如地块尺度的全国城市扩张模拟、城市建成区识别、地块边界与开发类型和强度重建模型、中国城市间交通网络分析与模拟模型、中国城镇格局时空演化分析模型,以及目前正在开展的地块尺度的全国各城市人口数据合成和居民生活质量评价、空气污染暴露评价、主要城市都市区范围划定以及城市群发育评价等。

3、针对微博数据的获取和研究

前文所述,我根据人脉进行了规划行业的成员抓取,同时聚类识别出了几个主要规划院的成员和人脉结构,接下来我与中规院李栋等人正在抓取规划圈成员在微博上的微博内容和位置信息,并且利用北规院、中规院在近几年的城市规划知识管理、本体构建和语义分析工作基础,对抓取的规划人的发言内容进行语义分析,给它们打上语义标签,如此便能对规划行业、每个规划院的话题进行整理分类和监测。此项工作刚刚在前期技术准备中。

事实上微博数据的主要用途是表征人的活动信息,规划师和地理学人做了大量利用微博签到数据的研究。BCL成员,中国规划院的李栋抓取了全国1000多万条带有位置信息的微博,并通过识别发送设备得到了全北京的安卓和苹果手机用户的空间分布。

绿色的是安卓用户占上风的区域,红色的是苹果,咱们IT人用安卓的多,CBD的金领们则是一边倒的iOS。作为商务人士云集的首都机场也是苹果占上风。

中科院地理所王江浩抓取了更多的微博数据,并以此得到了全国各省市的人类活动强度和区域联系度。龙瀛则利用签到数据分析了全国各个城市的地块功能混合度。

4、针对公交IC卡的分析

我们获取了全北京0810各一周的公交IC卡刷卡数据以及13年以来每季度一周的刷卡数据,每批数据大约在50G左右,约8000万条记录。

利用IC卡刷卡数据我院龙瀛、张宇、喻文承等分析了城市的职住分布、居住与就业特征、居民的通勤轨迹。

目前我的团队正在开发OracleHadoop两个数据处理和计算平台,拟对公交IC卡提出诸如“通勤分析、职住分析、人的行为分析、人的识别、重大事件影响分析、规划项目实施评估分析”等若干个计算与可视化服务,并形成功能服务菜单,规划设计人员可以通过菜单选择所需服务,并定制分析范围、分析时间段和分析对象。

上面四张图分别是高峰期公交通勤轨迹

利用公交卡识别的各交通小区的就业强度

各公交站周边区域的居住强度

以及利用地铁刷卡记录对每条线路各站点周边的规划项目进行评估

公交卡刷卡记录是实实在在的大数据,我们规划师有分析城市问题的研究思路,我们欠缺的是将思路快速形成分析平台,提供定制化服务的数据处理,数据库优化和分析工具化的开发能力。这也是我们规划行业进行大数据应用的主要问题之一,是我与群里各位数据科学家,IT精英们的结合点,互补之处。与其把精力浪费在讨论智慧城市概念,标准上,不如大家跟我们携手将具体的问题,研究,应用做起来,真真正正的用数据来解决城市问题,自下而上的推动智慧城市的进步,我上述所有研究都没有财政经费或者项目支持,研究成本加上Beijing City Lab的网站,一起花了人民币10000元。

黄明峰:数据采集如何保证?

茅明睿:不能保证。但是从过去三年的进展看我们的开放数据资源日益爆炸式丰富,上述研究除了公交卡,其余基本全部基于这两年获取的开放数据。我相信,以后开放数据会越来越多,商业平台也会更加开放。当然类似公交卡,手机信令数据之类的还必须有官方协调。

Victor:目前这种数据服务有付费的用户吗?

茅明睿:还谈不上数据服务,都处于研究阶段,没有商业模式。今天群里分享的无锡手机信令数据研究也是规划行业的典型案例。

黄明峰:规划不需要实质性数据。

赵刚:人口、企业、交通等数据也要协调。

徐琪:但是微博抓取数据是很有启发意义的。也看到你们设计数据源的专业。

Brain lai:手机信令数据是从运营商提供的吗?基站A-bits口?

茅明睿:规划部门是无锡规划编研中心,数据挖掘是由云砥公司提供的服务,信令数据需要运营商支持。

老波:落地,实。赞!如何可持续与协同发展,如何形成真正“大”的大数据研究应用?

Brain lai:数据的可获得性的确是大数据第一步。

黄明峰:我在想一个问题,大数据的快速这个特征定义是不是有问题?

茅明睿:我觉得应该是高频。我觉得高频是大数据与数字城市时代的海量低频数据最本质的区别。

张涵诚:这一种实践可推广在零售企业的客户时实动态图不?

黄明峰:陈秘书长,其实建立一个数据的交易机制的确是破冰的途径。

陈新河:4v2V不是必要条件--大和速度

黄明峰:北京有这种数据采集的末端,其他城市就没有

茅明睿:规划可以容忍几个小时甚至几天才出来,毕竟,规划院搞不起高大上的架构,养不起牛逼的架构师,但是我确实需要一个DBA。还望诸位推荐。

黄明峰:现在各个城市共同的末端采集就是视频监控。

赵刚:现阶段,数据获得,一方面寄希望,政府开放基础数据。更多,还得靠各种信息基础设施中的各种技术性合法获得,如日志、信令、抓取、视频等。

茅明睿:我们这种跨界的半拉子,自己做做研究成,搞实时服务就很困难。我手上有上千个图层的空间数据以及这两年搞定量研究获取抓取的数据资源,做完研究后如何变成普通规划师可用的分析系统,提供定制化的服务,还有困难。

李简由:今天分享太棒,尤其是一段地铁ic卡分析的那一段,尤其觉得接地气。

C陈新河,联盟副秘书长;《软件定义世界,数据驱动未来》@徐元区再次感谢茅总的精彩分享!线下会组织一场城市规划大数据沙龙活动,请各位踊跃报名!

茅明睿:谢谢。


原文发布时间为:2014-05-14

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
大数据
大数据在城市规划领域的应用有哪些?请举例说明。
大数据在城市规划领域的应用有哪些?请举例说明。
71 0
|
存储 分布式计算 数据挖掘
什么是大数据?2022大数据时代
什么是大数据?2022大数据时代
212 0
什么是大数据?2022大数据时代
|
大数据
大数据是什么?大数据时代四个特点
大数据是什么?其实很简单,大数据其实就是海量资料巨量资料,这些巨量资料来源于世界各地随时产生的数据,在大数据时代,任何微小的数据都可能产生不可思议的价值。大数据有4个特点,为别为:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值),一般我们称之为4V。
2111 0
|
机器学习/深度学习 人工智能 算法
四说大数据时代“神话”:从大数据到深数据
在机器学习方面始终有个基础性的误会,即更大的数据会形成更快的学习效果。殊不知,更大的数据并非意味着能发现更深刻的信息。事实上,与数据的规模相较,数据的质量、价值和多样性更最该关注,即数据的“深度”胜于“广度”。
1190 0

热门文章

最新文章

下一篇
无影云桌面