“交通行业是一个基础性产业,我们面对的是点多、线长、面广的现状。”交通运输部科学研究院交通信息中心副主任黄莉莉用这样一句话概括了交通行业特点。
交通运输部科学研究院信息中心肩负着交通行业统计数据生产和交通运输部综合交通运输大数据应用中心的工作任务,多年来专门从事交通运输相关数据的采集、处理、分析应用等工作。这样一个部门,面对管理上条块结合的交通运输行业,如何才能协调各业务领域,从质量参差不齐的数据中挖掘价值?
12月7日,清数大数据产业联盟与清华校友总会AI大数据专委会(筹)共同主办的交通大数据思享会上,黄莉莉分享了交通运输大数据的分析与应用的实践。
我们对本次分享的精彩内容进行了整理,在不改变原意的前提下有删改:
首先说一下交通运输行业大数据相关工作的一些背景。交通行业的业务领域覆盖面很广,今天介绍的重点是以公路和水路为主。
随着十一五、十二五整个行业信息化的推进,交通运输行业管理部门和相关交通运输企业掌握的交通运输大数据正在日益形成。但与公安、国土、海关这些部门比,交通领域的大数据依然十分分散。行业信息化还在不断发展的过程中,交通运输大数据的基础环境正在日益成熟,这是一个大的发展背景和情况。
综合交通运输大数据应用中心目前主要承担以下几个职能:
第一承担综合交通运输大数据政策标准研究。
第二关于行业数据资源目录的编制和维护。我们今年编制了2017年版的交通运输行业信息资源目录,在这个目录里涵盖了部里主要司局相关的信息资源。
第三负责建设部级交换共享平台的建设和运维,目前正在与国家平台进行对接。
第四关于行业大数据的分析和应用,以及我们为部为行业提供大数据分析决策技术支持和服务,以及对外的交换共享联络以及关于共享监测分析。
今年我们成功申报了行业综合交通运输大数据应用技术实验室,来推进数据交换共享开放工作。主要是希望能让更多的想使用行业数据的企业和研究人员,能依托实验室这个开放的技术平台,到我们的实验室来开展研究工作,使用实验室提供的数据,参与到行业大数据分析应用工作中。
交通行业特点:点多、线长、面广
对于实验室的方向,第一政策标准研究,第二是大数据采集模型建立还有数据处理。前面讲了,行业数据比较分散,主要是由于交通行业管理对象的特点决定的。我们一直说交通行业是一个基础性产业,但我们面对的是点多、线长、面广。比如像中资现在做行业遥感数据中心,公路去用遥感数据,跟其他的行业比最典型的问题是,公路基础设施是覆盖全国的。比如跟水利部门比,水利枢纽位置很固定,获取固定范围的遥感数据就好了。但是交通是一个全域覆盖的线状的。在路上运行的车辆又是到处流动的,而且它的行驶和运行情况也是不可控的,不像铁路在有限的环境和区域,包括航空也是,有航线的要求。尤其是货运车辆是市场化的行为,监管的范围和难度都很大,因此很难通过行政命令要求货运企业给政府提供数据。所以大数据采集、处理的技术有很大的挖掘空间。
政策研究
去年和今年部里出台了两份重要的文件,一个是推进交通运输行业数据资源开放共享的实施意见和交通运输政务信息资源共享管理办法。按照实施意见和管理办法的要求,行业内的政务信息资源共享是原则,不共享是例外。所以政务信息资源原则上都应该共享,不共享的要拿出明确的依据文件,这是一个非常大的变化。对于我们这些长期做数据的人来说,我们认为这两个文件很好的推动了行业数据的共享工作。
第二个是目前建立了行业的信息资源目录。目录整理得非常详细,目前目录的资源类别有500多类,信息项有6900多项。总的来说,覆盖了部里主要的信息系统。其中无条件共享的部分占40%左右,有条件共享的部分需要提出申请使用数据的明确用途才可以共享。从目前的情况来看,相关管理部门的思路和理念也发展得比较快,部门在提供数据时比较大的顾虑主要是担心数据共享后,产生错误的使用和解读,造成不良的影响。
应用实践
从2013年开始我们更多通过应用系统来提取统计数据,我们做了一件事情,采集了各省的高速公路联网收费数据并进行了数据分析应用,最初的目的是提高统计数据质量。我们采集的内容包括每一辆车,行驶高速公路的时候从哪里进从哪里出,可以具体到哪个收费站点进出以及进出时间,另外这辆车是客车还是货车,以及车牌号、车型、行驶里程等等。相关的数据分析比较关注货运车辆的行驶情况,包括拉了什么货、多重的货、拉到了哪里,因为全国货运车辆的行驶情况是能反映国民经济运行情况的。
这一数据覆盖了29个省份,这里面不包含西藏和海南,海南的高速公路是不收费的,是燃油税。西藏的高速公路没有联网。此项工作从2013年开始一直做到现在,目前涵盖了8500多个高速公路收费站,平均一个月会有8-9亿条数据。
从2013年做到现在,采集了这么多数据,与以往统计数据的管理有了天翻地覆的变化。又因为这段时间大数据技术发展非常快,对于我们做很多数据的测算和分析起到了很多好的促进作用,所以我们越来越多地采用了大数据技术。所以我们有时候更多去讲,不是因为有了大数据技术行业才做了这个工作,而是行业有需求,大数据提供了这样的一个技术手段和支撑。
这项数据采集是一个非实时的系统,因为最初是从校验统计数据质量的初衷建立的信息系统,所以数据更新频率是按月,部里在每一个联网收费中心或者省厅设置了相应的前置机,由各省按月把数据推送到前置机上,部级系统每月把数据取走。部级系统拿回来数据以后,首先会做常规的统计数据的处理,从中形成月报提供给部里做决策使用。另外,还会做一些数据的分析和挖掘以及关联分析。
工作之初,行业的高速公路联网收费数据是被认为数据质量很好的系统,但是做了相关工作以后才发现其实会面对很多最开始没想到的情况:由于系统是分级管理的,各省的高速公路以及收费系统是分别进行投资、建设的。而且各个省的高速公路管理体制也不一样,比如说有的省是由一个统一的高速集团管理省内所有的高速公路,这种管理是相对比较简单的,但是有的省有很多的业主单位,省里为了解决多个业主单位收费清分的问题,建了高速公路联网收费中心。由于各省情况不同,也就导致了采集到的数据字段、质量、问题都各有不同。
当前信息化技术的快速发展较好地推动了行业应用,但很多好的技术在行业的应用落地又非常困难,存在这样那样的现实问题。比如掌握了各省联网收费数据的实际情况之后,希望能通过技术手段提高车牌这个指标的数据质量,但由于车牌识别的硬件设备和软件都早就建设了,这些系统不是想升级就能升级的,涉及到大量的收费站、不同的车道分批分次的建设,而且还有资金投入等问题,需要一个漫长的推进过程。
新动力、新机遇和新趋势
我们做这些工作的感受,一个是有了新的动力,有一种媳妇熬成婆的感觉,做了很多年的数据之后,现在大家对数据的重视程度、关注度都比以前高了很多,在这样的环境下坚守这样的阵地,我们有了更多的推动力。
第二个是我们总体感觉行业大数据发展的大环境好了很多,部里信息化的建设开始以“大系统”为目标,也发布了国家综合交通运输信息平台总体技术方案,带来了新的机遇。
第三方面是政企合作共同推进交通大数据发展趋势日益明显,我们与企业之间的合作也越来越多了,能更好地为行业大数据分析应用工作服务。
清数•思享会是由清数大数据产业联盟与清华校友总会AI大数据专委会(筹)共同发起的小范围深度思想交流平台。大数据文摘作为战略合作媒体,将持续推出相关报道,敬请关注。
原文发布时间为:2017-12-13