大咖丨交通运输部科学研究院:交通运输大数据的基础环境正日益成熟-清数•思享会

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

“交通行业是一个基础性产业,我们面对的是点多、线长、面广的现状。”交通运输部科学研究院交通信息中心副主任黄莉莉用这样一句话概括了交通行业特点。

交通运输部科学研究院信息中心肩负着交通行业统计数据生产和交通运输部综合交通运输大数据应用中心的工作任务,多年来专门从事交通运输相关数据的采集、处理、分析应用等工作。这样一个部门,面对管理上条块结合的交通运输行业,如何才能协调各业务领域,从质量参差不齐的数据中挖掘价值?

12月7日,清数大数据产业联盟与清华校友总会AI大数据专委会(筹)共同主办的交通大数据思享会上,黄莉莉分享了交通运输大数据的分析与应用的实践。

cc990c7331173677ea057e5f2926c14138a44773


我们对本次分享的精彩内容进行了整理,在不改变原意的前提下有删改:

首先说一下交通运输行业大数据相关工作的一些背景。交通行业的业务领域覆盖面很广,今天介绍的重点是以公路和水路为主。

随着十一五、十二五整个行业信息化的推进,交通运输行业管理部门和相关交通运输企业掌握的交通运输大数据正在日益形成。但与公安、国土、海关这些部门比,交通领域的大数据依然十分分散。行业信息化还在不断发展的过程中,交通运输大数据的基础环境正在日益成熟,这是一个大的发展背景和情况。

综合交通运输大数据应用中心目前主要承担以下几个职能:

第一承担综合交通运输大数据政策标准研究。

第二关于行业数据资源目录的编制和维护。我们今年编制了2017年版的交通运输行业信息资源目录,在这个目录里涵盖了部里主要司局相关的信息资源。

第三负责建设部级交换共享平台的建设和运维,目前正在与国家平台进行对接。

第四关于行业大数据的分析和应用,以及我们为部为行业提供大数据分析决策技术支持和服务,以及对外的交换共享联络以及关于共享监测分析。

今年我们成功申报了行业综合交通运输大数据应用技术实验室,来推进数据交换共享开放工作。主要是希望能让更多的想使用行业数据的企业和研究人员,能依托实验室这个开放的技术平台,到我们的实验室来开展研究工作,使用实验室提供的数据,参与到行业大数据分析应用工作中。

交通行业特点:点多、线长、面广

对于实验室的方向,第一政策标准研究,第二是大数据采集模型建立还有数据处理。前面讲了,行业数据比较分散,主要是由于交通行业管理对象的特点决定的。我们一直说交通行业是一个基础性产业,但我们面对的是点多、线长、面广。比如像中资现在做行业遥感数据中心,公路去用遥感数据,跟其他的行业比最典型的问题是,公路基础设施是覆盖全国的。比如跟水利部门比,水利枢纽位置很固定,获取固定范围的遥感数据就好了。但是交通是一个全域覆盖的线状的。在路上运行的车辆又是到处流动的,而且它的行驶和运行情况也是不可控的,不像铁路在有限的环境和区域,包括航空也是,有航线的要求。尤其是货运车辆是市场化的行为,监管的范围和难度都很大,因此很难通过行政命令要求货运企业给政府提供数据。所以大数据采集、处理的技术有很大的挖掘空间。

政策研究

去年和今年部里出台了两份重要的文件,一个是推进交通运输行业数据资源开放共享的实施意见和交通运输政务信息资源共享管理办法。按照实施意见和管理办法的要求,行业内的政务信息资源共享是原则,不共享是例外。所以政务信息资源原则上都应该共享,不共享的要拿出明确的依据文件,这是一个非常大的变化。对于我们这些长期做数据的人来说,我们认为这两个文件很好的推动了行业数据的共享工作。

第二个是目前建立了行业的信息资源目录。目录整理得非常详细,目前目录的资源类别有500多类,信息项有6900多项。总的来说,覆盖了部里主要的信息系统。其中无条件共享的部分占40%左右,有条件共享的部分需要提出申请使用数据的明确用途才可以共享。从目前的情况来看,相关管理部门的思路和理念也发展得比较快,部门在提供数据时比较大的顾虑主要是担心数据共享后,产生错误的使用和解读,造成不良的影响。

应用实践

从2013年开始我们更多通过应用系统来提取统计数据,我们做了一件事情,采集了各省的高速公路联网收费数据并进行了数据分析应用,最初的目的是提高统计数据质量。我们采集的内容包括每一辆车,行驶高速公路的时候从哪里进从哪里出,可以具体到哪个收费站点进出以及进出时间,另外这辆车是客车还是货车,以及车牌号、车型、行驶里程等等。相关的数据分析比较关注货运车辆的行驶情况,包括拉了什么货、多重的货、拉到了哪里,因为全国货运车辆的行驶情况是能反映国民经济运行情况的。

这一数据覆盖了29个省份,这里面不包含西藏和海南,海南的高速公路是不收费的,是燃油税。西藏的高速公路没有联网。此项工作从2013年开始一直做到现在,目前涵盖了8500多个高速公路收费站,平均一个月会有8-9亿条数据。

从2013年做到现在,采集了这么多数据,与以往统计数据的管理有了天翻地覆的变化。又因为这段时间大数据技术发展非常快,对于我们做很多数据的测算和分析起到了很多好的促进作用,所以我们越来越多地采用了大数据技术。所以我们有时候更多去讲,不是因为有了大数据技术行业才做了这个工作,而是行业有需求,大数据提供了这样的一个技术手段和支撑。

这项数据采集是一个非实时的系统,因为最初是从校验统计数据质量的初衷建立的信息系统,所以数据更新频率是按月,部里在每一个联网收费中心或者省厅设置了相应的前置机,由各省按月把数据推送到前置机上,部级系统每月把数据取走。部级系统拿回来数据以后,首先会做常规的统计数据的处理,从中形成月报提供给部里做决策使用。另外,还会做一些数据的分析和挖掘以及关联分析。

工作之初,行业的高速公路联网收费数据是被认为数据质量很好的系统,但是做了相关工作以后才发现其实会面对很多最开始没想到的情况:由于系统是分级管理的,各省的高速公路以及收费系统是分别进行投资、建设的。而且各个省的高速公路管理体制也不一样,比如说有的省是由一个统一的高速集团管理省内所有的高速公路,这种管理是相对比较简单的,但是有的省有很多的业主单位,省里为了解决多个业主单位收费清分的问题,建了高速公路联网收费中心。由于各省情况不同,也就导致了采集到的数据字段、质量、问题都各有不同。

当前信息化技术的快速发展较好地推动了行业应用,但很多好的技术在行业的应用落地又非常困难,存在这样那样的现实问题。比如掌握了各省联网收费数据的实际情况之后,希望能通过技术手段提高车牌这个指标的数据质量,但由于车牌识别的硬件设备和软件都早就建设了,这些系统不是想升级就能升级的,涉及到大量的收费站、不同的车道分批分次的建设,而且还有资金投入等问题,需要一个漫长的推进过程。

新动力、新机遇和新趋势

我们做这些工作的感受,一个是有了新的动力,有一种媳妇熬成婆的感觉,做了很多年的数据之后,现在大家对数据的重视程度、关注度都比以前高了很多,在这样的环境下坚守这样的阵地,我们有了更多的推动力。

第二个是我们总体感觉行业大数据发展的大环境好了很多,部里信息化的建设开始以“大系统”为目标,也发布了国家综合交通运输信息平台总体技术方案,带来了新的机遇。

第三方面是政企合作共同推进交通大数据发展趋势日益明显,我们与企业之间的合作也越来越多了,能更好地为行业大数据分析应用工作服务。

清数•思享会是由清数大数据产业联盟与清华校友总会AI大数据专委会(筹)共同发起的小范围深度思想交流平台。大数据文摘作为战略合作媒体,将持续推出相关报道,敬请关注。


原文发布时间为:2017-12-13

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
大数据 Linux 数据安全/隐私保护
基于Docker搭建大数据集群(一)Docker环境部署
基于Docker搭建大数据集群(一)Docker环境部署
|
1月前
|
SQL 机器学习/深度学习 分布式计算
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
60 1
|
9天前
|
存储 大数据 数据处理
大数据环境下的性能优化策略
大数据环境下的性能优化策略
16 2
|
1月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
54 1
|
2月前
|
人工智能 分布式计算 大数据
超级计算与大数据:推动科学研究的发展
【9月更文挑战第30天】在信息时代,超级计算和大数据技术正成为推动科学研究的关键力量。超级计算凭借强大的计算能力,在尖端科研、国防军工等领域发挥重要作用;大数据技术则提供高效的数据处理工具,促进跨学科合作与创新。两者融合不仅提升了数据处理效率,还推动了人工智能、生物科学等领域的快速发展。未来,随着技术进步和跨学科合作的加深,超级计算与大数据将在科学研究中扮演更加重要的角色。
|
3月前
|
存储 数据可视化 数据挖掘
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
162 4
大数据环境下的房地产数据分析与预测研究的设计与实现
|
4月前
|
JSON 分布式计算 大数据
MaxCompute操作报错合集之连接环境时,出现报错:TypeError: access_id and secret_access_key,该怎么解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
5月前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用问题之如何同步两个环境的参数
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
缓存 运维 NoSQL
面试分享:Redis在大数据环境下的缓存策略与实践
【4月更文挑战第10天】探索Redis在大数据缓存的关键作用,本文分享面试经验及必备知识点。聚焦Redis数据结构(String、List、Set、Hash、Sorted Set)及其适用场景,缓存策略(LRU、LFU、TTL)与过期机制,集群和数据分片,以及性能优化和运维技巧。通过代码示例深入理解,助你面试成功,构建高效缓存服务。
173 4
|
SQL 安全 Java
开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?
开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?