Paper Time|开放式时空大数据助力智能公交路线规划

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: Paper Time|开放式时空大数据助力智能公交路线规划

城市化进程的加快,带来了城市居民出行需求、城市公共交通规模的爆发式增长。如何更好地发展与管理城市公交,实现社会和经济效益的最优化,一直是备受关注的问题。近年来大数据技术日渐成熟,其在交通领域的应用也不断深入,如利用“时空大数据”技术帮助公共交通进行线路优化,就是一个成功的应用案例。


OceanBase Paper Time 第三期邀请到了武汉大学计算机学院副教授王胜,带来题为《开放式时空大数据助力智能公交路线规划》的分享。王胜教授从开放式时空数据的概念、研究方向、方法及研究成果的现实应用等四个方面展开,重点围绕城市开放的时空大数据,介绍了他基于开放式时空数据的公交运力估算和路线规划研究,分享了如何实现运力最大化和换乘方便两大目标,并在纽约公交网上得到验证的研究过程。本期分享的原论文《Public Transport Planning: When Transit Network Connectivity Meets Commuting Demand》发表于 2021 SIGMOD (数据管理国际会议)。


今天为大家带来该场分享的文字版回顾,欢迎大家一起学习讨论并分享。




本文整理自直播内容以及分享嘉宾的相关论文:


感谢 OceanBase 邀请,非常荣幸能借此机会同大家分享我过去几年的研究内容。我于 2021 年在美国纽约大学结束博士后,回国入职武汉大学计算机学院担任副教授。我今天分享的内容是《开放式时空大数据助力智能公交路线规划》,包括研究背景、研究问题、研究方法、实验评估四个方面。

image.png

时空数据研究有什么用?


数据已成为新型生产要素


2021 年,国务院印发了《“十四五”数字经济发展规划》,其中指出,数据对提高生产效率的乘数作用不断凸显,成为最具时代特征的生产要素。规划中“智慧城市”也被提及五次,例如“结合新型智慧城市建设,加快城市数据融合及产业生态培育,提升城市数据运营和开发利用水平。”


举例来说,目前,国内外许多城市都建设了开放式政务数据平台,如武汉市的公共数据开放平台https://data.wuhan.gov.cn/,纽约市的 NYC Open Datahttps://opendata.cityofnewyork.us/等,建设好这些平台也可以进一步发挥出数据的生产要素作用。


据统计,至少 60% 的开放式数据集含有地理信息,包括道路网数据、公交网数据、轨迹数据 (车辆、行人)等,如时空数据平台 OpenStreetMaphttps://www.openstreetmap.org/就提供全世界的地图数据集,下图即是从 OpenStreetMap 平台下载的北京市地图数据。

image.png 


下方表格来自于我们发表于《ACM Computing Surveys》的论文《A Survey on Trajectory Data Management, Analytics, and Learning》,该表展示了几个现有的城市轨迹数据集,它们可以大致分为三组:人、车辆(汽车、卡车、火车、公共汽车、有轨电车等)、其他(动物和飓风),大量轨迹数据集的开放下载为研究提供了便利。我们可以观察到人类衍生的轨迹数据(包括车辆)是轨迹数据的常见来源,也是目前最大的轨迹数据来源。例如,纽约市记录了从 2009 年 1 月至 2015 年 6 月间的 11 亿次个人出租车出行。

image.png

时空数据研究的重要性


时空数据研究在疫情防控、智能公交等民生领域已经有了较为成熟的应用,并日益发挥关键作用。


在疫情防控领域:轨迹相似度可进一步运用于精确计算与病例时空伴随时间,判断感染风险,并快速查询密切接触者;我们也看到已研发的一些防疫手机应用程序,自动记录日常轨迹,智能映射到公共室内场所和公交班次,并可在手机端直接计算密接度,无需泄露用户隐私。


在智能公交领域:评价公交网络连接度,规划新公交线路以方便换乘,已在纽约和芝加哥数据集上验证。同时,实时公交可以实现搜集海量公交实时位置数据,评价公交准点率,预测到达时间、智能规划行程安排。


轨迹数据管理的难点


  • 数据体量大:如武汉机动车保有量已突破400万,存储管理海量数据的难度也更大;
  • 差异性大:如车辆、行人、电动车等的轨迹特征不一,提升了数据分析建模的难度;
  • 数据融合:需与路网、车道、公共场所等数据集成;
  • 查询种类多:涉及时空伴随、路口监控等多种场景;
  • 匹配难:相似度匹配模型复杂度高。


作者在时空数据管理领域研究总览


我在时空数据管理领域的研究主要包括三个方向:


一、推动大规模轨迹数据管理等基础理论研究工作。在轨迹数据预处理、存储、压缩、相似度度量、一体化索引等基础理论研究方面提出创新性成果;


二、研究均以现实应用为驱动并提出关键技术解决方案,服务真实场景。如推广轨迹数据在公共交通规划、实时交通监测、智慧旅游路线规划方面等应用;


三、倡导基础研究和原型系统开发并重,构建并开源第一个车辆轨迹搜索引擎。能高效支持多种查询和新颖的轨迹度量方式,所提算法均应用于在线交互式系统中进行展示。

image.pngimage.png

我们知道,城市都会经历崛起和衰落,同样的,城市内的一个区域也会经历崛起和衰落,这一过程通常会伴随着人口的大规模迁徙。此时,为过去设计的公交系统就会无法满足最新的需求,出现运力浪费或者过载的情况。而通过时空数据分析,可以帮助城市更合理地规划公交路线。


研究问题1:公交路线运力估算


对于公交路线规划,首要考虑的问题无疑是运力问题。建设一条公交线路,会有多少人乘坐,能否收回成本或者保证盈利?如何实现运力最大化,拥有尽可能多的乘客?


如下图所示,在规划公交路线时,我们需要综合考虑 Ridership(客流量)和 Coverage(覆盖范围)。如果只考虑 Ridership,则公交线路会运行于人口密集的道路,同时安排更频繁的车次,此时由于线路集中,大部分乘客需要步行更远才能到达公交车站;如果只考虑 Coverage,则公交路线会在更大区域的更多街道运行,乘客仅需步行很短的距离即可到达公交车站,但此时因为线路的分散会让车次减少,人们需要等待更久时间乘车。


因此,在规划一条新的公交路线时,我们要根据出行轨迹估算其运力,计算出多少乘客会选择其作为最近的路线出行,从而实现运力最大化。


image.png

研究问题2:如何使得新路线方便换乘


公交线路规划的另一个关键问题是换乘方便性。人们在前往目的地时,很少情况下可以通过单一线路抵达,大多数情况是需要换乘,包括换乘公交车、地铁、轮渡等。


如下图所示,Connections(换乘)和 One-Seat Rides(直达)是人们从出发抵达目的地的两种情况。Connections 情况下,公交线路更为集中和笔直,因此乘客需要额外的路程往返于车站和出发地/目的地,但等待时间会更短,整个行程将花费更短的时间;One-Seat Rides 情况下,公交路线较为迂回,乘客仅需乘坐一次即可从出发地到达目的地,但等待时间会更长,整体行程也需要更多时间。


因此,规划公交线路时也要充分考虑换乘方便性,该问题主要难点一是缺失形式化方法来定义换乘方便指数;二是如何满足运力最大化的同时实现换乘,即多目标路线优化。


image.png

我们提出了“反向 k 近邻查询”和“公交线路规划算法”两种研究方法,用于公交线路运力估算和重新规划。


反向 k 近邻查询


一、问题定义


在设计这一研究方法时,我们主要使用了两种数据:纽约出租车数据(NYC Taxi Data)和现有的公交网数据(如下图所示),研究的具体问题是:给定一条新公交路线 Q,查询其被多少条轨迹(出租车)作为最近邻。基本解决思路为:从每条轨迹找到其最近的 k 条线路,然后查看 Q 是否在其结果列表中。

image.png

该问题是我在读博时进行的研究,研究成果《Reverse k Nearest Neighbor Search over Trajectories》在 2018 年 4 月发表在《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》期刊上。


二、主要技术挑战和解决方案


研究这一问题主要面临两大技术挑战:一是复杂度过高;二是数据量庞大,例如纽约有800万人,2000余条公交路线。


因此,我们提出使用数据库索引技术解决技术挑战:提前预计算将相近的轨迹放到一块,实现批处理,从而避免一对一的匹配计算。同时,进一步延伸,利用该查询作为工具来规划公交线路,给定起点和终点后,准备一些 candidate(备选路线)进行公交线路运力的计算,最后通过图剪枝技术快速找到一条可最大化运力的路线。


如下图示,我们展示了 4 种路线:Original(原始路线)、Shortest(最短路线)、MaxRkNNT(吸引最多乘客的路线)、MinRkNNT(吸引最少乘客的路线),我们发现原始路线和 MaxRkNNT 路线几乎相同,区别在于 MaxRkNNT 多走了 10 米路程,但可以额外吸引 129 名乘客。


在计算公交运力的过程中我们遇到不少挑战很大的问题,我们都通过数据库查询技巧把挑战难度降低,快速解决了这些问题。


运力&换乘优化路线规划算法


在我到达纽约后,从纽约公交路线的优化工作中得到了新的启发,进一步完善了运力&换乘优化路线规划算法:数据来源除了原本的轨迹数据、公交网数据外,新增加了路网数据。


如下图所示,灰色圆圈表示路网节点,数字表示该边的需求(需要乘坐公交的人数);黑色方块表示公交停靠点;蓝色线表示现有公交线路;红色线为出行人的轨迹数据,通过 map matching 映射到网络中。我们从该图中可以发现:出行人从 v5 路网节点到 7 号公交停靠点,中间有一段路因为公交未开通需要步行。轨迹代表了通勤需求,若其所在路径上不存在现有的公交路线,就可以是潜在的新的公交路线。


因此,我们需要规划一条至多k站路线的新公交路线,使得目标值(运力和换乘方便性)最大化。即新开通路线需要在满足公交网整体连通性的前提下,保证换乘的方便性。此时我们也会关注到公共交通的另一个属性,即公平性:如果只追求运力,则公交路线都会集中在人口密集区域,而郊区路线的换乘会非常不便。作为数据科学的研究者,我认为更多地关注普通人的利益是很有必要的。

image.png

image.png

三、公交网连通度衡量方式


如果大家对图论有过研究,就会知道“edge connectivity(边连通度)”这一概念,通俗来说,就是一个图最少要去掉多少条边,可以变成非连通图或者平凡图。那应用于公交线路中,比如一些通往郊区的路边连通度就是 1,如果断开则整个网络就会不连通。

此时,我们注意到在生物化学的蛋白质研究领域,有一个概念叫做 Natural connectivity(自然连通度),于是我们将它引入到公交网络问题的研究中,利用公交网邻接矩阵的特征值推算出[0,1]之间的连通度指数。可以说它是最适合交通网络的一种属性,因为它不会因为代数连通性或边缘连通性改变而产生剧烈变化。


为了验证这一思路在真实交通网络中的单调性,我们随机从芝加哥和纽约市交通网络中逐渐移除现有路线,并观察到自然连通性几乎线性下降,如下图所示。


image.png

方法思路总结


回顾我们的研究内容,首先我们证明了 CT-Bus 问题是 NP-hard(NP:Non-deterministic Polynomial,非确定性多项式)问题。因为它是两个复杂约束优化问题(满足乘客通勤需求、最大公交网络连通性)的组合,没有近似比。

较为直接的解决方案是生成大量备选路线,并计算每个备选路线的连通性,选择目标值最高的路线。由于 CT-Bus 的目标函数计算成本很高(连通性的计算需要计算邻接矩阵的特征值),因此我们提出了一种通过在网络中扩展、排序和修剪候选路径的通用算法。


在改进算法的过程中,我们采用了预处理加速技术:先选择一些种子路径,不断在它的两边增加边,持续估计需求,同时估计我们新加的边或者路线的连通性。经过我们对算法的不断改进优化,能够在保证结果准确性的同时,把计算速度从几天减少到几十秒。

一、初始化阶段


选择拓展种子,按需求降序排列(从具有高需求的边开始拓展);最短路径搜索算法连接两个停靠站;累加该路径穿过的每条路网边的需求。


二、拓展阶段


添加相邻边作为新候选,采取广度优先搜索;搜索策略可以选择全部或最佳邻居(best neighbor),后者可以有效缓解收敛问题;计算目标值,更新最佳路径,估计上限目标值。


三、检查阶段


计算候选的连通性,检查是否能提高目标值;若是,则进行几项检查,分别用于限制路径的转弯问题,以及避免一些重复拓展;通过检查后更新结果。

image.png

如下图所示,新规划路线用粗深红色线表示。通过算法有效性分析,所提方法可以生成具有高目标值的有效路径,并在需求和连通性之间保持平衡;规划路线的形态在地图上也较为平滑,对于城市实际的公交规划是有参考价值。

image.png

对于纽约市,Queens 和 Brooklyn 之间需要建设更多的路线,这将进一步连接更多通往 Staten Island 的路线;Manhattan 现有的地铁和公交系统已经非常成熟,连通性的提升不是很明显,不需要新规划的公交线路,而这也与纽约市正在重新设计除 Manhattan 以外的其他四个行政区的公交路线这一事实一致;不过还是建议规划更多连接 Manhattan 和 Staten Island 的线路,后者高度依赖公交系统,而岛上只有一条内部地铁线路;Bronx 还建设新路线来需要连接南北,形成一个圆环来连接 Yankee Stadium、Hunts Point Avenue 和 Kingsbridge,以显著减少通勤者的换乘。


算法主要性能指标


我们将算法优化前后的结果进行比较,在时间效率方面,下图中的 ETA 为我们提出的数据库算法,基于预计算的估算技术(ETA-Pre)能够非常高效地找到最优路线。

image.png

我认为利用公共时空数据集可有效助力智能公共交通发展,时空数据驱动的智能路线规划通常非常复杂,但数据库技术可大幅度降低规划开销,随着更多的时空数据公开,将惠及更多民生领域,如;实时公交轨迹数据管理和分析、病例轨迹追踪、公交时刻表优化和到达时间预测等。




以上为王胜老师上期直播的全部实录分享,希望大家有所收获!


第四期 Paper Time 由蚂蚁技术研究院海贝实验室研究员、新加坡国立大学博士后徐泉清老师为大家带来 “ 一个 7.07 亿tpmC的分布式关系型数据库系统 ”的分享,本篇论文也是VLDB 2022 分布式数据库领域唯一获得"the artifact available badge"的工业论文。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
14天前
|
存储 人工智能 数据管理
|
7天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
19天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
107 15
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
1月前
|
DataWorks 搜索推荐 大数据
聊聊DataWorks——这个一站式智能大数据开发治理平台
聊聊DataWorks——这个一站式智能大数据开发治理平台
162 2
|
5月前
|
运维 算法 数据可视化
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现,包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题,以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。
83 0
|
3月前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
127 10
|
3月前
|
存储 数据采集 分布式计算
大数据技术:开启智能时代的新引擎
【10月更文挑战第5天】大数据技术:开启智能时代的新引擎
|
5月前
|
存储 人工智能 分布式计算
阿里云智能大数据演进
本文根据7月24日飞天发布时刻产品发布会、7月5日DataFunCon2024·北京站:大数据·大模型.双核时代实录整理而成