面对道路施工封闭,深度学习能帮司机做什么?

简介: 小叽导读:还原真实世界是每个地图技术人的追求,并愿意为此付出不懈努力。随着地图静态路网的完善,道路上动态发生的事件,对用户出行的影响逐渐突显出来,尤其是道路上发生的封闭事件。为了挖掘道路上的封闭事件,高德技术团队设计了一套半监督的深度学习方案。下面通过业务背景、解决方案、建模方法以及业务落地四个方面展开说明。

1.jpg

1.业务背景

动态事件是道路通行能力的变化进而影响用户出行的事件。通过动态事件的描述,可以了解动态事件包含两个要素,第一个是通行能力的变化,第二个是影响用户出行。

动态事件基本类型是封闭、施工、事故,如图1所示。其中封闭是道路通行能力极弱,正常车辆不能通行,特殊车辆才可能通行;封闭影响用户出行,需要用户掉头并绕路才能到达目的地,严重影响用户的出行。

2.jpg

图1 动态事件定义及基本类型

为了对动态事件有形象的理解,图2展示了动态事件的常见情况。第一张图展示了天气类的封路,雨雪雾等均可能引起道路封闭。第二张图展示了管制类封路,如道路要进行马拉松比赛,所以管制性封路。第三张图像展示了施工类封路,第四张图展示了施工但未封闭的情况。

640_2.jpg
图2 动态事件示例

高德有多种发现封路事件的方法,本文主要介绍基于用户轨迹数据的动态事件挖掘算法。

图3中第一张图片展示了道路封闭发生后,流量从100左右跌到了0;第二张图片展示了车辆的轨迹不能正常通过某一段道路,需要掉头并绕路通过;第三张展示了一条道路不能通行,道路上没有车辆的GPS点。热力用来描述GPS点的密度,GPS点密度越高,热力越明显,颜色越深。

640.jpg
图3 封闭事件的大数据线索

封路问题主要拆分为新增和消散两部分工作来展开的。新增和消散对应封闭事件的上线和下线。封闭问题之所以分为新增和消散,主要原因是新增和消散在业务分布上有着很大的差异。

新增问题是面向全路网的数据,封闭事件是小概率事件,发现封闭事件前会进行导航规划。消散面向的是线上事件,绝大部分为封闭事件,不进行导航规划。本文主要介绍封路新增问题。下面开始介绍封路挖掘的解决方案。

2.解决方案

高德在处理动态事件时,基本逻辑是利用已知数据,找出疑似封闭事件,之后再进行提纯,产出封闭事件并进行上线。按照此逻辑,产线处理过程分为三个层次:

  • 数据层
  • 发现层
  • 验证层

大数据的解决方案也是基于此三层架构来设计的。经过系统化设计最终确定了分层化、半监督的深度学习方案,该方案可用于离线挖掘,也可以用于实时挖掘。整体方案如图4所示:

640_4.jpg

图4 整体解决方案

本方案主要包括如下5个部分:

  • 基础数据:基础数据主要用到了静态数据及动态数据,静态数据主要包括路网及其属性,动态数据主要是用户的轨迹、规划、偏航等;
  • 召回模块:为了发现疑似封闭事件,设计了召回模块。召回模块在搜索、广告等任务中均会使用。流量下降、掉头增多、偏航增多、热力截断是典型的召回策略;
  • 特征提取:业务建模过程中会将流量、规划、偏航、热力的数据在拓扑结构及时序上进行建模,产出相应的特征;
  • LSTM+ResNet预测:模型部分围绕时序模型及卷积模型进行了探索,如TCN、LSTM、GRU等。最终设计了LSTMResNet组合模型用于线上业务;
  • 分层产出:模型置信度越高,封闭准确率越高。不同的置信度可以分层化产出,高置信的产出自动化上线的同时,中低置信度的产出人工协助上线,低置信度的产出能够赋能产线,大数据协同其他事件源一起挖掘封闭事件。

3.建模方法

3.1 路网建模

路网是一张有向图,每一条边,也就是路网中的一条路,被称为一条link。路网建模分为空间建模、业务数据建模、时序建模三个步骤,如图5所示。将路网三步建模展开描述,分别是:

空间建模:路网按拓扑结构拆分,分为上游links、当前link、下游links;
业务数据在道路空间上的建模:基于拆分后的拓扑结构,对当前link及上下游links在规划、流量、偏航、热力几方面进行建模,形成一个39维的特征向量;
时序建模:我们的业务是典型的时序问题。以流量下降为例说明,道路封闭前,流量在100左右波动;道路封闭过程中,流量是逐渐下降的过程;道路封闭后,流量在0附近波动,基本无车辆通行。道路从非封闭到封闭的过程,是流量在时序上逐渐下降到0附近的过程。我们选取了四周的时间序列,每一天的数据是上一步提取的对应日期的39维特征向量。

640_5.jpg

图5 路网建模方法

3.2 算法建模

从时序建模开始,到最终选定时序和卷积的组合模型,LSTMResNet模型,我们经历了一系列的探索:

  • 鉴于我们的业务是典型的时序问题,所以从经典的时序模型LSTM、GRU进行实验;
  • 有了经典的模型,就希望在“state of the art”的时序模型上实验,所以调研了TCN并进行实验。最终TCN实验表现优于LSTM、GRU;
  • 本着“他山之石可以攻玉”的想法,我们也实验了CNN经典模型ResNet,ResNet表现虽不如TCN,但与GRU相当,优于LSTM。重要的是TCN表现优秀的原因之一就是内部运用了ResNet Block;
  • 鉴于ResNet表现优秀,所以有了时序+ResNet的想法。于是我们试验了LSTM+ResNet的模型,称为LSTMResNet模型。

快、准、稳是我们选取模型的主要考虑因素。“快”指的是挖掘周期短,LSTM比TCN需要的序列更短;“准”指的是挖掘的准确率高,LSTMResNet模型的准确率最高;“稳”指的是模型潜在的恶劣badcase更少,越是经典常用的模型,一般认为模型潜在问题更少。
基于快、准、稳的考虑,我们选取了LSTMResNet,并进行后续的业务迭代、落地。

LSTMResNet网络结构如图6所示,输入特征向量经过LSTM网络层,LSTM的输出作为ResNet的输入,ResNet的输出连接全连接层,最后全连接层与只有两个节点的网络层连接,这两个节点就是二分类的置信度。输入向量是长度为28,表示28天,每天特征是39维的特征向量;LSTM输出向量是长度为28,有5个隐层的网络层。

ResNet是由7个ResNet Block组成。每个ResNet Block内部都会进行卷积、归一化、ReLU运算,ResNet Block运算结果与ResNet Block的输入向量进行相加。

LSTMResNet模型参数整体较少,LSTM只有5个隐层;ResNet只有七个Block,包含14个网络层。这是因为模型复杂的情况下,非常容易过拟合,所以模型参数配置时没有使用更多的神经元。

640_8.jpg

图6 LSTMResNet网络结构

为了克服过拟合问题,我们在ResNet中使用Batch Normalization的同时,还使用了dropout,图7是dropout取值不同时的表现(数据来自中间实验过程):

640.png

图7 dropout调参

4.业务落地

业务建模之后进行业务落地的工作,主要考虑两个方面:

  • 模型落地方式:当前业务的主要需求是高置信的产出能够达到人工标注的准确率,这部分产出将自动化上线,要模型产出准确率不比人工标注准确率差,这是非常高的一个标准。基于高置信产出必须高准确率的要求,我们采用半监督的方法提升了高置信产出的准确率;
  • 业务风险预防:为了防止模型上线后出现一些影响面较大、明显背离业务常识的badcase,我们对模型进行了可解释性分析,分析模型的产出是否符合业务常识。

4.1 半监督助力业务落地

半监督方法是一种介于监督和非监督的方法,本文半监督实现的主要思路是:首先,用数量较少的高精样本数据学习模型,其次,用该模型对线上差分样本预测,最后,将预测的高置信部分样本作为带标签数据,重新训练模型,得到最终的模型。实验过程如图8所示:

640_9.jpg

图8 半监督实验流程

为了评测半监督训练的模型的高置信部分的准确率,分别评测模型V1和模型V2在业务数据上产出的topN准确率,模型V2比模型V1准确率高10个百分点,由此可见,半监督方法非常明显的提升了高置信样本的准确率。

4.2 业务数据验证

业务数据验证,主要是通过分析流量、规划、偏航、热力这四类主要特征是否符合业务常识,来解释模型对封闭事件的刻画是否符合业务预期。模型在流量、规划、偏航、热力上符合业务预期,则模型产出恶劣badcase的可能较小。

实验方法是,首先提取北京市某天的业务数据,其次使用模型进行预测,最后按置信度统计分析。业务数据验证结论如下:

  • 模型置信度在流量、规划、偏航、热力截断这四方面均符合业务常识;
  • 置信度能够刻画事件有无;
  • 置信度越高封闭可能性越大

5.小结

本文介绍了动态事件和封闭事件的概念。为了挖掘封闭事件,我们设计了一套半监督的深度学习方案,较为详细的介绍了路网建模、TCN及LSTM等深度学习建模。为了防止模型产出背离业务常识,进行了业务数据验证,实验表明模型挖出的封闭事件符合业务常识。封闭事件的挖掘能够更好帮助用户合理的规划路线、提高用户体验。

目录
相关文章
|
5天前
|
机器学习/深度学习 自然语言处理 算法
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
|
3天前
|
机器学习/深度学习 固态存储 计算机视觉
深度学习在图像识别中的应用与挑战
【5月更文挑战第17天】本文主要探讨了深度学习在图像识别领域的应用及其所面临的挑战。随着深度学习技术的不断发展,其在图像识别领域取得了显著的成果,如卷积神经网络(CNN)在图像分类、目标检测和语义分割等方面的优异表现。然而,深度学习在图像识别中仍面临一些挑战,如数据不平衡、模型泛化能力和计算资源消耗等。本文将对这些挑战进行分析,并探讨可能的解决方案。
8 0
|
1天前
|
机器学习/深度学习 边缘计算 算法
深度学习在图像识别中的应用及其挑战
【5月更文挑战第19天】 本文旨在探讨深度学习技术在图像识别领域的应用及其面临的主要挑战。通过分析当前流行的卷积神经网络(CNN)架构,并结合最新的研究进展,本文揭示了深度学习如何革新了传统的图像处理流程。同时,文章也指出了数据偏差、模型泛化能力不足以及计算资源消耗等关键问题,并对可能的解决方案进行了简要讨论。
17 4
|
1天前
|
机器学习/深度学习 数据采集 人工智能
深度学习在图像识别中的应用与挑战
【5月更文挑战第19天】 随着科技的飞速发展,深度学习技术在图像识别领域取得了显著的成果。本文将探讨深度学习在图像识别中的应用,以及在实际应用中所面临的挑战。通过对现有技术的分析和未来发展趋势的展望,旨在为相关领域的研究者和工程师提供有益的参考。
14 3
|
1天前
|
机器学习/深度学习 算法 计算机视觉
揭秘深度学习在图像识别中的创新应用
【5月更文挑战第19天】本文深入探讨了深度学习技术在图像识别领域的最新进展和创新应用。通过对卷积神经网络(CNN)的优化策略、数据增强技巧以及迁移学习的实践案例进行分析,文章揭示了深度学习如何提升图像识别的准确性和效率。同时,本文还讨论了深度学习在处理大规模图像数据集时所面临的挑战和相应的解决策略,为未来研究提供了新的视角和思路。
|
1天前
|
机器学习/深度学习 边缘计算 人工智能
探索深度学习在图像识别中的应用
【5月更文挑战第19天】 随着人工智能领域的飞速发展,深度学习技术在图像识别任务中取得了显著成就。本文将探讨卷积神经网络(CNN)的基本原理,分析其在图像识别中的应用,并通过案例研究展示如何利用深度学习模型提高识别精度和效率。我们将讨论数据集的准备、模型训练、优化策略以及模型部署等关键步骤,并对未来发展趋势进行展望。
6 0
|
2天前
|
机器学习/深度学习 算法 计算机视觉
深度学习在图像识别中的应用与挑战
【5月更文挑战第18天】 随着深度学习技术的迅速发展,其在图像识别领域的应用已经取得了显著的成果。本文将探讨深度学习在图像识别中的关键作用,分析其技术实现的基本原理,并讨论当前面临的主要挑战以及未来的发展趋势。我们将重点介绍卷积神经网络(CNN)的结构与优化策略,同时对比不同深度学习模型的性能表现,并提出针对性的改进方法。通过实验结果的分析,本文旨在为图像识别技术的进步提供理论支持和实践指导。
|
2天前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶领域的应用
【5月更文挑战第18天】随着科技的发展,深度学习技术在各个领域的应用越来越广泛。特别是在自动驾驶领域,基于深度学习的图像识别技术已经成为了关键技术之一。本文将详细介绍基于深度学习的图像识别技术在自动驾驶领域的应用,包括其原理、实现方法以及面临的挑战和未来发展趋势。
20 5
|
2天前
|
机器学习/深度学习 人工智能 监控
深度学习在图像识别中的应用与挑战
【5月更文挑战第18天】 随着人工智能技术的飞速发展,深度学习作为其核心推动力之一,在图像识别领域取得了显著的成就。本文将探讨深度学习技术在图像识别任务中的运用,重点分析卷积神经网络(CNN)的结构和优化策略,以及在实际应用中所面临的主要挑战,如模型泛化能力、数据不平衡和对抗性攻击等。通过综合现有文献和最新研究成果,本文旨在为读者提供一个关于深度学习在图像识别领域的应用现状和未来趋势的全面视角。
|
2天前
|
机器学习/深度学习 数据采集 传感器
基于深度学习的图像识别技术在自动驾驶系统中的应用
【5月更文挑战第18天】 随着人工智能技术的飞速发展,特别是深度学习在图像识别领域的突破性进展,自动驾驶技术已经从科幻走向现实。本文旨在探讨如何将基于深度学习的图像识别技术集成到自动驾驶系统中,以提升车辆的环境感知能力、决策效率及安全性。文中不仅回顾了当前自动驾驶中图像识别的关键挑战,还介绍了几种前沿的深度学习模型及其在处理复杂交通场景下的有效性。此外,本文还将讨论数据预处理、增强技术以及模型优化策略对提高自动驾驶系统性能的重要性。