业界 | 复杂出行场景下,滴滴如何将AI融入地图系统

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

打开滴滴App叫车,你最先看到的就是绿色的上车站点推荐。地图数据的准确性和时效性、基于地图的路径规划、预估到达时间等服务是顺畅出行的基础。

c999c4fe6a365fbc1135ff5aa5d0fa9f1e2fdc3d

基于海量实时出行数据,滴滴如何将机器学习、深度学习算法融入地图系统中,更好地为出行服务?其产品和功能背后有怎样的AI技术支持?

今天上午,在北京国家会议中心举办的WGDC 2018(全球地理信息开发者大会)上,滴滴出行地图事业部总经理张弦详细解释了滴滴地图背后的AI技术。

9dbb43dade8ee12b4bba2f82cc5fba3fb8121acb

△张弦在WGDC发表演讲

基于海量实时出行数据,滴滴地图提供ETA(预估到达时间)、路径规划、上下车点、“猜你想去”等基础服务,并且支持滴滴出行平台的运力调度、供需预测、拼车、智能分单等多个业务系统。面对复杂的业务场景,滴滴广泛使用了机器学习、深度学习算法,来提高应用的准确性和处理能力,提高地图数据更新的有效性和时效性,以更好地为人们提供出行服务。

0198fb2b6ab9077bad04e5d7024b7fb4080b949f

△AI和大数据融入地图服务

张弦在演讲中表示,历经过去的发展,滴滴出行将机器学习成功地应用到滴滴的产品体系中,从基础地图服务到订单调度系统,再到用户体验提升,都离不开机器学习算法的支持。

比如在ETA算法中,滴滴使用了海量实时数据,设计出全新的时间预估算法,从原理上克服了传统算法的缺陷,大幅提升了时间预估的准确率;供需预测算法则以数十亿订单数据和平台车主的位置信息为基础,预测任意时间段各个区域的订单需求和供给分布状况,提供最优的出行方案;而智能分单系统是通过增强学习技术,从车主和乘客的历史数据中习得并不断迭代接单概率模型,提高车主和乘客的匹配程度,利用运力的规模效应实时地从全局上最优化总体交通运输效率和乘客出行体验。

6b6d7f1d3bf4dc4c9c192c3cf39ba9c090ccd189

△滴滴地图服务整体架构

正如张弦在演讲中所说,“要严肃对待每一公里、每一分钟”:当系统定位到乘客的上车地点后,滴滴可以在2毫秒内预测他们的目的地,率先推荐出最可能前往的地点,加快乘客的发单效率。这个“猜你想去”的功能可以达到90%的预测准确率。

通过大数据算法,滴滴能够向乘客推荐附近适合的上车地点,从而有效减少司乘之间的沟通次数,提高行程效率。2017年,滴滴出行对这一基于AI技术的功能进行了强化,目前已达到了在线机器学习的智能程度,能够让App上的推荐上车点动态更新。

目前,平台拥有超过3000万个推荐上车点,有75%的用户直接使用这一功能发单:以全国地级以上城市的城区总面积来计算,这意味着不到25米乘客就可以抵达一个站点。

b58c0e227978d090b9cd8b97d93005dfd36db69b

△地图在滴滴出行中的业务系统与基础服务

在强大技术能力和精细策略的背后,是滴滴出行对人才的重视与培养:目前滴滴有近9000名员工,其中接近一半是大数据科学家和工程师;而地图事业部的人才结构则更为精细:40%来自地图行业、30%专注于机器学习领域、还有30%拥有计算机专业(Computer Science)背景。

WGDC是地理信息领域最具影响力的技术性盛会,峰会以不断引领和促进地理信息技术的创新和变革为宗旨,已经成为空间大数据产业跨界发展、跨国交流的重要平台,在业内被誉为“中国空间信息产业的创新风向标”。

此次在WGDC峰会上,张弦宣布了“滴滴出行地图开放课题”计划。面向以高校为主的研究机构,滴滴出行将当前或未来面临的行业共性业务难题对外开放,并且提供脱敏数据、计算资源、基金资助,旨在促进高质量研究成果的产出,加速研究成果的产业落地和应用。

ae3d29107cfe932c427accb300c31010e0b445af

△WGDC峰会现场

这是业界首次开放地图行业相关的课题,率先发布的三个开放课题分别是:“智慧交通路径计算”、“基于多传感器的室内定位”和“大规模场景三维重建技术方案”。

具体而言,路径计算研究希望利用静态路网属性信息和动态路况信息,评估路线质量;室内定位研究旨在利用多传感器在室内定位优化上进行前瞻性的技术探索,进而实现较精准的室内步行导航;而三维重建技术研究则基于视觉,使大规模场景的三维重建技术成为可能。


原文发布时间为:2018-06-15

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3天前
|
机器学习/深度学习 存储 人工智能
【AI系统】昇思MindSpore并行
本文介绍昇思MindSpore的并行训练技术,包括张量重排布、自动微分等,旨在简化并行策略搜索,提高大规模模型训练效率。文章探讨了大模型带来的挑战及现有框架的局限性,详细说明了MindSpore如何通过技术创新解决这些问题,实现高效的大模型训练。
46 20
【AI系统】昇思MindSpore并行
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
3天前
|
机器学习/深度学习 人工智能 分布式计算
【AI系统】混合并行
混合并行融合了数据并行、模型并行和流水线并行,旨在高效利用计算资源,尤其适合大规模深度学习模型训练。通过将模型和数据合理分配至多个设备,混合并行不仅提升了计算效率,还优化了内存使用,使得在有限的硬件条件下也能处理超大型模型。3D混合并行(DP+PP+TP)是最先进的形式,需至少8个GPU实现。此策略通过拓扑感知3D映射最大化计算效率,减少通信开销,是当前深度学习训练框架如Deepspeed和Colossal AI的核心技术之一。
42 15
【AI系统】混合并行
|
3天前
|
存储 人工智能 PyTorch
【AI系统】张量并行
在大模型训练中,单个设备难以满足需求,模型并行技术应运而生。其中,张量并行(Tensor Parallelism, TP)将模型内部的参数和计算任务拆分到不同设备上,特别适用于大规模模型。本文介绍了张量并行的基本概念、实现方法及其在矩阵乘法、Transformer、Embedding和Cross Entropy Loss等场景中的应用,以及通过PyTorch DeviceMesh实现TP的具体步骤。
30 11
【AI系统】张量并行
|
3天前
|
存储 机器学习/深度学习 人工智能
【AI系统】完全分片数据并行 FSDP
本文深入探讨了AI框架中针对权重数据、优化器数据和梯度数据的分布式并行实现,特别是在PyTorch框架下的具体方案。文章首先回顾了通用数据并行和分布式数据并行的概念,重点讨论了同步与异步数据并行的差异。接着,文章详细介绍了如何在PyTorch中实现弹性数据并行,特别是完全分片数据并行(FSDP)的机制,包括其如何通过分片模型状态和剩余状态来减少内存消耗,提高训练效率。此外,文章还探讨了混合精度训练、损失缩放和内存消耗估算等关键技术,为理解和实施高效的分布式训练提供了全面的指导。
21 9
【AI系统】完全分片数据并行 FSDP
|
3天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
40 7
【AI系统】数据并行
|
3天前
|
机器学习/深度学习 人工智能 前端开发
【AI系统】计算图的控制流实现
计算图作为有向无环图(DAG),能够抽象神经网络模型,但在编程中遇到控制流语句(如if、else、while、for)时,如何表示成为难题。引入控制流后,开发者可构建更复杂的模型结构,但部署含控制流的模型至不支持Python的设备上较为困难。目前,PyTorch仅支持Python控制流,而TensorFlow通过引入控制流原语来解决此问题。计算图的动态与静态实现各有优劣,动态图易于调试,静态图利于优化。
22 5
【AI系统】计算图的控制流实现
|
3天前
|
机器学习/深度学习 存储 人工智能
【AI系统】计算图与自动微分
自动求导利用链式法则计算雅可比矩阵,从结果节点逆向追溯计算路径,适用于神经网络训练中损失值对网络参数的梯度计算。AI框架中,自动微分与反向传播紧密相连,通过构建计算图实现高效梯度计算,支持动态和静态计算图两种模式。动态图如PyTorch,适合灵活调试;静态图如TensorFlow,利于性能优化。
26 6
【AI系统】计算图与自动微分
|
3天前
|
机器学习/深度学习 人工智能 算法
【AI系统】计算图挑战与未来
当前主流AI框架采用计算图抽象神经网络计算,以张量和算子为核心元素,有效表达模型计算逻辑。计算图不仅简化数据流动,支持内存优化和算子调度,还促进了自动微分功能的实现,区分静态图和动态图两种形式。未来,计算图将在图神经网络、大数据融合、推理部署及科学计算等领域持续演进,适应更复杂的计算需求。
32 5
【AI系统】计算图挑战与未来
|
3天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图基本介绍
近年来,AI框架如TensorFlow和PyTorch通过计算图描述神经网络,推动了AI技术的发展。计算图不仅抽象了神经网络的计算表达,还支持了模型算子的高效执行、梯度计算及参数训练。随着模型复杂度增加,如MOE、GAN、Attention Transformer等,AI框架需具备快速分析模型结构的能力,以优化训练效率。计算图与自动微分紧密结合,实现了从前向计算到反向传播的全流程自动化。
24 4
【AI系统】计算图基本介绍