突破自动驾驶"交规困境":高德&西交发布交规+高精地图基准MapDR,车道级交通规则在线理解,让AI更懂交规!

简介: 作为专业领先的出行和位置服务提供商,高德地图以数据准确率高、鲜度高著称。当前自动驾驶技术总是关注到矢量地图的构建,往往忽略了车道级驾驶规则的制作。对应图商而言,车道级的领航不仅需要有正确的车道级矢量表达,还要明确每条路的驾驶规则,保证引导的准确率。

作为专业领先的出行和位置服务提供商,高德地图以数据准确率高、鲜度高著称。当前自动驾驶技术总是关注到矢量地图的构建,往往忽略了车道级驾驶规则的制作。对应图商而言,车道级的领航不仅需要有正确的车道级矢量表达,还要明确每条路的驾驶规则,保证引导的准确率。

高德认为,遵守交通规则行驶是实现自动驾驶系统的必要条件,车道级交通规则通常包含在高精地图中,为自动驾驶系统提供了准确、可靠的规则指导。受限于高精地图的更新频率低、更新成本高的局限,当前自动驾驶系统朝向 “在线感知建图” 的方向发展。而目前的在线建图方法主要关注于车道线、道路拓扑等道路结构的感知,忽视了对于包含更多语义信息的交通规则的理解,这一局限使自动驾驶系统仍然需要依赖离线地图获取交通规则,限制了自动驾驶系统的“在线化”趋势。

因此,高德地图联合西安交大提出了 Driving by the Rules 的概念。提出了“将交通标志中的车道级交通规则整合至在线构建的高精地图中”这一新的具有挑战的任务,并提供一个 Benchmark 供研究人员展开相关研究。

image.png

交通标牌是道路上的“视觉语言”,在指示交通规则中发挥了关键作用。由人类驾驶过程的启发,从交通标志中理解交通规则需要完成两个任务,理解交通标志牌中指示的车道级交通规则内容,并明确规则作用于具体哪一条车道(关联到具体的车道中心线)。同时完成上述两个任务,才能为自动驾驶系统提供准确的车道级交通规则作为指导。现有的相关工作往往关注于二者其一,缺乏对此项任务的全面研究。

为了填补当前研究的空白,高德地图依靠对交通场景强大的采集能力,组织了MapDR数据集,包含了超过 10,000 个真实驾驶场景以及18,000 条结构化车道级驾驶规则,并且提出了Integrating traffic regulations into online HD maps任务以及评测指标。同时,高德地图提出了一个模块化方法VLE-MEE和一个端到端方法RuleVLM,为此项任务提供了有效的 Baseline。数据集以及方法细节请见下文:

image.png

论文链接:

https://arxiv.org/abs/2410.23780v2

项目主页:

https://xuanmaixue.github.io/Driving-by-the-Rules.github.io

MapDR数据集:

https://www.modelscope.cn/datasets/MIV-XJTU/MapDR

Integrating traffic regulations into online HD maps

本文所提出任务关注于将交通标志中的车道级交通规则整合至在线构建的高精地图中,需要完成两个子任务:

  • 从交通标志中抽取车道级交通规则
  • 建立交通规则与车道中心线之间的关联关系

如下图所示,本文将车道级交通规则定义为多个 key : value 构成的结构化表达,以便于整合至自动驾驶系统中服务于规控等下游步骤。现实场景中一个标志牌中可能包含多条车道级交通规则,同时每条交通规则也可能与多条车道中心线相关联,这也是解决此任务中的难点。

image.png

Dataset & Benchmark

MapDR Dataset

image.png

MapDR 数据均高德地图的真实采集数据,关注于来自于北京、上海、广州三座城市的常见交通标志牌以及道路信息。数据集包含了超过 10,000 个行车场景,其中超过 18,000 条驾驶规则。

image.png

其中每个场景(一个 Clip)包含:

  • Raw Data
  • 30+ 帧连续前景图像
  • 关注交通标志的位姿(每个场景仅关注于一个标牌)
  • 以标牌为中心 100m * 100m 范围内的矢量化地图(包含矢量线型)
  • 相机内参以及每一帧对应的相机位姿
  • Annotation
  • 标牌中包含的若干条车道级交通规则以及对应的车道中心线
  • 每条交通规则对应的标牌内区域(以位姿表示)

数据表示如下图所示:

image.png

image.png


Evaluation Metric & Benchmark

image.png

总体任务可以视为一个二分图匹配任务,如上图所示。其中抽取车道级交通规则视作对于图中 Rule Node 的预测,Rule 和 Centerline 之间的关联关系可以视作图中 Edge 的预测。评测时两个子任务分别关注于 Rule Node 和 Edge 的 Precision 和 Recall,总体任务关注于最小子图(由一个Rule Node、一个 Centerline Node 和 一条 Edge 组成)的 Precision 和 Recall

示例如下(R.E. 指规则抽取,C.R.指关联关系推理):

image.png

image.png

image.png

image.png

最终方法的评价指标以 F1 Score 为标准

Approach

Modular Approach

image.png

模块化方法由三个级联模块构成:

  • Grouping:融合标牌图像信息和 OCR 信息完成标牌上元素的车道级区域分组
  • Understanding:依次融合单个分组的 OCR 和标牌图像信息,使用融合后的信息进行分类以预测交通规则中每个 key 对应的 value
  • Association:对矢量地图进行特征编码并且与交通规则特征进行信息融合,通过二分类完成判定每条车道中心线是否与交通规则关联

image.png

其中 MEE 模型专门用于对矢量地图进行特征编码,将每个矢量点进行 tokenize,使用 learnable query 配合 Intra & Inter Instance Attention 进行矢量特征的聚合,融合后每个 query 对应一条矢量的特征信息。通过 CrossAttention 进行矢量特征和交通规则特征的融合,使用融合后的 feature token 进行分类以判定中心线与规则的关联关系。

End-to-End Approach

image.png

端到端方法在多模态大模型基础上进行了探索,以 Qwen-VL-Chat 7B 作为基础模型,如图所示分别以不同方式进行了LoRA SFT,令模型生成结构化文本形式的交通规则:

  • TextPrompt:输入完整前景图像 + 标牌图像,将矢量点坐标以文本形式进行输入。
  • VisualPrompt:输入包含矢量投影的完整前景图像 + 标牌图像
  • RuleVLM(best):输入完整前景图像 + 标牌图像,使用 MEE 对矢量进行特征抽取并且对齐至 LLM

Experiment

image.png

在 MapDR 数据集上进行的实验结果如上表所示,启发式方法(OCR 判定 + 最近车道线匹配)难以理解复杂的交通标志牌内容,同时也无法完成复杂场景下的车道-规则关联。VLE-MEE和RuleVLM分别为模块化方法和端到端方法提供了有效的 Baseline。

Conclusion

综上所述,本文的贡献如下:

1、首次提出了 Integrating traffic regulations into online HD maps 任务,以及用于基准测试的 MapDR 数据集和评测指标。

2、MapDR 包含 10,000+ clip,涵盖了不同的交通状况,并包括超过 18,000 条人工标注的车道级交通规则。所有数据都是真实采集,并且经过了细致的校验,助力于相关任务的研究。

3、提出了模块化(VLE-MEE)和端到端(RuleVLM)两种建模方法,为目标任务并和未来的研究提供有效的 Baseline 方法。

点击链接,即可跳转数据集链接~

MapDR

目录
相关文章
|
10月前
|
人工智能 JSON 小程序
【一步步开发AI运动APP】七、自定义姿态动作识别检测——之规则配置检测
本文介绍了如何通过【一步步开发AI运动APP】系列博文,利用自定义姿态识别检测技术开发高性能的AI运动应用。核心内容包括:1) 自定义姿态识别检测,满足人像入镜、动作开始/停止等需求;2) Pose-Calc引擎详解,支持角度匹配、逻辑运算等多种人体分析规则;3) 姿态检测规则编写与执行方法;4) 完整示例展示左右手平举姿态检测。通过这些技术,开发者可轻松实现定制化运动分析功能。
|
5月前
|
人工智能 算法 数据库
给AI装上一个'超级大脑':信息检索如何改变RAG系统的游戏规则
从传统检索方法到现代向量检索,通过一个购物助手的故事,直观展示了不同检索技术的原理与应用。学会这些技巧,让你的AI不再是「记忆只有金鱼长度」的大模型!
283 24
|
10月前
|
人工智能 自然语言处理 Rust
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准,包含1632个真实GitHub问题样本,通过严格筛选与人工验证确保数据质量。
981 0
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
|
6月前
|
数据采集 人工智能 定位技术
分享一个开源的MCP工具使用的AI Agent 支持常用的AI搜索/地图/金融/浏览器等工具
介绍一个开源可用的 MCP Tool Use 通用工具使用的 AI Agent (GitHub: https://github.com/AI-Agent-Hub/mcp-marketplace ,Web App https://agent.deepnlp.org/agent/mcp_tool_use,支持大模型从Open MCP Marketplace (http://deepnlp.org/store/ai-agent/mcp-server) 的1w+ 的 MCP Server的描述和 Tool Schema 里面,根据用户问题 query 和 工具 Tool描述的 相关性,选择出来可以满足
|
10月前
|
人工智能 测试技术 API
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。
736 30
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
|
7月前
|
人工智能 JSON 小程序
【AI编程】AI+高德MCP不到10分钟搞定上海三日游
本文介绍了小白如何通过AI编程工具(如Trae)快速开发应用并实现技术变现。内容涵盖AI编程用途、工具准备、高德地图开发者权限获取、AI工具配置及实战生成旅游攻略与打印页面,帮助零基础用户轻松入门AI编程。
367 0
|
9月前
|
传感器 人工智能 自动驾驶
生成式AI应用于自动驾驶:前沿与机遇
近期发表的一篇综述性论文总结了生成式AI在自动驾驶领域的应用进展,并探讨了自动驾驶与机器人、无人机等其它智能系统在生成式AI技术上的交叉融合趋势
407 10
|
10月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
740 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
人工智能 测试技术
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
著名数学家陶哲轩联合60多位数学家推出FrontierMath基准测试,评估AI在高级数学推理方面的能力。该测试涵盖数论、实分析等多领域,采用新问题与自动化验证,结果显示最先进AI通过率仅2%。尽管存在争议,这一基准为AI数学能力发展提供了明确目标和评估工具,推动AI逐步接近人类数学家水平。
468 37
|
12月前
|
人工智能 自然语言处理 JavaScript
Aider:27.6K Star!这个终端AI编程神器能用语音改代码,自动生成Git记录并提交,接入DeepSeek斩获编程基准最高分
Aider 是一款基于命令行的开源 AI 编程助手,支持多种编程语言和主流 LLM,可自动完成代码修改、Git 提交及语音交互。
1958 1

热门文章

最新文章