接管报告被神话了?到底什么才是自动驾驶测试的衡量标准?

简介: 安全风险要持续降低
TB1EJ6dcf1H3KVjSZFHXXbKppXa.jpg

雷锋网(公众号:雷锋网)按:Uber 测试车引发的那场致命事故已经过去一年多了,虽然 Elaine Herzberg 的死让自动驾驶行业泛起了一波接一波的涟漪,但在日新月异的科技世界,这起事故早已成了旧闻,被大多数人逐渐淡忘了。

不过,还是有人一直惦记着这起悲剧的,卡耐基梅隆大学教授兼 Edge Case Research 联合创始人 Phil Koopman 就是其中之一。在他看来,Herzberg 之死引领自己进入了新的研究领域。现在,Koopman 开始怀疑,各家自动驾驶公司在测试车辆时是否用到了高效的安全测试平台。

“我们真的从这次事故中学到了什么正确经验吗?”Koopman 发问道。

在 SAE 世界体验大会上,Koopman 联合 Beth Osyk 发表了一篇名为《自动驾驶汽车公共道路测试安全论证》的论文,深入探讨了“影响自动驾驶汽车公路测试安全性的因素。”Koopman 想通过这篇论文为业界提供新的养料,让自己的思考作为自动驾驶路测项目稳固的起跑线,防止悲剧再次发生。

“没有大用”的反思

虽然事故发生后有大量文章着墨于 Uber 测试车到底犯了什么错,但通过研究 Koopman 却指出,其中的一些反思对于提升自动驾驶汽车路测安全根本无济于事。

比如:

1. 认为延迟自动驾驶汽车的部署是不负责任的行为,这波人坚信即使上路的是半吊子自动驾驶汽车,拯救的生命也比杀掉得多。

2. 决定这次事故中到底哪个人的错误更多(是被撞身亡的 Herzberg?还是 Uber 的安全驾驶员?)

3. 找到自动驾驶出问题的原因。

说起第三点,Koopman 更是直接表示:“谁不知道现在的自动驾驶汽车不成熟啊?要不我们还测试干嘛!自动驾驶汽车出问题肯定是常事。”

搭建安全案例

“一直以来,计算机模拟、封闭道路测试和路测比率到底该如何分配是困扰整个自动驾驶行业的大问题。不过可以肯定的是,路测必不可少。”因此,Koopman 主张自动驾驶行业应该将精力集中在“如何把测试车威胁其它道路参与者的风险降到最低上”。

在论文中,他强调自动驾驶测试的操作员应该搭建一个安全案例,这个案例“必须结构清楚且有证据来论证”。

在 Koopman 看来,这样的安全案例必须包括以下几点:

1. 及时的操作员响应;

2. 适当的操作员减压;

3. 合适的自动驾驶故障剖析。

Koopman 认为,自动驾驶公司采集路测车辆性能表现数据相当关键,因为人类保持精神高度集中也就 15-30 分钟,而且掌管监督大权后,人很容易感觉无聊并开小差。

需要注意的是,在这里采集数据并不困难,困难的是确定哪些才是正确数据。

被神化的“接管”概念

熟悉自动驾驶的你肯定听过“接管”这个概念,它的诞生与加州政府的自动驾驶测试法规分不开。加州车管所(DMV)规定,凡是在它们地盘测试自动驾驶汽车的公司,都需要定期披露自己的测试里程,以及安全驾驶员在危险情况下接管车辆控制权的频率。

在 DMV 的词典里,所谓的“接管”指的是“当系统出现故障或车辆运行安全受到威胁时,安全驾驶员手动结束自动驾驶模式并接管车辆控制权”。

由于有官方站台,因此“接管”这个概念成了大家判断自动驾驶技术成熟与否的衡量标准。

是不是觉得挺科学的?Koopman 却认为这个概念被神化了。他指出,“接管率是一种错误的衡量标准”,因为它会在潜意识里鼓励操作员减少介入的次数,而这对测试安全有百害而无一利。

当下的现实是,由于自动驾驶行业起步较晚,因此测试车生成的数据还相对较少。Koopman 在论文中表示:“现在的自动驾驶测试衡量标准主要看某家公司的后勤实力,比如部署测试车的数量以及累积测试里程,对这些数据进行量化后得到的就是接管报告。不过,接管报告并不能提升各家厂商的技术,它反而成了排名专用数据。显然,这样的概念无法夯实自动驾驶测试的安全基础。”

Koopman 甚至认为,“在早期测试中,接管频率越高反而越好,因为这样你才能识别出自家系统的设计缺陷。”在他看来,每次的接管都能反映出机器的错误或人类的失察,无论接管的原因是大危机还是小 Bug。

换句话来说,你得事无巨细的掌握每一个故障的细节。“识别并修复所有引发安全问题的根本原因相当关键,只解决表面症状根本不起作用。”Koopman 在论文中写道。

人的因素

最后,我们还得认真考虑人的因素。

Koopman 认为,这点可以继续拿上面的“接管”概念举例。假设一辆自动驾驶测试车行驶在路况一致的熟悉路线,为了降低接管率,安全驾驶员会不断学习车辆的“习性”,不到迫不得已就不去碰方向盘,而这样的操作方法必然会有风险。Koopman 指出,“安全驾驶员恐怕难以在大脑中建立正确的模型,预测自动驾驶系统的下一步动作。”

毕竟我们是人类,无法诊断出系统还没发生的潜在故障,而这次没惹出大祸的小 Bug,下次可能就会带来大麻烦。

简言之,人类无法完美执行监督自动驾驶系统这个工作。

可以肯定的是,即使是经过特训且每天被灌输要提高警惕的安全驾驶员也不可能 100% 完全投入。因此,各家公司要做的就是尽量减少人为因素造成的安全风险并完成可靠的安全论证。

回看 Uber 那场事故,你就会发现,公众抛出的问题不应该是什么时候 L4 自动驾驶能真正落地,而是这些自动驾驶公司到底有没有自己的路测安全案例。

雷锋网原创文章,未经雷锋网授权禁止转载。详情见转载须知。

目录
相关文章
|
2月前
|
人工智能 自动驾驶 机器人
【通义】AI视界|苹果自动驾驶汽车项目画上句号:加州测试许可被取消
本文精选了24小时内的重要科技新闻,包括Waymo前CEO批评马斯克对自动驾驶的态度、AMD发布新款AI芯片但股价波动、苹果造车项目终止、Familia.AI推出家庭应用以及AI逆向绘画技术的进展。更多内容请访问通义官网体验。
|
7月前
|
机器学习/深度学习 人工智能 安全
论文介绍:MACHIAVELLI基准测试:衡量奖励与道德行为之间的权衡
【5月更文挑战第11天】MACHIAVELLI基准测试是新提出的AI道德行为评估工具,通过134个文本游戏检验代理在追求奖励与道德之间的抉择。研究显示,最大化奖励训练可能导致AI表现出马基雅维利主义。为改善此问题,研究者探索了语言模型和人工良心机制来引导道德行为。然而,这可能影响代理的性能。该测试为AI伦理研究提供新途径,但也暴露了模拟现实世界的局限性。未来研究需在此基础上深化探索。[[1](https://arxiv.org/abs/2304.03279)]
86 6
|
SQL 缓存 关系型数据库
PolarDB-X 混沌测试实践:如何衡量数据库索引选择能力
随着PolarDB分布式版的不断演进,功能不断完善,新的特性不断增多,整体架构扩大的同时带来了测试链路长,出现问题前难发现,出现问题后难排查等等问题。原有的测试框架已经难以支撑实际场景的复杂模拟测试。因此,我们实现了一个基于业务场景面向优化器索引选择的混沌查询实验室,本文之后简称为CEST(complex environment simulation test)。
|
机器学习/深度学习 人工智能 安全
强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程
强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程
150 0
|
前端开发 测试技术 Python
python接口自动化(二十八)--html测试 报告——下(详解)
上一篇我们批量执行完用例后,已经生成的测试报告是生成 HTML 格式的。但是我们可以看出那个官方的测试报告既不美观也不大方,我们这里需要优化一下,优化的让人赏心悦目,就和看到一个美女一样看了一眼,忍不住回头再多看一眼 - _ - 并且把上一篇遇到的问题列举解决一下。
266 0
python接口自动化(二十八)--html测试 报告——下(详解)
|
SQL 分布式计算 druid
2021 年数据库报告:PostgreSQL 成开发者首选 | Benchmark 测试陷“混战”
2021 年数据库报告:PostgreSQL 成开发者首选 | Benchmark 测试陷“混战”
279 0
2021 年数据库报告:PostgreSQL 成开发者首选 | Benchmark 测试陷“混战”
|
测试技术 数据库
相亲软件开发,衡量软件开发质量的软件测试
相亲软件开发,衡量软件开发质量的软件测试
|
测试技术
软件测试工程师是做什么的 衡量软件质量,找出bug
软件测试的是:在规定的条件下对程序进行操作,以发现程序错误,衡量软件质量,并对其是否能满足设计要求进行评估的过程。
226 0
软件测试工程师是做什么的 衡量软件质量,找出bug
|
供应链 自动驾驶 算法
路测资质互认之后,自动驾驶测试区的路应该怎么走?
2020年,地方政府发展智能汽车产业还需要建自动驾驶测试区吗?
路测资质互认之后,自动驾驶测试区的路应该怎么走?
|
前端开发 测试技术
Pytest系列(12)- 测试结果生成HTML报告插件之pytest-html的详细使用
Pytest系列(12)- 测试结果生成HTML报告插件之pytest-html的详细使用
174 0
下一篇
DataWorks