一个高度自动化汽车的安全验证架构(1)

凶凶的大熊
三连发,敬请期待

一个高度自动化汽车的安全验证架构(1)

*本文翻译自Juan R.Pimental所著Safety of the Intended Functionality (SOTIF) Book 3 - Automated Vehicle Safety Series,中文版权归轩辕实验室所有
验证高度自动化车辆(HAVs)的安全性是一项重大的自动驾驶挑战。HAV安全验证策略仅仅基于原始的道路测试是不可行的。虽然模拟和使用边缘案例场景可以帮助降低验证成本,但如果不采用验证数据收集和安全分析的更细致的观点,仅使用这些技术不太可能为全面部署提供足够的保证。验证方法可以通过使用高保真度测试来显式验证低保真度测试的假设和简化,而不仅仅是获得低保真度测试结果的抽样复制,从而得到改进。分离多个测试目标可以通过分离需求的验证过程、环境模型的充分性、自治正确性、自治健壮性和测试场景的可靠性来提供帮助。对于具有隐式设计和需求的自主方法,如机器学习训练数据集,在主要结构中建立观察点可以帮助确保车辆在正确的原因下通过正确的测试。这些原则可以提高证明HAV安全性的效率和效率,作为包括驱动测试和生命周期监控以及阶段性验证计划(用于明确管理验证不确定性的)的一部分。
1 简介

尽管面临着跨学科的重大挑战,高自动化车辆(HAVs)的大规模部署似乎迫在眉睫。目前,还没有就验证这些车辆的非传统软件方面的安全性的技术策略达成普遍共识。考虑到NHTSA(国家公路交通安全管理局)对自动车辆技术安全的非监管方法,似乎只要开发团队认为他们的车辆准备好了,就会部署许多HAV,然后他们就会看到公共道路上的情况如何。即使试点部署的事故发生率低到可以接受的程度,但仍存在一个问题:有限规模的部署能否准确预测更大规模部署的安全性,以及随之而来的软件更新。
我们经常看到这样的声明:累积道路里程将验证HAV系统的安全性,特别是在试图描述开发工作进展的情况下。即使提到了其他形式的验证,对这个主题更全面的讨论仍然倾向于着重强调测试的作用。然而,即使使用封闭的车道和高可靠性的模拟,在部署之前进行的车辆水平测试的数量也是有限制的。
本文的范围是验证需要超越ISO 26262规范,并强调SAE 4级自治。第4级HAV只需要在指定的运行设计域(ODD)内进行自主操作,这就避免了系统在特定的条件下运行。
一种超越里程积累的HAV自主安全验证方法是非常可取的。最好,它还应该基于一个伪造的方法,包括具体的,可测试的安全目标和要求。本文提出了一些方法来提高HAV有效性,从而得到一个更合理的安全论证。分层的验证步骤可以帮助支持这样一个结论,即HAV系统是可接受的安全的,即使在没有完全规定的自动功能的传统功能需求集的情况下也是如此。
方法
我们相信,HAV的验证工作可以通过应用以下理念得到显著加强:
1.通过分别管理需求验证和设计验证,将测试的不同目标分开。
2.在低保真度模拟和测试中,使用高保真度模拟和测试来减少由于假设和差异而产生的剩余风险。
3.在HAV体系结构中提供可观察性,来确保测试以合理的原因通过。
4.在安全参数中明确不确定性的管理。
尽管这些想法是基于某些领域的现有实践,但是HAV技术的新颖性和HAV商业化的速度促使我们对如何应用这些想法来管理和降低HAV部署的风险进行清晰、统一的描述。
术语
我们的术语通常与ISO 26262兼容。下列用语特别相关:
风险:对可能导致损失的事故的概率和后果的综合衡量。
安全:没有造成损失的意外事故的不合理风险。4级HAV损失事件包括可能由于HAV设计缺陷或操作故障而导致的死亡。对于最初的HAV部署,公共政策会对可能构成合理风险的评估产生影响。
安全验证:证明系统级安全需求(安全目标)是确保一个可接受的安全水平的关键,并且已经实现。
安全论证(安全案例):支持安全验证的书面论证和证据。
机器学习(ML):在系统设计中使用归纳学习的一种方法,其中运行时系统使用学习过程的结果来执行算法操作(例如,运行具有预先计算的权值的深度卷积神经网络)。本文假设在验证之前权重是固定的。验证在运行时修改权重或以其他方式学习的动态自适应ML系统超出了本文的范围。
2 汽车的测试和仿真

在描述提出的验证策略之前,首先回顾当前HAV安全评估方法中测试和仿真的典型应用。
在ISO 26262之外
处理许多潜在的设计和实现缺陷可以,而且应该通过使用已建立的安全标准,如ISO 26262来完成。对于那些即使是一个完美工作的系统也可能不能提供完全安全的功能的领域,可以使用[9]来覆盖预期功能的安全性(SOTIF)的新标准。SOTIF标准可能提供一种方法来处理具有统计有效功能的函数,例如基于雷达的障碍检测函数。如[10]中所讨论的,还必须解决针对基于MLB的系统的其他问题。总的来说,在功能性安全方法中,根据V模型进行验证的典型问题是ML系统功能对人是不透明的。这使得可跟踪性问题执行可跟踪性分析的人员不能分析设计工件。
我们并没有根据V模型尝试设计到测试的可跟踪性方法,相反,我们探索了以测试为中心的方法在ISO 26262和SOTIF标准的实际应用范围之外可以做什么,这些标准并不是为ML验证设计的。
系统测试/调试/补丁作为基线策略
在自动驾驶汽车原型设计中,道路测试一直是重点。机器人领域严重依赖于真实世界的测试,以便了解机器人需要什么特性。然而,随着汽车从原型过渡到生产,验证方法必须变得更加全面。
将HAV安全论证完全建立在累积道路里程的基础上是验证安全的一种不切实际的方法。这种方法需要大量的里程才能得出可信的统计数据。除此之外,累积的道路测试证据的有效性也会随着软件的变化而受到潜在的破坏,无论是对训练数据的更新,新行为的添加,还是仅仅是一个安全补丁。
作为一个实际问题,如果在数十亿英里的道路测试和模拟后,数据显示HAV没有达到预期的安全目标,会发生什么?开发团队(或者他们应该)在发现任何观察到的缺陷后,进行另外的十几亿英里的道路测试吗?或者团队只是修补那些容易复制的bug,测试几英里,然后宣布胜利,然后继续部署?来自市场竞争的巨大压力的现实将如何影响团队对结果的解释和验证方法?
基本上,所有其他行业的软件系统的功能安全验证都不是基于试用部署,而是基于测试和其他可以由独立评估人员进行评估的验证方法。如果HAV行业希望遵循这些先例,它将需要一种方法来建立一个系统的、可辩护的安全论证,可以由独立的一方进行评估,尽管存在许多独特的验证挑战。
车辆水平测试和仿真的局限性
实际上,不可能执行足够的普通系统级测试来确保生命关键系统的安全性。一般来说,这是因为汽车车队暴露在空气中的时间太长,对生命安全的要求又太严格,所以检测无法积累足够的暴露时间来证明安全性。
对于高速公路,测试不可行性问题的一个表现是,异常情况必须安全处理,但在正常驾驶中相对少见。道路测试是观察偶然发生的罕见事件的一种无效方法。通过将它们设置为明确设计的测试场景(例如,封闭过程测试)可以加速对已知罕见事件的暴露。通过将测试用例的分布向更复杂的已知场景倾斜,可以进一步加速评估。例如,Waymo除了道路测试程序外,还使用封闭课程测试和广泛的模拟。
由于资源的限制,即使覆盖已知的场景也可能是具有挑战性的,如果它只涉及到使用物理车辆。基于软件的车辆仿真可以通过在多台计算机上并行运行仿真来扩大测试场景的覆盖范围,但不可避免地会涉及保真度与运行时成本之间的权衡,以及关于软件模型的完整性和准确性的问题。模拟不包括模拟未预料到的情况(例如,未知的安全相关的罕见事件)的可能性。
影子模式驾驶和SAE 3级自动驾驶部署可以通过监视部署的车队来增加对真实驾驶场景的暴露,其中人类驾驶员负责安全。然而,在三级系统中,人类驾驶员是否能够有效地监督安全存在争议。
道路测试、封闭过程测试、仿真和对人工系统的监控在演示HAV安全性方面都具有重要的地位。然而,为了同时有效和高效,它们应该以一种互补的方式组织起来。(我们认识到许多HAV开发人员都有复杂但专用的验证方法。在本文中,我们假设一个朴素的里程计算基线方法来说明这些问题。)
仿真现实本身是低效的
当被问及为什么用真实车辆进行道路测试比模拟测试更好时,一个典型的回答是它更真实。最终,在现实世界中测试一辆真实的汽车是很重要的。但是现实主义本身是对测试资源的无效的,并且最终是不可避免的。
仿真有效性的关键是具有适当的真实性(仿真可靠性)来完成工作。众所周知,所有的模型都是错误的,但有些模型是有用的。由于模拟涉及系统模型、环境模型和系统使用模型,因此没有模拟是完美的。
仿真的可靠性水平是对系统行为进行简化和假设的程度。低保真度仿真通常通过使用简化的系统表示(有时称为降阶模型)来快速执行,因此在某种意义上是错误的。高可靠性仿真通常更复杂,执行起来也更昂贵,但是包含的简化和假设更少,因此错误更少。但是这两种模型都是有用的。
提高测试效率的关键是要认识到,并不是所有的现实主义对所有测试都有用。作为一个简单的例子,模拟路面摩擦系数通常与确定计算机视觉能力是否能看到路上的孩子无关。(摩擦系数可能与车辆是否能及时停车有关,但与特定的几何和环境场景是否能检测到儿童无关。)无论测试是在软件模拟中(通过对不同路面进行建模),还是在模拟测试轨道场景中(通过在停机坪上的沙子或冰),都是如此。
有效的仿真的关键是不仅要考虑被验证的系统,还要考虑系统和操作环境的各种可靠性模型所作的假设。因此,任何实际的验证都应该被看作是一系列不同抽象和可靠性层次的模型。从这个角度看,封闭过程测试是模拟的一种形式,因为即使涉及的障碍和车辆可能是真实的,场景也是模拟的。验证HAV安全性不仅需要确保HAV系统模型非常准确,还需要验证用于创建测试计划和测试模拟的环境和使用模型。