入口控制:多智能体强化学习在自动驾驶中的应用研究 精华
随着自动驾驶技术的快速发展,人们对于自主车辆的期待也在不断提高。然而,尽管现有的技术已经能够实现车辆在高速公路上的自动驾驶,以及无人驾驶出租车在主要城市开始运营,技术上所谓的“L5”全自动驾驶仍未完全实现。实现这一目标需要解决多个技术难题,其中之一便是提供能够在高速公路匝道入口安全、可靠运行的全自动控制功能。
现阶段的自动驾驶技术虽然取得了显著进展,但仍面临许多挑战。社会普遍认为自动驾驶汽车需要比人类驾驶更安全、更不易出错,实现这一目标并非易事。近期随着对自动驾驶技术的审查力度增加,一些大公司已经削减了开发资金并关闭了相关技术合作伙伴关系。此外,公众对于自动驾驶技术的信任度下降,呼吁加强监管的声音日益高涨。这些都表明当前的自动驾驶技术在实际应用中仍存在诸多不足,需要进一步优化和改进。
在这样的背景下,来自Flex 和密歇根大学的研究团队开启多智能体深度强化学习(MA DRL)在高速公路匝道入口控制中的应用。通过博弈论和多智能体方法,他们希望实现车辆在合并到主路交通流中的自主控制,最大限度地减少碰撞风险。特别是他们使用基于深度强化学习的控制器,在虚拟环境中通过自我对弈的方式,让合并车辆学习如何在匝道入口的渐变式合并过程中控制纵向位置,从而确保其安全性和稳健性。11 月 24 日,他们的论文《A Systematic Study of Multi-Agent Deep Reinforcement Learning for Safe and Robust Autonomous Highway Ramp Entry》发表于arXiv 学术交流平台。
研究团队由来自Flex的Larry Schester和密歇根大学迪尔伯恩分校的Luis E. Ortiz组成。Larry Schester在全球领先的技术制造服务公司Flex工作,拥有丰富的自动驾驶和智能系统领域的经验。而Luis E. Ortiz则是密歇根大学迪尔伯恩分校的教授,在多智能体系统和机器学习方面有着深厚的研究背景。两位研究人员的专业知识和实践经验为本研究提供了坚实的基础。
自动驾驶的挑战
一直以来,行业内对自动驾驶技术的质疑声不断增强,并且监管也在逐步加强。近年来多起涉及自动驾驶汽车的事故,引发了公众和监管机构对其安全性的担忧。这些事故不仅损害了公众对自动驾驶技术的信任,也促使政府加大了对自动驾驶技术的审查和监管力度。例如,一些重大公司在意识到自动驾驶技术面临的挑战后,撤回了资金支持,暂停了相关项目。此外由于自动驾驶汽车在事故发生时的责任界定问题尚未解决,一旦发生事故,制造商通常将责任归咎于驾驶员,进一步引发了对其安全性的质疑。
自动驾驶技术在实际应用中也暴露出许多不足之处。当前,大多数自动驾驶系统仍依赖于远程人类操作来处理复杂和紧急情况,显示出技术在完全自主驾驶方面的局限性。特别是在高速公路匝道入口等高风险场景下,自动驾驶系统需要应对多种动态交通状况,这对其感知、决策和控制能力提出了极高的要求。此外,现有的技术标准和测试方法尚未完全覆盖所有潜在的交通场景和突发情况,导致自动驾驶汽车在面对复杂路况时表现出不稳定性。
改进方向包括进一步优化自动驾驶系统的算法和控制器,以提高其在各种交通环境中的表现。同时,加强对自动驾驶技术的测试和验证,特别是在真实世界中的测试,以确保其在不同场景下的安全性和可靠性。此外,需要完善相关的法律法规,明确自动驾驶汽车在事故中的责任界定,为其大规模应用创造有利的法律环境。
图1:三车高速公路合并:目标线为绿色。Ego合并车辆(蓝色)和两辆交通车辆(红色)。
图2:全场景高速公路合并:两辆车在合并车道上,两辆或更多辆车在行车道上。
入口控制的研究方法
在探索自动驾驶技术的多智能体深度强化学习(MA DRL)应用时,研究团队采用了一些前沿的方法和技术。
博弈论是研究战略性互动的数学方法,它在多智能体系统中尤为重要。博弈论帮助分析智能体(在本研究中为自动驾驶车辆)之间的竞争和合作关系,以便找到最佳策略。在高速公路匝道入口场景中,每辆车(智能体)都需要决定如何调整速度和位置,以便在不发生碰撞的情况下顺利并入主路交通流。这种情境下,博弈论提供了理论基础,帮助智能体预估其他车辆的动作,并做出相应的决策。
多智能体系统涉及多个独立智能体,这些智能体彼此之间可以进行通信、协调和竞争。在自动驾驶的应用中,多智能体系统可以模拟复杂的交通环境,每个智能体都能根据实时信息和预测调整其行为,以实现整体最优的交通流。通过这种方法,可以更好地理解和优化车辆在高速公路匝道入口的合并行为。
深度强化学习(DRL)结合了深度学习和强化学习的优势,使得智能体能够通过与环境的交互学习最优策略。在自动驾驶中,DRL被广泛应用于解决各种复杂的控制和决策问题。DRL的核心思想是通过奖励和惩罚机制,引导智能体学习一系列动作,以最大化累计奖励。
在高速公路匝道入口控制中,DRL的优势在于其能够处理高维度的输入数据,并且能在动态环境中进行自适应学习。通过使用深度神经网络,DRL能够从大量的传感器数据中提取关键特征,并学习到复杂的非线性映射关系,从而实现对车辆行为的精确控制。这使得自动驾驶系统能够在复杂的交通环境中进行实时决策,提高行驶的安全性和稳定性。
本研究中使用了深度确定性策略梯度(DDPG)算法,这是DRL的一种,该算法特别适用于连续动作空间。DDPG通过actor-critic架构,分别优化策略网络(actor)和价值网络(critic),从而实现对智能体行为的高效学习与优化。
为了验证多智能体深度强化学习在高速公路匝道入口控制中的有效性,研究团队在虚拟环境中进行了自我对弈训练及数据模拟。虚拟环境提供了一个安全且可控的测试平台,智能体可以在其中不断尝试和调整策略,以适应不同的交通状况。
在自我对弈训练中,智能体通过模拟与其他车辆(智能体)的互动,不断学习和改进其控制策略。每个智能体在训练过程中通过自我对弈(self-play),模拟真实交通场景,积累经验数据。在每个训练步骤中,智能体根据当前状态采取行动,并根据环境反馈更新其策略。这种训练方式不仅提高了智能体的学习效率,还增强了其对复杂交通场景的适应能力。
通过自我对弈训练,研究团队能够生成大量的模拟数据,这些数据用于训练深度强化学习模型。模拟数据的使用不仅减少了真实车辆测试的风险和成本,还可以在短时间内测试和优化各种可能的交通情景和策略。虚拟环境中的自我对弈训练为实现安全、可靠的高速公路匝道入口控制提供了坚实的基础。
三车辆仿真实验
在本研究中,为了验证多智能体深度强化学习(MA DRL)在高速公路匝道入口控制中的有效性,研究团队设计了一系列三车辆仿真实验。这些实验旨在通过模拟不同的交通场景,评估自动驾驶车辆的控制策略,并确保其在复杂环境中能够安全、稳健地运行。
图3:三个车辆参与者-评论家神经网络图。
实验设计
三车辆仿真实验模型包括合并车道上的一辆“自合并车辆”(ego vehicle)和交通车道上的两辆“交通车辆”(traffic vehicles)。此模型旨在模拟高速公路匝道入口的典型场景,其中自合并车辆必须在应对前后交通车辆的同时,避免与其他车辆发生碰撞。
实验设置的主要参数包括匝道长度、车辆加速度范围以及初始位置和速度等。在仿真中,匝道长度设置为256米,这是美国交通运输部推荐的高速公路匝道长度。所有车辆的加速度范围为-5至4米每秒平方(𝑚/𝑠²),这些参数能够真实模拟车辆在匝道入口的动态行为。
状态变量与奖励函数的详细介绍
在仿真实验中,状态变量用于描述自合并车辆和交通车辆的状态。这些状态变量包括闭合间隙、闭合速度等,它们能够准确反映车辆相对于其他车辆和目标位置的距离和速度。例如,自合并车辆的状态集合包括与后方交通车辆、前方交通车辆和目标位置相关的闭合间隙和闭合速度。
图4:顶部:四个单独勘探值的累积奖励平均值。底部:最佳变量的累积奖励平均值和移动平均值:0.999995探索。
奖励函数在强化学习中起着关键作用,它指导智能体(自动驾驶车辆)采取合适的行动以最大化累计奖励。在本研究中,奖励函数对不同的行为给予不同的奖励或惩罚。例如,加速和减速动作会受到小的惩罚,成功合并则会得到较大的奖励,而发生碰撞则会受到更大的惩罚。具体来说,成功合并的奖励为10³,碰撞的惩罚在-10⁵到-10⁶之间,加速或减速的任何动作都根据其大小受到惩罚。这种设计的目的是为了让算法学到自动驾驶应比人类驾驶更安全,并尽量减少碰撞。
图5:三辆车场景的标准测试性能,数据按训练顺序排序。蓝色和橙色条表示每个测试实例的平均减速度和加速度。绿线是加速和减速发生之间的差异。红线是次轴(右),表示总碰撞。水平轴值表示以25𝐾的间隔进行的测试。
训练过程及控制器的性能表现
在三车辆仿真实验中,深度确定性策略梯度(DDPG)强化学习算法用于训练自合并车辆的神经网络控制器(NN)。DDPG是一种适用于连续动作空间的算法,通过actor-critic架构,分别优化策略网络(actor)和价值网络(critic)。训练过程中,自合并车辆在每一剧集的每一步都更新其NN控制器,根据当前状态采取行动,并根据环境反馈不断改进其策略。
仿真训练总共进行250万剧集,但最佳表现大约在35万剧集。训练过程中,智能体的表现会有所波动,但总体上会逐渐提高并达到峰值。在训练初期,智能体会尝试各种不同的策略,以找到最优解。当训练达到一定阶段时,智能体的表现趋于稳定,累积奖励在一个较小的波动范围内稳定下来。
控制器的性能通过标准测试进行评估。在测试中,智能体需要在不同的初始条件和交通情境下进行操作,以验证其在真实交通场景中的表现。标准测试结果显示,使用DRL训练的控制器能够有效避免碰撞,并在复杂交通环境中表现出较高的稳健性。
标准测试结果分析:碰撞避免与奖励机制
通过对标准测试结果的分析,可以看出使用深度强化学习训练的控制器在不同交通情境下的表现。智能体在碰撞避免方面表现出色,能够在大多数情况下成功合并进入交通流。
在标准测试中,智能体的成功率与初始条件和交通情境密切相关。例如,在间隙较大的情况下,自合并车辆更容易找到合适的合并时机,从而避免碰撞。而在间隙较小时,智能体需要更精细的控制策略,以确保安全合并。实验结果还表明,奖励函数的设计在智能体的学习过程中起到重要作用。通过给予成功合并较大的奖励和碰撞较大的惩罚,智能体能够学到有效的控制策略,最大限度地减少碰撞风险。
在实际应用中,这种基于深度强化学习的控制策略有助于提高自动驾驶系统在复杂交通环境中的安全性和可靠性。未来,通过进一步优化模型和训练方法,可以进一步提高控制器的性能,并推广到更广泛的自动驾驶应用中。
三车辆仿真实验验证了多智能体深度强化学习在高速公路匝道入口控制中的有效性。通过精确的状态变量描述和合理的奖励函数设计,智能体能够学到有效的控制策略,并在复杂交通环境中表现出较高的安全性和稳健性。这为实现全自动驾驶提供了重要的理论支持和实践基础。
全场景仿真实验
在探索多智能体深度强化学习(MA DRL)在高速公路匝道入口控制中的应用时,研究团队设计并实施了全场景仿真实验。这些实验旨在验证在更复杂交通环境中,多车辆模型的表现,以及所训练控制器的性能和可靠性。
实验设计
全场景仿真实验模型比三车辆仿真更加复杂,包含了两个合并车道的车辆和多个交通车道的车辆。这种设计更加接近实际高速公路的交通状况,旨在模拟真实环境中的多车互动与合并行为。研究团队通过系统性地扩展道路场景,加入额外的交通和自合并车辆,构建了这一多智能体场景。
实验中的自合并车辆必须同时处理前后交通车辆的动态变化,并避免碰撞。设置的主要参数包括车道数量、车辆间距、加速度范围和初始速度等。实验中,所有车辆的加速度范围仍然设置为-5至4米每秒平方(𝑚/𝑠²),以确保仿真结果的可比性。
控制器的训练与性能表现
与三车辆仿真类似,全场景仿真实验也采用了深度确定性策略梯度(DDPG)强化学习算法训练控制器。在这个设置中,两辆合并车道的自合并车辆在每一剧集的每一步都更新其神经网络控制器(NN),而所有具有反应策略的交通车辆也在每一步更新其控制器。训练过程中,自合并车辆和交通车辆的NN使用不同的权重参数,以适应各自的控制需求。
图6:移动平均和累积训练图。平均奖励。在7𝑀事件附近,合并和交通车辆的加速动作都会持续选择-5𝑚/𝑠的动作极限值2加速度,不考虑状态值。
图6显示了前后合并车辆和交通车辆的累积奖励和移动平均训练图。在训练过程中,累积奖励值随着训练的进行逐渐提高,并在达到峰值后趋于稳定。实验结果表明,最佳性能出现在训练到4.2至4.5百万剧集之间,训练总计达到10百万剧集。在达到最佳性能后,控制器的表现趋于稳定,累积奖励在一个较小的波动范围内保持稳定。
值得注意的是,在训练的早期阶段,智能体的表现会有所波动,但总体上会逐渐提高并达到峰值。随着训练的进行,累积奖励值趋于稳定,表明智能体已经学会了在复杂交通环境中采取合适的控制策略。
标准测试结果分析
为了评估所训练控制器在实际交通情境中的表现,研究团队进行了标准测试。在测试中,使用了不同的间隙设置,包括5米、15米和25米,以模拟各种不同的初始条件和交通状况。
测试结果表明,所训练的控制器在不同间隙设置下的表现各异。总体来看,间隙较大的情况下(例如15米和25米),自合并车辆能够更容易地找到合适的合并时机,从而避免碰撞。在这些情况下,控制器表现出接近最佳的性能。然而,在间隙较小的情况下(例如5米),自合并车辆需要更加精确的控制策略才能成功合并,碰撞的风险也相对较高。
图7:全场景碰撞测试表。恒定和随机策略标准测试表,具有5𝑚、15 𝑚和25 𝑚的多个间隙设置。
图7显示了全场景仿真中的随机和恒定策略测试结果。在每个标准测试剧集中,交通车道的车辆使用相同的策略(恒定、反应或随机),以评估控制器在不同策略下的性能。测试结果表明,即使在复杂的全场景仿真中,所训练的控制器仍能够有效避免碰撞,并表现出较高的鲁棒性。
在总结这些结果时,可以看出全场景仿真实验成功验证了多智能体深度强化学习在高速公路匝道入口控制中的应用潜力。通过在更复杂的交通环境中进行测试,研究团队证明了其所设计的控制器能够在实际交通情境中保持良好的性能和稳健性。这为进一步推广和应用多智能体深度强化学习技术提供了重要的理论依据和实践经验。未来,通过进一步优化模型和训练方法,可以进一步提高控制器的性能,并推广到更广泛的自动驾驶应用中。
结果与讨论
在分析多智能体深度强化学习(MA DRL)在高速公路匝道入口控制中的应用效果时,研究团队进行了三车辆和全场景两种仿真实验。通过对这两种实验结果的比较和分析,可以深入理解不同交通情境下的控制策略及其表现。
三车辆仿真实验模拟的是一个较为简单的场景,包括一辆自合并车辆和两辆交通车辆。在这种设置中,自合并车辆仅需应对前后两辆交通车辆,控制策略相对单一。实验结果显示,自合并车辆在多数情况下能够成功合并,避免与其他车辆发生碰撞。该实验验证了MA DRL在处理较简单交通场景时的有效性。
相比之下,全场景仿真实验包含了更多的交通车辆,情境更加复杂。两个合并车道的车辆和多个交通车道的车辆使得控制策略的复杂性显著增加。在这种设置中,自合并车辆不仅需要处理更多的交通车辆,还需要应对车道内的车辆动态变化。实验结果表明,即使在复杂的全场景仿真中,所训练的控制器仍然能够有效避免碰撞,并表现出较高的鲁棒性。
通过对比这两种实验可以发现,全场景仿真实验的控制策略更为复杂,但其结果更接近实际交通状况。研究团队通过系统性地增加交通和自合并车辆,验证了MA DRL在更复杂环境中的应用效果,从而证明了其在实际应用中的潜力。
研究结果表明,多智能体深度强化学习在高速公路匝道入口控制中具有显著的优势。通过训练,智能体能够学习到在不同交通情境下的最优控制策略,从而提高车辆合并的成功率和安全性。特别是在复杂的全场景仿真实验中,所训练的控制器展示了较高的鲁棒性和可靠性,这为未来自动驾驶技术的应用提供了有力支持。
此外研究还发现,奖励函数的设计在智能体的学习过程中起到了关键作用。通过合理的奖励和惩罚机制,可以引导智能体学习到有效的控制策略,从而最大限度地减少碰撞风险。这一发现为进一步优化自动驾驶系统的设计提供了重要参考。
尽管研究结果令人鼓舞,但现有模型仍存在一些局限性,需要进一步优化。首先,训练过程中智能体的表现会出现波动,可能是由于随机初始化和训练参数设置造成的。为了提高模型的稳定性,可以考虑使用更先进的优化算法和参数调整方法。
当前的仿真实验主要基于虚拟环境,虽然提供了安全、可控的测试平台,但与实际交通环境仍有差距。未来的研究应更多地关注真实世界中的测试和验证,以确保所设计的控制策略在不同交通情境下都能可靠运行。
研究还可以扩展到更多维度,例如考虑不同天气条件、道路状况和驾驶行为对控制策略的影响。此外,进一步探索多智能体系统之间的协同控制,以实现更高效的交通流和更安全的驾驶体验,也将是未来研究的重要方向。
总体而言,本研究通过深入分析三车辆和全场景仿真实验,验证了多智能体深度强化学习在高速公路匝道入口控制中的应用效果。研究结果不仅为提升自动驾驶技术的安全性和可靠性提供了重要支持,也为未来的优化方向和实际应用提供了宝贵的经验和启示。通过持续的研究和改进,相信多智能体深度强化学习将在自动驾驶领域发挥越来越重要的作用,为实现安全、高效的智能交通系统做出更大贡献。(END)
参考资料:https://arxiv.org/pdf/2411.14593
本文转载自 大噬元兽,作者: FlerkenS