自动驾驶云端协同

原创

mb63816ca2ee95f 2024-07-07 17:01:56 ©著作权

©著作权归作者所有：来自51CTO博客作者mb63816ca2ee95f的原创作品，请联系作者获取转载授权，否则将追究法律责任

自动驾驶云端协同AIGC张佳男、魏志伟、刘博勋、王夏义、余勇、张荣清https://arxiv.org/abs/2407.01956摘要：在动态自动驾驶环境中，人工智能生成内容（AIGC）技术可以利用模型的生成和预测能力来补充车辆的感知和决策，并具有增强运动规划、轨迹预测和交通模拟的潜力。本文提出了一种支持AIGC自动驾驶的云边缘终端协作架构。通过深入研究AIGC服务的独特特性，本文启动了构建相互支持的AIGC和网络系统的尝试，包括支持AIGC服务的通信、存储和计算资源分配方案，以及利用AIGC来协助系统设计和资源管理。I.介绍自动驾驶技术发展迅速，其目标是通过感知、决策和控制车辆来提高交通安全、效率和便利性。自动驾驶还包括通过交流驾驶意图和基于个人需求的车辆反应来与人类进行互动。技术跨越mul人工智能生成内容（AIGC）技术有潜力增强自动驾驶的能力。AIGC是指利用人工智能技术，根据用户的需求和目标，自动或协作生成各种类型的内容，如文本、图像、音频和视频等。AIGC技术的核心是利用深度神经网络模型来学习数据的潜在分布，并根据给定的条件或目标生成符合数据分布的新数据。这种功能使AIGC技术能够从学习到的数据分发推广到新的场景。可以使用语言基础模型[1]这项工作已提交给IEEE无线通讯杂志出版。版权可以不经通知地转让，之后本版本可能不再被访问。张佳男、刘博勋、王夏邑、余勇等人，现任中国北京大学电子学院先进光通信系统与网络国家重点实验室院士，北京100871。魏志伟就职于中国同济大学上海智能自主系统研究所，上海201210。张荣庆（通讯作者），中国同济大学软件工程学院，上海200092，中国同济大学上海智能自主系统研究所，上海201210。理解和生成自然语言，如对话和总结，以提高司机与车辆之间的沟通效率和质量。视觉基础模型[2]可用于检测和识别图像中的物体、场景和情绪，提高对周围环境的感知。多模式基础模型[3]可用于融合不同类型的数据，如文本、语音和图像，以提高驾驶员的娱乐体验和个性化需求。此外，AIGC还可应用于端到端自动驾驶。例如，DriveGPT4 [4]，一种用于自动驾驶的大型多模式语言模型，使用车辆收集的视频和历史车辆控制决策输出下一个控制决策，同时为其决策提供自然语言解释，以提高可解释性AIGC的个性化数据生成能力增强了车辆和驾驶员的副驾驶体验。首先，AIGC可以根据每个司机的偏好和需求来调整驾驶体验，比如调整速度、路线和氛围。其次，AIGC可以为驾驶员提供个性化的反馈和指导，如建议最佳的驾驶习惯，提醒潜在的危险，并提供紧急援助。第三，AIGC可以增强驾驶员与车辆之间的沟通和交互作用，如使用自然语言处理、语音识别和面部表情分析等。这些功能使自动驾驶对每个驾驶员更愉快、安全和高效。然而，自动驾驶任务的严格的延迟和可用性要求给应用AIGC带来了挑战。在有限的预算约束下，车辆本身几乎没有足够的通信、存储和计算资源来支持大型模型存储和推理，而存储在云上的模型需要云与车辆之间的通信，并且具有较高的通信延迟。为了解决这个挑战，本文为pro然而，自动驾驶任务的严格的延迟和可用性要求给应用AIGC带来了挑战。在有限的预算约束下，车辆本身几乎没有足够的通信、存储和计算资源来支持大型模型存储和推理，而存储在云上的模型需要云与车辆之间的通信，并且具有较高的通信延迟。为了解决这一挑战，本文提出了一种云边缘终端协作架构和操作方案，以支持不同的AIGC模型，并满足自动驾驶任务的服务质量要求。本文的主要贡献有三方面。首先，我们调查了AIGC在自动驾驶任务中的潜在应用。其次，我们提出了一个云边缘终端协作AIGC架构和服务工作流，以解决将AIGC应用于自动驾驶的资源和延迟挑战。第三，我们开始尝试开发通信、存储和计算资源分配机制，以支持云-边缘终端协作AIGC系统的运行，并利用AIGC来增强网络设计。

微光AIGC自动驾驶在本节中，我们首先调查受益于AIGC的生成和预测能力的自动驾驶任务。然后，我们讨论了将AIGC应用于自动驾驶的挑战，这需要在严格的延迟约束下依赖位置和个性化的内容。A. AIGC对自动驾驶的应用AIGC可应用于自动驾驶的几个方面，如图1所示。感知：感知是指获取、解释和使用感官信息，使自动驾驶汽车能够在复杂和动态的环境中安全有效地导航的过程。生成模型可以用来补充在感官感知中不存在的未知环境的特征。例如，生成模型可以根据障碍物附近的感知来估计车辆或行人出现在障碍物后面的可能性。这是可能的，因为生成模型可以只使用像素[2]的一小部分来恢复图片。生成模型还可以推断出感知范围之外的地形属性，从而提高感知能力和感知能力

例如，将图像转换为短的文本描述，然后将文本描述传输给其他车辆，可以减少协同感知中的带宽和延迟。运动预测和风险评估：运动预测旨在估计周围物体的轨迹，如车辆、行人和骑自行车者，基于他们当前和过去的位置、速度、方向和其他属性。风险评估的目的是预测碰撞和定位风险区域，给定自我-车辆和其他移动物体的预测运动。生成型人工智能模型有能力学习数据的潜在分布，包括车辆和行人在各种场景下的轨迹。此外，预测任务可以转换为语言建模任务[5]，可用于预测车辆和行人的行为。例如，考虑到之前的交通场景和一个问题，“当前面的黄灯亮起时，中间车道的最后一辆车会做什么？”该语言模型可以分析场景，并提供一个可能的答案：“最后一辆车将加速通过十字路口。”基于moti

建模任务[6]。例如，给定一个交通场景和一个“从a点到B点”的目标，该语言模型可以生成一个合理的路径，并提供相应的文本描述[7]。此外，生成式语言模型还可以为决策提供解释。例如，给定一个交通场景和一个问题：“自动驾驶汽车应该做什么？”该模型可以根据现场生成最优行为，并提供相应的文本解释：“自动驾驶汽车应该减速并停在路边，因为前面有救护车经过。”交通仿真、预测和控制：AIGC除了车辆局部感知、运动预测和规划等微观内容生成外，还可以应用于复杂城市环境[8]中的模拟、预测和控制等宏观交通控制。通过结合数字双胞胎，生成模型可以在虚拟空间中模拟真实的驾驶环境，并评估交通控制策略。假设一个控制中心有实时交通的知识。控制中心的生成模型可以输出红绿灯c

生成模型还可以解释车辆的行为，使人类更容易理解和监督。例如，给定车辆的行为“停在路边”，生成模型可以根据“停在路边，因为救护车在前面经过”的行为生成文本解释，并通过语音或屏幕向用户提供反馈。

B. 将AIGC应用于自动驾驶的挑战高计算复杂度和延迟：为了实现安全的自动驾驶，AIGC应用程序需要以毫秒为单位分析和决定车辆的状态、环境、道路条件和其他信息。这对车辆的计算和存储资源提出了挑战，因为AIGC模型通常具有大量的参数和复杂的结构。如果在云中部署了AIGC模型，那么网络传输延迟、带宽限制和车辆移动性问题可能会导致服务质量下降。Edge协作是一种可行的解决方案，它可以利用车辆附近RSU的资源来提供低延迟、高可靠性和高性能的AIGC服务。

适应不同的区域和交通条件：一些自动驾驶任务取决于地理位置和地形环境特征。不同的国家或地区可能有不同的道路规则和交通规则，如驾驶方向、限速标志和交通灯。这些规则将影响不同地区自动驾驶车辆的行为选择和内容生成。例如，在美国，自动驾驶车辆需要向右行驶，而在英国，它们需要向左行驶。在高速公路上，自动驾驶车辆需要根据限速标志调整速度，而在城市道路上，它们需要根据交通灯停车或启动。在山路上，障碍物很复杂，形状多样，而车辆的视野有限，需要更谨慎的决策。因此，AIGC服务需要能够识别不同区域中的本地化规则和属性，并根据这些规则生成适当的内容。此外，车辆可能遇到不同的道路条件和交通流量，这是必要

AIGC在云层AIGC边缘层AIGC终端层ü预训练和微调生成人工智能模型ü足够的模型、内容和对话存储u高复杂性集中调度u高网络延迟ü边缘生成人工智能模型与本地化ü低响应延迟u限制资源通信、存储和推理u调度不同请求车辆ü修剪和量化生成人工智能模型ü个性化内容和提示生成ü实时决策u限制资源通信、存储和推理

云层边缘层终端层云/边缘/终端推理模型微调数据收集自动驾驶APPs①严格的延迟要求③个性化请求②本地化交通条件（例如，事故黑点）

因此，AIGC服务需要能够学习和适应车主的个性化偏好，并生成满足他们偏好的内容。车主对生成的内容也可能有不同的风格偏好。例如，有些人喜欢简洁而清晰的内容，而另一些人则喜欢详细而丰富的内容；一些人喜欢正式和严谨的内容，而另一些人则喜欢幽默和轻松的内容。这些偏好将影响自动驾驶车辆的内容表达，包括语音提示、图像显示和文本显示。因此，AIGC服务需要能够识别和适应车主的个性化风格，并生成满足他们偏好的内容。为驾驶员提供个性化的车辆控制和内容风格对生成模型提出了重大挑战，因为它们必须基于有限的交互历史生成定制的响应，而驾驶历史可能跨越很长一段时间。因此，生成模型需要学习如何有效地从几次对话回合或满足的过程中捕捉到驾驶员的偏好、习惯和目标

罗马数字 3我们提出了一种云-边缘-边缘终端协作AIGC架构，以支持低延迟、位置依赖和个性化的自动驾驶任务请求。在此基础上，我们进一步讨论了AIGC服务与网络资源管理之间的互助问题。我们开始尝试利用AIGC来改善网络通信、存储和计算资源管理，并提出了支持AIGC进行自动驾驶的资源分配方案。A.架构设计云边缘-终端协作AIGC架构如图2所示。云： AIGC服务提供商（ASP）使用大量数据训练大型生成模型，并利用数据中心中足够的计算和存储资源，部署具有强推理能力的预先训练和微调的模型。这些模型处理复杂的AIGC任务，如高质量的交通模拟、预测和交通控制评估。ASP还可以根据不同区域的特点和需求来定制大型模型，并将其压缩成更小的模型

为车辆提供本地化和及时的响应。大多数自动驾驶的AIGC服务都可以在边缘完成，包括感知、运动预测和风险评估。只有当边缘的较小模型不足以完成指定的任务时，任务才会被卸载到云中。例如，RSU可以收集本地交通信息，并将其发送到云端，使用更大的模型来集中控制红绿灯。终端：车辆使用有限的计算和存储资源进行修剪和量化的生成模型。这些模型使用轻量级计算生成个性化的内容，因此[9]的能力有限。为了支持更苛刻的生成任务，车辆在边缘或云上选择合适的ASP，将请求发送到ASP，然后将生成的内容传回车辆。所生成的内容可以在终端上进行进一步的处理，以满足个性化的需求。为了增强内容生成的个性化，可以将长的交互历史压缩为[10]，并存储在用户配置文件中。云边缘终端协作协议中的服务工作流程

2. ASP的选择和卸载：给定边缘（或云）处不同ASP的计算和存储资源约束，以及车辆与边缘（或云）之间的通信约束，车辆为其任务请求选择合适的ASP。ASP选择的目标是在资源和延迟约束下生成高质量的响应。生成的内容然后可以从远程ASP传输到车辆。 3.生成内容的后处理：远程ASP返回的一些内容可能是中间格式，以减少通信负载（例如，图像的特征或文本描述），需要在终端的生成模型进一步处理，由驱动程序消耗。此外，后处理可以进一步个性化内容，因为车辆的生成模型保持了更全面的驾驶员偏好。虽然上述服务工作流程侧重于模型推理和内容生成，但大量的请求和流量信息可以进一步增强模型训练和微调。通过分析额外的交通数据，ASP可以更新生成模型在网络资源分配策略。首先，通用的内容生成能力不仅可以适应用户，还可以适应可用的网络资源。生成模型能够输出各种质量的内容（例如，不同分辨率的图片）。通过对任务自适应和资源分配的联合优化，利用可用的网络资源来满足生成任务的资源需求，有可能提高用户的满意度和效用。其次，与传统的内容分发网络不同，用户要求在边缘服务器上存储相同的内容，AIGC服务生成为终端用户量身定制的内容，随着交互的发展，生成的内容甚至会随着同一用户的相同问题而发生变化。因此，AIGC服务需要在协作框架中进行更紧密地耦合的计算和存储资源。一方面，存储的模型需要计算资源来生成内容，而仅凭缓存不足以提供个性化的内容。另一方面，内容生成依赖于交互历史，这占据了交互历史

通信：自动驾驶的挑战之一是，在车辆高速行驶时，确保车辆和基础设施之间的可靠和高效的通信。链路传输容量随时间的变化迅速，特别是对于更高频段的无线通信，如6G，这可能会影响交换数据的质量和及时性。解决这一挑战涉及两个问题：确定在快速变化的网络条件下传输什么和确保有效性。弹性任务生成和资源分配与动态车辆网络中的任务需求和网络资源相匹配，并可以通过应用AIGC技术进行增强。一方面，生成模型可以用于创建与当前链路传输容量相匹配的具有不同卷的内容。例如，生成模型可以在链接较弱时生成低分辨率图像，在链接较强时可以生成高分辨率图像。生成模型还可以将图像转换为文本，这进一步减少了通信用的数据量。这样，生成模型就可以适应不断变化的网络条件和优化状态

另一方面，AIGC有潜力通过解决移动性挑战和主动分配资源来改善无线通信。运动规划的生成模型可以根据车辆之前的状态和环境来预测车辆未来的运动轨迹。如图3所示，预测的车辆位置可以改善车辆与RSU或基站接入点之间的波束跟踪。高频带无线传输容易发生堵塞和散射。环境感知通过识别位置和类型来改善光束的形成

阻滞剂和散射体的[11]。此外，通过选择与车辆通信的最佳接入点，在超密度小小区的传输距离和6G的视线传输中，预测车辆轨迹便于切换。网络可以主动保留最可能的相邻单元中的带宽，而不是所有相邻单元，以减少切换发生前的带宽浪费，提高资源利用率和切换精度。生成模型还可以通过预测动态的通信需求和可用的带宽资源来帮助通信资源的分配。宏观交通模拟的AIGC估计未来交通流量强度，反映了车辆所需的通信资源量。用于微观运动规划和感知的AIGC可以通过利用感知信息和减少导频开销来帮助估计信道状态信息。这些预测可用于改进管理通信网络的路由和调度算法，并提高其性能。通过将AIGC应用于任务生成，资源

存储：内容、模型、用户配置文件和交互历史记录都可以存储，因为它们是AIGC服务的关键成分。缓存生成的内容避免了重复的模型推理计算，并且可以为具有相同请求的多个车辆提供服务。然而，在自动驾驶中存在不同的服务请求和偏好的情况下，为了获得个性化的内容并提高缓存命中率，缓存模型成为必要的[12]。一个模型可以根据用户配置文件及其交互历史记录为不同的用户生成不同的内容。用户简介包括驾驶员身份、车辆类型信息、旅行轨迹、实时位置和速度、与其他车辆的社交互动等，反映了用户的驾驶行为和娱乐偏好。在使用AIGC服务时记录交互历史，如输入提示和响应，反映用户的偏好和对系统性能的反馈。可以压缩用户配置文件和交互历史记录，以节省存储空间。此外，流行的生成语言模型不能推广到比训练序列更长的文本

交互历史可以在与生成模型交互时使用。由于车辆和RSU的存储资源有限，它们通过估计未来的需求来缓存最相关的模型和内容，如图4所示。基于AIGC流量估计和运动预测的主动缓存提高了驾驶安全，同时降低了服务延迟。通过交通拥堵预测，可以在拥堵路段附近的RSU中缓存具有较高感知精度的相关模型和内容，以满足车辆在高风险拥堵道路上的导航需求，同时降低服务延迟和网络负载。当车辆穿越不同的区域时，特定区域的生成模型可以主动缓存在车辆中。例如，在进入山区之前，可以主动缓存更高精度的感知模型。这些模型有助于识别山区地形中不同类型的障碍，并推断车辆感知范围外的潜在障碍，有助于复杂环境中的车辆采取更保守的驾驶策略。在山区，rsu是有限的，积极主动的卡奇此外，基于用户需求估计的主动缓存还提高了服务质量。使用用户配置文件和交互历史作为输入，生成模型可以预测未来的驾驶和娱乐需求。相应的模型和内容可以提前缓存。例如，具有娱乐功能的生成模型可以在公路旅行前主动缓存在车辆中，这可以根据交互历史进行推断。计算：计算是云边缘终端协作AIGC架构的核心，支持实时个性化AIGC服务。为自动驾驶汽车分配计算资源的面临有两个挑战。一方面，很难量化用户对生成内容的主观和个性化偏好。考虑一个乘坐自动驾驶汽车的游客，他喜欢风景路线而不是最快的路线。系统必须理解“风景价值”的主观概念，其中可能包括景观和地标。这种偏好因人而异差异很大，取决于个人品味和当前的情绪。另一方面，多用户资源a作为一个资源受限的任务分配问题[13]，即NP-hard [14]。当考虑到车辆的自动驾驶能力时，这个问题的复杂性会进一步加剧。为了使自主系统与人类的偏好保持一致，第一步包括训练一个跨模态的语义能力的模型来作为奖励模型（RM）。该模型对于理解和解释与AIGC任务相关的多模态数据流至关重要，并且使用从与生成模型和用户配置文件的长期交互中收集的人类反馈进行微调。这种反馈机制允许模型捕获广泛的人类偏好，从内容生成中的美学考虑到实用主义的关注，如能源效率和延迟。RM处理输入参数，如生成内容的质量、延迟和能量消耗，并产生一个标量奖励作为输出。这种奖励代表了对用户满意度的量化估计，以一种可计算管理的优化格式封装了人类偏好的复杂和主观的本质。

车辆在不同的时间产生多个AIGC服务请求，这将由asp处理。ASP的选择问题是复杂的，因为车辆的自主性、不同的用户偏好、资源约束、动态的车辆环境和选择决策的相互依赖性。鉴于这些特征，部分可观察的随机博弈（POSG）框架有望捕捉到这种决策过程的复杂性。POSG解释了每个车辆的决策过程中固有的部分可观察性，即车辆可能没有关于网络状态或其他车辆所做出的服务选择的完整信息。此外，POSG适应了环境的动态特性和多辆车之间的战略相互作用，每辆车都在努力在边缘资源有限的情况下优化自己的服务体验。为了应对POSG框架带来的挑战，我们提出了一种交互式多主体强化学习（MARL）[15]方法，用于ASP选择，如图5所示。这种方法允许车辆直接与附近的车辆进行决策前的交互

奖励、奖励和人工反馈被存储起来，用于RM的持续训练和改进，从而确保系统保持适应性和响应不断变化的用户偏好。总之，通过将RM概念集成到自动驾驶汽车的AIGC任务管理框架中，我们提供了一个健壮的MARL机制，以将自动决策过程与人类偏好的微妙和动态本质相一致。这种方法不仅提高了AIGC任务的相关性和有效性，而且还确保了自治系统在现实世界的场景中保持以用户为中心和适应性。

增值结论复杂自动驾驶环境下的机动性对车辆的感知和决策提出了挑战。生成模型可以通过利用基于从以前的数据中学习到的分布的生成能力来增强感知和预测未来的车辆运动。本文探讨了AIGC在自动驾驶中的潜在应用，并提出了一种支持AIGC的云边缘终端协作体系结构。生成模型的独特特性给通信、存储和计算资源分配带来了挑战，而模型的预测能力可以帮助网络设计和资源管理。本文深入研究了挑战和研究机遇，并提出了构建相互支持的AIGC和网络系统的初步尝试。V.基金资助项目：国家自然科学基金资助项目：62341101、62301011、62271351。参考[1] T. Brown等人，“语言模型是少数学习者”，神经信息处理系统的进展，第33卷，页。1877–1901, 2020.[2] R

[9] M. Li，林勇，丁勇，刘勇，李勇。“货车压缩：交互式条件货车的高效架构”，IEEE/CVF计算机视觉和模式识别（CVPR）会议论文集，2020，第5284-5294页。[10] H.江，Q.吴， C.-Y。林，杨，秋，“压缩提示：大型语言模型的加速推断”，arXiv预印本arXiv：2310.05736,2023。张，高，李，黄，杨，杨，“智能多模态感知通信集成：机器联感”，IEEE通信调查与教程，2023。[12] M. Xu， D. 尼亚藤，张，张，张，“生成人工智能服务的联合基础模型缓存与推理”，arXiv预印本arXiv：2305.12130,2023. [13] M。Xu等人，“在移动网络中释放边缘云生成人工智能的力量：AIGC服务的调查”，arXiv预印本arXiv：2303.16129,2023。[14] K. W. Tindell， A. 烧伤，和 A.李建民，国立硕士论文，“分配实时任务：np难题”，实时系统，第4卷，第2期，第145页