#Towards Generalist Robot Policies
清华大学&字节 | 迈向通用机器人策略:如何选择VLA?
论文标题:Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models
论文链接:https://arxiv.org/pdf/2412.14058
项目链接:https://robovlms.github.io/
作者单位:清华大学 字节跳动研究 CASIA MAIS-NLPR 上海交通大学 新加坡国立大学
为什么我们需要VLA(自然形成视觉-语言-动作模型)而不是其他通用策略?VLA究竟由什么过人之处?
这个概念在自动驾驶领域似乎要更进一步。10月底,谷歌旗下自动驾驶公司Waymo推基于端到端的自动驾驶多模态模型EMMA。业内人士表示,EMMA既有端到端智驾能力,还融合了多模态大模型,其实就是一个VLA模型架构。智能驾驶行业在rule-base上已进行了十数年探索,近2年,以特斯拉为首的自动驾驶开启“端到端”争霸赛,端到端一时之间成为车企“兵家必争”。究其背后,也是自动驾驶对提升复杂场景把控力的追求。
那么VLA在智能领域发展如何?构建视觉-语言-动作模型(VLAs)有哪些关键因素?
由清华大学、字节跳动等机构牵头开展的这项研究,主要聚焦于构建视觉-语言-动作模型(VLAs)时的关键因素。本次研究提出了构建VLA的“灵魂之问”:为什么我们需要VLAs而不是其他通用策略?
接下来,本文描述了构建基于VLM的VLA的关键组成部分:应选择哪种VLM骨干网?如何训练模型以生成动作?何时应将跨数据纳入训练阶段?
为了回答这些问题,本文建立了一个统一的框架,以便公平比较VLAs,并设计了一系列自底向上的系统性实验。
本文用了三个模拟器,执行20个实际任务中的240多个回合中进行广泛实验,本文可以从实验中得出以下结论:
- 关于为什么(Why):VLAs能够实现高性能和良好的泛化能力,是通用机器人策略的有前景的路径。
- 关于选择哪种(Which):本文发现,经过大规模视觉-语言数据集充分预训练的VLM非常适合构建VLAs。
- 关于如何(How):本文研究了不同VLA结构的性能、泛化能力和数据效率,发现整合历史观察是VLAs的关键,而相较于交错式方法,策略头是更有效且高效的历史信息聚合方式。
- 关于何时(When):本文比较了在不同阶段集成跨数据的三种训练方案,得出结论:额外的领域内数据具有积极作用,大规模跨预训练在整体和少样本性能上进一步提升了效果。
作为回答这些问题的“支撑”,本文构建了一个易于使用的框架RoboVLMs,该框架使得将任意VLM集成并转化为VLAs变得更加简便。
基础视觉语言模型(VLMs)在多模态表示学习、理解和推理方面表现出强大的能力。通过将动作组件引入VLMs,能够自然形成视觉-语言-动作模型(VLAs),并且展现出有前景的性能。现有研究已证明VLAs在多个场景和任务中的有效性和泛化能力。然而,从VLMs到VLAs的转化并非易事,因为现有的VLAs在其骨干网络、动作预测形式、数据分布和训练方案等方面存在差异。这导致目前缺乏对VLAs设计选择的系统性理解。在本研究中,本文揭示了显著影响VLA性能的关键因素,并集中回答三个重要的设计选择:选择哪种骨干网络、如何设计VLA架构以及何时加入跨数据。通过获得的实验结果使本文坚信为何我们更倾向于使用VLA,并开发了一个新的VLAs家族——RoboVLMs,该模型需要极少的手动设计,并在三项模拟任务和实际实验中达到了新的最先进性能。通过本文广泛的实验,包括超过8种VLM骨干网络、4种策略架构和600多个不同设计的实验,本文为未来VLAs的设计提供了详细的指南。除了本文的研究,具有高度灵活性的RoboVLMs框架也已公开,支持轻松集成新的VLMs,并自由组合各种设计选择,以促进未来的研究。本文开源了所有细节,包括代码、模型、数据集和工具包,以及详细的训练和评估方案。
方法设计
构建能够根据人类指令感知、推理并与物理环境互动的通用机器人策略,一直是机器人学领域的一个长期挑战。近年来,学者们积极探索通过在机器人数据上微调视觉-语言模型(VLMs),并进行一定的架构调整,从而学习机器人基础模型。由此产生的模型,通常被称为视觉-语言-动作模型(VLAs),在模拟任务和实际任务中均展现了有前景的结果。除了VLAs之外,还有各种通用策略,例如来自视频模型或甚至从零开始的策略。因此,随之而来的自然问题是:为什么我们更倾向于使用建立在大规模预训练VLMs基础上的VLAs?
与其他通用策略相比,广泛认为使用基于VLM的VLAs的原因是,VLMs在通过对大规模网络数据进行广泛训练后,已展现出在学习多模态数据(如文本、图像/视频)的一般化和鲁棒表示方面的强大能力。这种能力可以为机器人基础模型的适配提供启发,弥合高度多样化的开放世界场景与有限的机器人数据之间的差距。然而,目前大规模视觉-语言预训练在多大程度上有助于通用机器人策略的实现仍然是一个未解问题。此外,随着各种不同类型的VLMs的快速涌现,它们在LLM骨干网络、训练数据、模型规模、架构和训练方案等方面存在显著差异。究竟哪种VLM骨干网络更适合机器人操控,仍是成功开发VLA的关键问题。
除了不同骨干网络的多样性,对于通用机器人策略,包括VLAs,其结构更为复杂且形式各异。基于现有最广泛的研究成果,本文提出了一种基于以下两个维度的分类方法:
1)历史信息和动作信息如何在VLAs中融合
2)动作空间是连续的还是离散的。
图2:基于本文分类法的现有通用策略和近期工作的分类(包含年份信息)。本文根据两个主要维度对VLA结构进行分类:1) 动作空间(纵轴);2) 是否整合历史信息(横轴)。此外,对于涉及历史信息的VLA,本文根据历史信息的组织方式将其分为策略头和交错式结构。需要注意的是,这一分类不仅考虑了从预训练VLMs派生的模型,还包括那些虽然未在VLMs上预训练(因此未声明为VLA)的策略架构,这些架构可以为将VLMs转化为VLA提供启示。
如图2所示,本文考虑了四种类型的结构形式。
对于历史信息建模,识别出两种形式:
1)单步建模,仅利用当前状态或观察结果来生成动作;
2)历史建模,处理一个滑动窗口内的历史状态或观察结果。
关于历史信息的聚合方式,本文将其分为两种方法:
a)交错建模,将历史观察和动作序列以交错格式整合;
b)策略头,分别处理每个历史步骤,并在一个独立的策略头中融合信息以进行动作预测。
不同的结构以不同的方式利用预训练的VLMs。因此,它们在面对不同类型的环境和任务时,可能在鲁棒性、泛化能力和数据效率等方面表现出不同的特点。因此,理解如何在实践中充分发挥VLMs的能力来设计VLAs是一个实际重要但尚未深入探索的问题。
除了VLA本身,用于开发VLA的训练数据的质量和多样性同样至关重要。随着一些著名VLA的最新进展,来自不同来源的大规模数据对于进一步提升在面对分布外任务和环境时的鲁棒性和泛化能力至关重要。然而,现有方法在详细的训练方案上存在显著差异:一些方法利用额外的数据对VLMs进行进一步预训练,使得表示更加接近机器人操作任务;而其他方法则在领域内任务上联合训练VLA。此外,通过充分预训练多样化的操作技能,机器人策略预计能够通过极少的示范学习新技能。因此,在开发高效VLA时,何时利用大规模跨数据成为一个引人注目的问题。
为了深入研究上述问题并找到最有效的VLA解决方案,本文的研究选择了4种VLA结构、8种不同的骨干网络以及3种不同的训练数据方案来训练VLA模型。在实验中,本文提出了一个新的框架——RoboVLMs,用于轻松地将VLMs转化为VLAs,并实现公平比较。本文在两个流行的机器人操作基准测试中评估了这些模型:CALVIN 和 SimplerEnv。此外,本文还在自采集的实际机器人操作数据集上训练并评估了构建的VLA,数据集包含100个操作任务和总计74K条轨迹。
具体来说,本文首先选择了三种常用的VLMs——LLaVA、Flamingo和KosMos,作为骨干网络,并将每个VLM与四种VLA结构结合,考察动作空间、观测范围和历史信息聚合方法的影响。通过发现使用连续动作空间的策略头建模表现最佳,本文比较了8种不同的VLM作为骨干网络,并采用策略头结构来回答哪个骨干网络更合适。同时,本文还比较了不同VLA结构的泛化能力和数据效率。针对何时利用跨数据的问题,本文比较了三种训练策略:预训练(使用Open X-Embodiment训练的VLA)、微调(使用目标数据集训练的VLA)和后训练(先使用Open X-Embodiment预训练,再使用目标数据集进行微调)。最后,为了验证具有最佳配置的VLA在实际环境中的适用性,本文在实际机器人操作场景中进行了训练和评估,展示了其在1)未见干扰物、2)未见背景、3)未见目标物体和4)新颖技能描述方面的泛化能力。
图1:本研究主要考虑四个问题,以基于VLMs构建VLA:为何我们更倾向于使用VLA;选择哪种骨干网络;如何构建VLA;以及何时使用跨数据作为额外数据源。通过本文提出的RoboVLMs框架,本文能够轻松将VLMs转化为通用机器人策略,支持多种形式、不同场景和任务。
通过本文广泛而全面的研究,本文得出了关于构建高性能VLA的关键见解,围绕以下问题展开:
为什么我们更倾向于使用VLA?基于预训练VLMs构建的VLA已经证明在通用机器人策略中既有效又高效。在所有实验中,包括模拟和实际操作任务,本文的VLA模型始终以显著优势超过了开源的最先进VLA。更重要的是,预训练的VLMs在泛化能力和数据效率方面表现出显著的优势,使其在实际机器人应用中具有极高的吸引力。
哪个VLM骨干网络更适合VLA?本文对8种不同VLM骨干网络的广泛研究显示,KosMos和Paligemma这两种VLM骨干网络显著优于其他骨干网络。这些结果强调了全面的视觉-语言预训练对于实现卓越VLA性能的重要性。
我们应如何构建VLA?通过广泛的研究和实验,连续动作始终优于自回归离散动作,而融入历史上下文对于提升性能和应对部分可观察性至关重要。在模型架构方面,直接与策略头结合的视觉-语言模型(VLMs)相比其他结构表现更优,这是因为其一致性使用:即视觉-语言标记应以其原始预训练格式进行处理,并添加策略头来整合过去的视觉和本体感知观察,以便有效地进行决策。最后,较大的VLMs进一步提升了效率,能够以更少的数据实现更高的性能。
何时应利用跨数据集?尽管普遍认为使用跨数据进行预训练或后训练能够提升性能,但这一观点尚未经过严格验证。本文的研究发现,使用跨数据进行预训练并不总是能显著提升最终性能。然而,将一个已经通过跨数据预训练的模型在目标数据集上进行后训练,则能够带来显著的性能提升。此外,利用来自相同机器人或任务的操作数据也能明显提升性能。
在整个研究过程中,本文提出了一个新的框架——RoboVLMs,它将VLMs转化为VLAs,并提供了一个统一、灵活、易于使用的开源框架,使任何VLM能够以最小的努力无缝集成到VLA中,从而使机器人领域的从业者能够探索、比较和部署未来的VLA。此外,RoboVLMs构建的VLA在广泛的基准测试和实际任务中展示了出色的泛化能力、灵活性和精巧性。本文已开源代码、模型权重及全面的指南,以促进所有结果的可复现性。本文的目标是为机器人社区提供启示,并帮助构建通用机器人。
图3:两个模拟基准和一个实际基准。本文展示了环境设置和所涉及的示例任务。
实验结果
图4:实际实验中的实验设置示意图。本文在20个任务上评估模型,每个任务进行五次回放,任务包括未见干扰物、未见目标物体、未见背景和新颖技能描述。需要注意的是,对于像“打开抽屉”这样的任务,本文不测试未见物体设置,每次回放的物体布局会随机初始化,并与训练集中使用的布局不同。此外,未见目标物体仅适用于拾取任务。
图5:在SimplerEnv模拟基准上的评估结果,包括WidowX+Bridge和Google Robot环境。基准方法的性能参考自Li等人。由RoboVLMs构建的 KosMos P.H. 是研究中表现最佳的VLA结构,且该模型在固定的训练步骤下进行训练。详细的数值结果可以进一步参考附录H。
图6:在CALVIN基准上不同设置下的VLA的消融研究,涉及视觉-语言预训练。“P.H.”表示策略头。“No VL”表示未进行视觉-语言预训练的模型。“5x”表示使用5倍重新生成的训练数据进行训练。不同训练设置和数据规模的完整结果可以在附录E中查看。
图7:本文通过RoboVLMs构建的最佳VLA(KosMos P.H.)在不同设置下与基准方法的实际机器人性能对比。RoboVLM在所有设置下均优于现有VLA,尤其在未见指标上,展示了本文模型的有效性和鲁棒性。
图8:通过RoboVLMs构建的最佳设置VLA展示自我纠正能力的回放可视化。例如,在“打开烤箱”任务中,机器人第一次尝试未能接触到烤箱把手,但它调整末端执行器的位置,在第二次尝试中重新定位把手。需要注意的是,训练数据集中并不包含这种类型的数据。
图9:在CALVIN基准上的性能,所有模型均在ABCD/ABC划分上训练,并在D划分上进行评估。本文报告了五个连续任务的成功率(左轴)和平均任务长度(右轴),使用的是第5个时期的模型检查点。
图10:在SimpleEnv上的跨训练消融研究。本文评估了四种不同的训练方案。
在WidowX+Bridge环境中,本文测试了以下几种方法:
(1) Bridge Finetune:直接在完整的Bridge数据集上微调VLA(未包括测试任务);
(2) OXE Pre-Train:在OXE数据集上预训练VLA;
(3) Post-Train:在Bridge数据集上对OXE预训练的VLA进行后训练。
在Google Robot环境中,本文测试了以下几种方法:
(1) RT-Partial Finetune:仅在测试的RT任务上微调VLA;
(2) RTFinetune:在完整的RT数据集上微调VLA(包括测试任务)
(3) OXE Pre-Train 在测试RT任务阶段的效果。
(4) Post-Train 在测试RT任务阶段的效果。
图11:跨预训练在OXE数据集上对少样本学习的影响。
图12:考虑的VLA结构示意图,包括几种流行的设计。例如,RoboFlamingo是策略头-连续动作类型的VLA,RT-2和OpenVLA对应于一步-离散动作类型的VLA。Octo和GR对应于交错式-连续动作类型的VLA,具有固定窗口大小。
图13:本文实际机器人平台的演示。该平台配备了侧面相机和腕部相机。
表I:基于VLM的不同图像标记数和视觉-语言预训练数据规模构建的VLA性能。前三行是采用encoder-decoder结构的Flamingo骨干网络,其余骨干网络采用Decoder-only结构。需要注意的是,对于具有多阶段训练的VLM,数据规模指的是用于最终阶段微调的数据量。“UNK”表示未知。
表II:在CALVIN基准上的模拟性能,所有模型均在ABCD/ABC划分上训练,并在D划分上进行评估。**KosMos P.H.**表示使用KosMos-2作为骨干网络,并采用策略头作为架构的VLA,使用RoboVLMs框架构建,并最大训练5个时期。在本文接下来的部分,本文将继续使用骨干网络和结构的表达方式来表示通过RoboVLMs构建的VLA。
表III:在CALVIN基准上的消融研究,探讨动作空间、历史信息整合和历史信息组织格式的影响。所有变体在ABCD划分上训练,并在D划分上测试。“Disc.”为离散动作空间的缩写,“Cont.”表示连续动作空间。需要注意的是,对于使用LLaVA骨干网络的VLA,本文使用感知器重采样器将其视觉标记降采样至64,以进行公平比较。结果报告的是在ABCD训练集上最大训练5个时期后的模型性能。
表IV:使用不同结构和训练数据规模实现的VLA性能。0.1x和1x数据的结果为在5个时期内表现最好的模型检查点,5x数据的结果为第1个时期的模型性能。本文通过VLM骨干网络和历史建模方式命名不同实现的VLA。结果报告的是在ABCD训练集上最大训练5个时期后的模型性能。
表V:基于VLM的不同图像标记数和视觉-语言预训练数据规模构建的VLA性能。前三行是采用编码器-解码器结构的Flamingo骨干网络,其余骨干网络采用解码器-only结构。需要注意的是,对于具有多阶段训练的VLM,数据规模指的是用于最终阶段微调的数据量。“UNK”表示未知。结果报告的是在ABCD训练集上训练5个时期后的模型检查点,所有模型均使用单一侧视图图像进行公平比较。令人惊讶的是,LLaVA和Qwen在没有额外重采样器将标记数降采样的情况下表现不佳。
#5年内实现自动驾驶,世界模型是唯一解
之前的文章我们提到,端到端让行业看到了通往自动驾驶的捷径,但光有端到端还不够。蔚小理华VS地绝元魔,谁是端到端大模型执牛耳者。端到端的“黑盒”特性使得它无法直接约束系统的安全边界;并且无法复现复杂的、偶发的corner case,考验可解释性和泛用性能力,把上限提高的同时拉低了下限,存在“跷跷板效应”。
如何解决这些问题?
于是,世界模型被引入自动驾驶。圆周智行粗略统计,目前已经有超过10个车企和自动驾驶公司提出了世界模型。包括特斯拉,英伟达,蔚来,理想,地平线,商汤,元戎启行,Momenta。还有很多企业虽然并未对外传播世界模型,但其实内部也一直在推进此事。
那么,到底什么是世界模型?它是如何生成的?又是如何工作的?
在回答这些问题之前,我们先看一个案例,蔚来汽车是如何思考世界模型的?
2023年NIO day上,蔚来就公布了其正在自研世界模型的计划。2024年7月的科技日上,蔚来智驾负责人任少卿释放了更多技术细节。
在蔚来的理解里,人类大脑具备两个能力。首先是空间理解能力,也叫想象重建能力。大白话说就是凭空想象能力,你可能没有见过一棵长了100年的大树,但是你可以通过大脑想象它的样子。其次是时间理解能力,或者叫想象推演能力。大白话说就是在大脑里进行时空推演,想象一棵树春夏秋冬的样子。二者共同组成的能力就叫时空认知能力。这是人在三维世界生存的基本技能。这就是人脑构建的世界模型。
这个理解和权威机构对世界模型的定义完全吻合。“World Models”(世界模型)最早出现在机器学习领域。2018年,机器学习顶会NeurIPS收录了一篇《Recurrent World Models Facilitate Policy Evolution》论文,以认知科学中人脑mental model来类比世界模型,认为mental model参与了人类的认知、推理、决策过程,其中最核心的能力在于反事实推理(Counterfactual reasoning),这是一种人类天然具备的能力。
回到自动驾驶,蔚来提出了一个很核心的观点,自动驾驶如果实现也必须具备这样的能力。自动驾驶有很多不常见长尾场景,也就是大家常说的corner case,这样的长尾场景数据获取非常艰难。业内比较常规的做法有两个:一个是3D重建,但是这样的做法成本高,效率低,并不实用;另一个就是仿真,但是仿真的数据根本无法“还原”真实数据,对自动驾驶的帮助有限。于是,自动驾驶的“大杀招”世界模型出现了,它可以根据视频,图片,甚至文本描述自动生成视频数据,给自动驾驶提供源源不断的“燃料”。
在自动驾驶里,世界模型如何发挥作用,地平线对此给出了更细致的解释,世界模型的作用:一是通过生成式大模型生成带有预测性质的视频数据,实现corner case多样化训练;二是采用强化学习的方法认识复杂驾驶环境,从视频输出驾驶决策。
那么,如何来构建世界模型,办法有两个:一个是凭空想象,“无中生有”;另一个是根据现有信息完善信息,比如输入文本,图片,视频,生成更多更丰富的视频。
对于第一个环节,我们需要插入一个容易混淆的概念。很多人认为世界模型就是仿真,二者确实有相似之处,世界模型包含了仿真的部分内容,但是又完全高于仿真。
任少卿提出了一个很有意思的观点,自动驾驶发展了这么多年,本质上都是在做空间理解的升级,就是让系统更理解周围的世界。最早是通过提升传感器硬件能力,后来是算法升级,BEV视角转换,OCC 2D变3D,到现在软硬件能力都已经出现瓶颈,但是极端场景数据的获取却成了大难题。于是,技术人员就想到了自己“造数据”的方式。
当然,必须承认的是,这项技术的发展并不始于自动驾驶领域,世界模型的概念最早在2018年被引入人工智能领域。2022年,Yann LeCun在机器智能里提出了双系统的概念,其中的系统二就提到了要用世界模型构建未来场景的办法。但是真正让这项技术被更多人熟知的时间要推到2024年,其中的最大功臣自然是Open AI。
2024年2月16日清晨,Open AI公司发布了一款震惊全世界的视频生成大模型Sora,它可以根据文本自动生成一段60秒的视频。这是世界模型的一个具象体现。
在人工智能领域,世界模型的影响力远远超过自动驾驶,包括李飞飞的world Labs,谷歌DeepMind等企业都发布了世界模型。Yann LeCun的Mate FAIR团队还发布了导航世界模型,根据前一秒的导航信息实时生成下一秒的轨迹。想象一下这个技术一旦成熟,将会给自动驾驶带来多大的帮助。
这里插一句题外话,如果我们梳理自动驾驶技术的发展路线会发现一个非常有意思的事情。这几年所有对自动驾驶发展产生推动的技术都不源于自动驾驶,而是人工智能,包括transformer,BEV,OCC,到今天的端到端,世界模型。正应了那句话,自动驾驶本质上是人工智能的一个具身智能体现。所以技术人员很喜欢说一句话,搞自动驾驶不能只盯着自动驾驶,这样永远搞不好自动驾驶。
在自动驾驶,特斯拉毫无疑问是那个探路者。就像乔布斯带领苹果科技惠民一样,虽然苹果并不是技术发明者,但它确实是将技术融入产品的最佳实践者。
世界模型帮助所有智驾玩家打开了一个全新的世界。2023 年,特斯拉自动驾驶负责人在 CVPR 上介绍了其正在打造的 “通用世界模型”。该模型可以通过过往的视频片段和行动提示,生成 “可能的未来” 的全新视频,其基础架构由多台摄像机的视频流输入,汇集到一个大型 Transformer 块中,通过空间注意力和几何模型等形成特征并进行预测,可用于预测占用率、体素未来的流动情况以及车道等驾驶所需的任务。
与此同时,Wayve也在2023 年发布了 GAIA-1 模型,它可以依靠视频、文本和动作的输入生成逼真的视频,能够生成分钟级的视频以及多种合理的未来场景,帮助自动驾驶模型的训练和仿真。
2024 年 GTC 大会上,英伟达也展示了其在世界模型领域的新进展,通过将多模态数据输入模型训练并让模型预测未来驾驶场景,自动驾驶基础模型可以稳定生成多个摄像头拍摄到的逼真的驾驶场景演变,并且通过语言提示词也可以使得模型呈现的场景灵活变化。
在国内传播层面,蔚来汽车是国内最早提世界模型的车企。其在2023就表示正在研发世界模型,2024 年 7 月 27 日,蔚来发布了中国首个智能驾驶世界模型 NWM 。
华为则是把自动驾驶的视频生成板块放在了盘古大模型中,叫做场景生产大模型。华为在2020年开始启动盘古大模型研发,并于2021年4月正式发布,到2022年聚焦行业应用落地。
华为对世界模型的使用更加多元。它从实车数据学习如何生成新视频,同时处理重建和渲染,生成数据可用于感知算法训练;重建各类障碍物构建素材库,根据需要构造corner case,增强数据完备性;针对天气、昼夜、季节等环节因素对已有场景进行变换,构造corner case。它基于神经网络做实车场景,并进行重建跟渲染。
有意思的是,在自动驾驶上一直以先锋自居的小鹏汽车在世界模型上并没有任何资料流出,不知是在憋大招还是觉得不重要。推测来看,前者的可能性居多。
世界模型的价值如何评估
就在世界模型被疯狂追捧的同时,一个更深的问题摆在行业面前:世界模型到底应该凌驾于真实数据之上,还是仅仅作为真实数据的补充。
特斯拉和元戎启行的思路是用一套系统覆盖两种商业模型,辅助驾驶和Robotaxi。然后用数据训练的方式不断提升系统的能力上限,这种逻辑下世界模型更像是现实世界数据的补充。但这似乎低估了世界模型的价值。
“世界模型是最重要的事情,没有之一。”
小马智行CTO楼天城给了世界模型极高的评价,他认为世界模型是自动驾驶当前最重要的事情。依靠现有的真实数据只能让智驾系统无限接近人,只有世界模型数据才能构建出更复杂的世界,最终让训练出来的系统超越人。理由很简单,自动驾驶是对人类驾驶行为的学习,因为人的驾驶能力有上限,所有自动驾驶的安全边界也有上限,但楼天城认为,自动驾驶的安全必须高于人类才有意义,尤其是L4级自动驾驶。所以必须要有高于人类驾驶行为的世界模型数据训练出来的系统才能优于人类。按照这个表述,世界模型应该凌驾于真实数据之上。
这里我们来看看地平线的实践案例,传统基于规则的CNN(卷积神经网络)学习方式,没有泛化和理解能力。地平线提出了“交互式博弈”,核心在于通过生成数据驱动实现模拟学习和强化学习。为了避免机器对数据的重复模仿,它必须要学会主动理解数据。这时候世界模型就承担了「驾驶世界观」的作用。这里我的理解是,地平线已经实现了楼天城说的,让世界模型担当系统教练的角色,指导系统到底该怎么开。
此外,世界模型还可以作为额外的信息源,为预测环节服务。当地图信息和传感器信息输入World Model,机器经过处理输出仿真、想象、演绎甚至脑补过程,支撑系统的交互博弈,为系统兜底。
那么,世界模型的好坏又该如何评估。如果单纯从理论层面,很难。世界模型的能力就好像语文作文,很难通过一个量化的指标去评估好坏。目前虽然很多车企发布了世界模型,但是对具体细节数据展示的不多。这里我们来看看蔚来和商汤的案例。
蔚来对其世界模型的介绍如下:
“能够在 100 毫秒内推演出 216 种可能发生的场景,并可基于 3 秒的驾驶视频生成 120 秒的想象视频,还具备闭环仿真测试能力。”
商汤绝影对 “开悟”世界模型的介绍如下:
“(视频生成)时间最长为150秒、分辨率可达1080P、视角可以实现11V”。
绝影认为这个难度很大,行业普遍都是生成1V或6V视角的视频,开悟直接干到11V,而且同时生成的视角画面越多,要保持时空一致性就更难,还要克服鱼眼视角的畸变。
虽然没有准确的评估办法,但是他们都强调了世界模型的几项能力:准确性,多样性,可控性和泛化能力。
目前看来,世界模型的能力还远远没有开发出来。
楼天城提出了一个设想,世界模型还可以充当一个评分体系,对自动驾驶系统的表现做出评价,不断提升系统的能力。
地平线提出了世界模型的两个长远价值:首先是更准确的世界理解,帮助减少智驾系统的代码量,延迟,网络负载,错误率等;然后是泛化能力,世界模型可以让高阶智驾形成对复杂驾驶环境的通用理解,而非对输入的重复依赖。大白话说就是举一反三。
最近地平线创始人余凯在接受采访时表示,大规模L4、L5将会在5年左右实现。而目前行业形成的一个共识是,自动驾驶实现的一个大前提不仅仅是像人,而是要超越人。真实世界的数据只能是无限接近人,要超越人,世界模型是目前技术人员探索出来的通往自动驾驶的唯一解。
#市值70亿!阿里CEO赶飞机投的智驾公司上市了~
阿里CEO押注9年的智驾公司,今天在港股挂牌上市。
佑驾创新,也叫Minieye,一家智驾和智能座舱解决方案供应商。
IPO发行价每股17.00港元(折合人民币约16元),开盘价格为18.60港元(约17.5元)。
截至发稿前,佑驾创新的总市值达到了74.73亿元(约70亿元人民币),远远超过上市前的53亿估值。
85后华科博士刘国清创业十年,初期就收获阿里巴巴CEO吴泳铭的天使轮融资,还有来自大客户四维图新的投资支持。
有意思的是,刘国清在拿到吴泳铭投资时,正是吴泳铭在奔赴美国纳斯达克,为阿里巴巴敲钟的路上,两人在机场匆匆一见,相谈甚欢,一拍即合。
如今,轮到刘国清来敲响钟声。
佑驾创新是谁?
这是一家智能驾驶及智能座舱解决方案供应商,提供从L0级到L2+级的智驾解决方案。
招股书中,佑驾创新给出了公司在行业价值链中的定位——解决方案供应商:
在上游,佑驾创新向供应商采购原材料及零部件,包括传感器、芯片、高精地图、定位系统等等必需材料。
基于这些材料和部件,佑驾创新再开展各项核心业务,包括算法和软件开发、硬件设计、测试及验证、系统集成、生产、质控及售后等等。
在下游,佑驾创新的解决方案,主要通过两种渠道进入市场:
一种是直接供应整车厂,通过定制的技术集成到车型中;
另一种是向Tier 1提供解决方案,把技术集成到Tier 1的产品中,再供应给整车厂。
而佑驾创新的解决方案,主要分为三条业务线:智能驾驶解决方案,智能座舱解决方案,以及车路协同。
先来看智能驾驶解决方案,目前主要包含iSafety和iPilot系列。
iSafety系列具备AEB、ACC、TJA等L0-L2级别的ADAS功能,目前已经开发到第三代,并完成了商业化和量产。
第三代的 iSafety 3,算力5 TOPS,配备1-5颗毫米波雷达,数量可由客户自由选择。
iPilot系列,则是涵盖高速NOA、城区NOA和智能泊车的高阶智驾产品,并且可以通过单芯片实现。
而且iPilot产品最低可用32TOPS算力,1-5个毫米波雷达、6-10个摄像头和12个超声波雷达实现高速NOA功能,不仅支持安装在新能源车上,燃油车也可以安装。
iPilot 1、2及3都实现了商业化,其中,iPilot 3采用的是BEV技术和重地图轻感知,而最新的iPilot 4将采用BEV技术加端到端技术,预计在2025年开始商业化。
目前,佑驾创新正在开发ADS功能,新系列产品iRobo正在研发当中。
招股书介绍,iRobo解决方案,可以实现工业园区、港口和机场等特定区域和操作场景下的全自动驾驶,现在已经进入到测试阶段,预计2025年第一季度交付。
凭借已商业化的两款产品,今年上半年,佑驾创新的智驾解决方案,已经在16家整车厂的25款车型上定点,并在22家整车厂的67款车型上量产。
再看另一条业务线,智能座舱解决方案,主要包括驾驶员监测系统(DMS)、乘客检测系统(OMS)和其他解决方案,基于计算机视觉和人工智能算法打造。
智舱产品主要为六种应用场景提供“主动式”服务,包括司机注册、乘客看护、驾驶员疲劳检测、安全接管、交互娱乐体验、以及健康监测。
由舱内感知算法,可以感知驾驶员的视线是否落在20个可探测区域内,还可以把视线区域缩小到5厘米 x 5厘米,平均视线跟踪精度在3度以内。
到今年上半年,佑驾创新已经和9家车企达成合作,定点合作车型16款,并且量产车型达到30款。
最后,佑驾创新还提供车路协同业务,集成雷达和摄像头等感知设备,通过自研算法以及V2X技术等,对车载系统和路侧系统信息进行分析处理。
今年上半年,佑驾创新开展了25个新项目,已完成15个项目,从2021年以来,已累计开展了67个项目。
整体来看,佑驾创新的客户越来越多,也越来越丰富。
根据公司官网介绍,其现有的前装量产客户,主要包括比亚迪、蔚来、哪吒汽车、一汽集团、吉利汽车、上汽集团、江淮汽车、东风汽车、柳汽集团、陕汽集团、江铃汽车等。
所以,这给佑驾创新的财务带来了怎样的增量?
财务状况如何?
营收层面,佑驾创新2021-2023年的收入为1.75亿元、2.79亿元以及4.76亿元,年复合增长率为64.9%。
今年上半年的收入为2.37亿元,同比增长44.4%。
其中,细分各项业务的收入,结构正在发生变化:
智能驾驶解决方案是收入来源的大头,这也是为什么说佑驾创新是一家智驾公司,但这部分占比正在缩小。
2021年,智驾解决方案的收入为1.73亿元,占总收入的98.8%,几乎是全部的收入来源。
而智驾解决方案中,又是iSafety系列的产品贡献了几乎全部的收入,iPilot系列只营收了1.2万元。
但随着智能座舱和车路协同业务的推进,所占总收入的比例也在提升。
到了今年上半年,智驾解决方案的收入为1.82亿元,占总收入的77%;智舱解决方案和车路协同分别营收0.31亿元和0.23亿元,总收入占比分别提升到了12.9%和10%。
而智驾解决方案中,iPilot解决方案的占比也在增加,今年上半年占总收入的比重达到12.4%,iSafety解决方案则降到64.6%。
利润层面,2021年、2022年到2023年的毛利分别为1700万、3357万,以及6802万;今年上半年,公司毛利为3342万,同比增长144.7%。
2021年-2023年、今年上半年的毛利率,分别是9.7%、12%、14.3%以及14.1%。
和大多智驾公司一样,佑驾创新目前仍然亏损。
过去三年,佑驾创新的经调整净亏损分别是1.31亿元,2.05亿元,以及1.84亿元;今年上半年亏损8244万元,亏损正在收窄。
亏损的一个最大因素,也是作为一家科技创新公司的本质:高研发投入。
在经营开支当中,研发开支始终是三项开支中的大头。
今年上半年,佑驾创新的研发开支为0.63亿元,同比下降22%,占总收入比重的26.7%。
到目前,公司总人数为496人,研发团队人数为304人,占据61.3%。
最后看现金储备,到今年上半年期末,佑驾创新的现金及现金等价物为2.2亿元。
面对亏损,这样的现金储备不算十分丰厚,为了有足够的资金保障,上市也成为佑驾创新需要迈出的重要一步。
佑驾创新从哪里来?
这家公司背后的创始团队,都是名校出身的80后。
37岁的刘国清,是佑驾创新的联合创始人、董事长、执行董事及总经理,主要负责公司运营总体规划以及经营目标、战略发展及技术研究方向,还有产品开发、生产和布局。
刘国清拥有华中科技大学数学学士学位、武汉大学管理学学士学位,并在2013年取得南洋理工大学计算机科学博士学位。
在公司成立之前,曾担任过南洋理工大学计算机工程学院项目主任,以及南京车锐信息科技有限公司的总经理和首席工程师,在管理、技术和自动驾驶解决方案行业,拥有约12年经验。
另一位联合创始人,同时也是执行董事和副总经理的杨广,今年35岁,主要负责智驾解决方案业务以及生产、制造、质量管控及合规事宜。
杨广同样毕业于华中科技大学,专业是电气工程及自动化,他在管理和技术领域拥有约14年经验。
加入佑驾创新前,他曾在南京车锐信息科技有限公司担任副总经理兼工程师,还在腾讯工作过3年。
还有两位联合创始人,都曾是南京车锐信息科技的老同事。
一位是执行董事和副总经理周翔,37岁,获得东南大学计算机软件及理论硕士学位,在管理和技术领域拥有约11年经验。
目前,周翔负责的业务,主要是车路协同业务以及附属公司的营运及管理。
还有一位也是执行董事兼副总经理,今年40岁的王启程,主要负责公司的战略规划和海外业务拓展。
他拥有清华大学电子工程学士学位,在管理、技术和自动驾驶解决方案行业,也拥有超过10年经验。
这样一支有十多年行业经验的高管队伍,从创业开始,就获得了投资者的青睐。
阿里巴巴CEO吴泳铭,早在公司成立第二年,就参与了天使轮融资,投入了450万。
这笔融资,还是吴泳铭在奔赴机场,飞往纳斯达克敲钟的路上敲定的。
在这之后的十年里,佑驾创新完成了17轮融资,累计资金达14.48亿元。
在股东当中,还有四维图新、普华资本、合创资本等知名企业或机构支持,而且四维图新还是公司的大客户之一,从2020年就开始合作,截至去年年底,为佑驾创新贡献了7.9%的收入。
去年11月结束最后一轮融资后,佑驾创新的估值达到53.48亿元。
今年以来,智能车市场火热,智驾公司紧跟风向标,也在集体追赶上市浪潮,好消息不断。
也是一个晋级的新起点。
招股书传送门:
https://www1.hkexnews.hk/app/sehk/2024/106931/documents/sehk24120800027_c.pdf
#用AI做车企,也用车企做AI
理想汽车:又是叫人恶心的理想 , 车企决胜在AI,理想汽车“不务正业”的阳谋。
2022年12月,ChatGPT搜索全球上线,成为人工智能领域的历史分水领。这款聊天机器人的横空出世,开启了一个新的技术时代。
但少有人知道,3个月前的2022年9月,一家中国的新造车公司CEO,已经在公司做出战略级的预判:人工智能是未来车企之间的核心较量。这家公司是理想汽车,以出色的产品定义能力著称,增长迅速,效率奇高,但2022年9月,这家公司毕竟开始卖车不到2年,月销量只有1.1万辆。
此后的2023年1月,理想汽车发布全员信,明确表示企业愿景是,将在2030年成为全球领先的人工智能企业。
近期,在12月25日-27日连续的三天理想AI Talk中,理想汽车正式发布了AI大模型产品”理想同学”,并再次宣告了理想汽车将成为人工智能企业的愿景。
理想同学是对标OpenAI旗下Chatgpt的AI大模型应用。实际体验中,理想同学 App具备实时解答能力,也具备识物功能。同时,这款应用还支持语音交互能力,在回答用户问题时,会提供语音解说,且支持自然语音对话。
这些能力显然已经可以对标市场主流的人工智能应用。对于一家车企而言,无疑是“黑马”之作。
但并不突然,据理想汽车数据显示,每年投入上百亿元研发,有近50%用于投入人工智能。
也就是说2023年开始,理想汽车已经真正将人工智能战略融入在公司的具体执行中,开始真金白银的投入。
今天的车企,无一不在高涨的AI浪潮下,将人工智能视为战略版图的核心一环。
但如果往回看,2023年初的理想汽车,刚实现年营收450亿元,年销量超13万辆,这几乎是大众汽车一周的销量。
这家“初生牛犊”的造车公司,为何敢将战略远景投向年耗资动辄百亿级的人工智能?
答案的源头或许是,理想汽车掌舵人李想的技术执念。
李想的AI执念,产品公司的技术底色
对产品体验的追求,是理想汽车的底色,但绝不是一切。
实际上,仔细揆度理想汽车CEO李想的历次创业,都能看出,这位对外以“超级产品经理”著称的连续创业者,每次切入不同赛道时,最先洞察的都是技术生产力的变迁。
也就是在他产品经理的外在符号下,是浓厚的技术执念和嗅觉。
例如,2015年创立理想汽车时,李想最先看到的是并不是家庭SUV的产品形态,而是电动化和智能化技术变革,所带来的中国汽车产业的超车机会,以及相应的制造和产业链日趋成熟。实际上,今天小米汽车一夜崛起,背后也正是过去数年,新造车浪潮对产业链的淬炼。
而在智能电动产业技术成熟之上,李想第二步洞悉的仍然不是产品,还是技术。
例如,今天的大电池混动车遍地开花,几乎是所有车企发力新能源车的必选技术方案。
但少有人知道,这项技术的第一代产品是理想ONE,而这款车所采用的增程方案几乎由李想一手设计了技术构型。
最开始研发团队只打算在理想ONE上用一个高功率的小电池,提供50公里续航,李想坚持要用大电池,要保证市区能够完全使用纯电,“做到180公里,就能保证在几乎所有城市做到99%的纯电动行驶。”
甚至理想ONE在增程器选型上也出现过一次反复,研发的角度认为,要用热效率高的自然吸气发动机,李想坚持用了涡轮增压。
“自然吸气虽然热效率很高,但是转速太高,NVH特别差,转速由于经常需要拉高,油耗反而更高。”李想说,而涡轮合适的地方是,它的转速在一个健康功率区间里,“大部分人老爱追求单点的东西,我更在意系统的东西。”
不仅是增程系统,被行业所效仿的四屏交互、车载冰箱,这些构成理想汽车核心竞争力的产品点,几乎都源自对技术的先验性洞察和思考。
沿着这个脉络,看理想汽车对人工智能的全力押注,或许已经清晰。
2015年,理想汽车创立之初,理想就提出希望15年之后的理想汽车可以在人工智能领域构建完整的体系化能力。
2023年初,ChatGPT的横空出世,是一个超级AI产品的诞生。那个春节,理想汽车高层紧急开了战略会,核心议题只有一个,就是AI。理想汽车CEO李想还频繁交流了陆奇、王兴等顶级创业者和超级外脑,获取对AI的技术判断。
在此后的战略会议中,李想更是坚定表示,他的终极梦想,就是创造一个超级智能的硅基家人。
如果说智能汽车是100米的产业巨浪,人工智能显然是1000米。很显然,李想在造车赛道的快速突进中,始终瞄向那个更大的技术远景。
如今,李想为了保持对AI的专业技术输入,几乎依然保持着一线管理者的状态,每周参加4-5次AI会议、看论文,以及听取每个的团队落地实践进展。
如果看向智能汽车的终局,布局人工智能技术,几乎是车企们必然的战略选择,但理想汽车能够早早捕捉并且将其深刻融入,正是源自掌舵人李想的技术执念,以及对人工智能这个“千米巨浪”产业机会的敏锐判断。
当然,罗马不能一日建成。技术是理想汽车的底色,务实和效率同样是。
人工智能的大赛道已经宽敞,但技术岔路仍然密布,Agent的具体形态仍然不够清晰,人工智能所依赖的硬件产业链,也远没有像汽车这么成熟。换言之,人工智能的产业落地爆发期,仍需等待。
而在此过程中,理想汽车的人工智能愿景,可能前置于理想汽车,也同时需要深深镶嵌在理想汽车。
用AI做车企
一家车企做人工智能的必要前提,无疑是学会用人工智能做车企。这在理想汽车已经实践。
理想汽车围绕人工智能已经成立了人工智能技术委员会,这个委员会的核心成员,就是各条业务线的负责人,他们将围绕人工智能,重新思考自身业务的运营逻辑和方式,包括智能驾驶、智能空间、智能工业、智能商业。
目前,理想汽车已经对外展示了一系列人工智能在整车企业运营中的成果。其中,相当一部分已经做到了行业第一梯队水平。最具标志性的,显然就是智能驾驶和理想同学。
去年12月,“理想同学”背后的大模型Mind GPT发布上车,提供车载智能助手功能,同时积累了大量汽车行业数据,了解车辆使用的场景。
在智驾领域,理想汽车被认为是后进生。相比于行业动辄在2019年前后投入自研,理想汽车确实受限于资源,投入有些滞后。
但是在进入2023年的智能驾驶开城之战中,理想汽车首先通过压强式投入,抢到了“全国都能开”的智能驾驶第一梯队名额,又通过果断切入“端到端”,跻身智能驾驶行业前列。
要知道全球范围内,推出该技术的成规模的车企,并不超过3家,其中一家是特斯拉。
理想的端到端方式采用了双系统架构,即“端到端+VLM”,是真正意义上One Model结构的端到端。其率先将视觉语言模型VLM部署到车端芯片上的双系统方案,已在10月实现全量用户推送。采用端到端技术,是汽车行业开始真正用人工智能的方式做自动驾驶的标志。
及至11月28日,理想汽车“车位到车位“智能驾驶随OTA6.5版本正式全量推送给AD Max用户,理想汽车正式成为首批首家全量推送车位到车位的车企。从体验来看,“车位到车位”可实现轻松应对狭窄小区道路、环岛、掉头和复杂施工场景。
据理想汽车披露,此后的“高速端到端”将于12月底伴随OTA推送至AD Max用户,继续成为特斯拉之后,全球唯二家将端到端技术应用到高速(及环路)NOA场景的车企。至此,理想端到端+VLM智驾实现了“全场景端到端”能力。
沿着人工智能的技术路径,理想汽车的智能驾驶将继续快速迭代,据悉,“行业首创AI推理可视化”将于12月底伴随OTA推送首创的“AI推理可视化”功能。该功能首次将智能驾驶模型的思考推理过程以视觉形式展现,并且展示One Model端到端模型输出轨迹路线能力;让驾驶员提前理解AI的思考和执行过程,更安心使用智能驾驶。
人工智能对理想汽车的智能驾驶加持作用,显而易见。而智能能力的快速提升,也在产品力上,对理想汽车形成正向回馈。据理想汽车数据,目前搭载端到端智驾的MAX版高配车型选装率已经从上半年的20%左右,陡增至如今的50%以上。这给理想汽车带来的,显然是更高的收入和毛利。
除了用户可感知的智能驾驶,人工智能也已经深入理想汽车的商业和工业等运营毛细血管。
例如,在销售和服务等商业场景,理想通过大模型技术与商业领域数据和知识的深度结合,构建了一批具备零售、营销、客服、金融反欺诈、财经分析等能力的AI助手。
在零售场景,能通过对金牌零售专家在沟通技巧等能力维度上的学习,赋能更多零售伙伴;其次,也赋能了客户服务团队,AI模型学习了车辆使用中的各类知识,通过智能多轮问答能力有效解决了大量用户进线问题,释放了呼叫中心的坐席压力等。
在制造等工业场景,理想汽车通过全栈自研的智能制造系统、视觉算法、设备、质量预测模型等,驱动提高制造效率,快速迭代生产技术,达成更高产品质量。其中“连山质量预警平台”全面的数据分析,能实现从研发到生产质量的实时控制和预警。
理想的目标是通过AI赋能汽车工业从研发,试验,生产,售后的全面生产效率和产品质量,实现横向上从研发端到交付端的数据闭环,纵向上从多层供应链到整车厂的数据协同。
造车的竞争近乎于无限游戏,正如李想所说,“最开始大家看到新势力、特斯拉,跟传统汽车的竞争。后来华为进来了。后来小米又进来了。大家又发现这个竞争发生了新的变化——这就是世界的精彩和丰富之处。”
巨头万觉轮番入场,跨国车企也竞相转身,车市正进入绵长且激烈的竞争阶段。用AI做车企的核心要义,是提升产品力和运营效率,进一步提升车企的纵向竞争力。而在此之上,才有基于车企做AI的底座。
用车企做AI
当一家车企囤起万张云端算力计算芯片时,其在计算资源上的投入,已经接近甚至超过主流的AI大模型公司。
数据不会无端巧合,万卡算力背后是数十亿乃至上百亿元的资金投入,而资本投入由战略刚性所决定。
也就是说,车企对算力的投入呈指数级增长,乃至与AI公司比肩时,其内核属性已经在快速靠向人工智能公司。
从智能驾驶的技术范式变化,到车载大模型产品的快速应用,乃至最终生产出自动驾驶汽车。汽车企业都注定会成为人工智能企业。
同样站在AI产业的视角看,具身智能在数年之内,最可预见的形态,正是无人驾驶汽车。
因为汽车产业进化数百年,技术标准和行业标准,乃至产品标准,都已经高度成熟,它需要的只是一个超级大脑。
而做好智能汽车,既是车企决胜未来的核心要务,也是人工智能行业的最早试炼场。
特斯拉坐拥每年数百亿的净利润资源,选择自动驾驶、AI大模型和人型机器人三线布局。
理想汽车,正在年销50万辆的冲高阶段,资源稳健,但仍需要按节奏投入。因此,其选择了人工智能中,更为清晰的形态进行押注,这就是自动驾驶汽车和AI大脑。
这两项成熟之后,理想汽车必然会考虑人工智能的下一个形态,或许是机器人。
实际上,这在理想汽车的技术部署中已有清晰路径。
从2020年初,理想汽车已经着手构建技术平台化,包括智能驾驶平台AD和智能座舱平台SS。
而随着人工智能的能力演进,理想汽车认为它的产品形态会有三个阶段的迭代。总结来说是—“增强我的能力、成为我的助手、是我的硅基家人”。
显然,理想汽车的人工智能阶段,正从“增强我的能力”进入“成为我的助手”。
以近期理想汽车上线的理想同学为例,其背后是理想的认知大模型MindGPT,这几乎是行业首批自研车载大模型。模型迭代速度高效,从2023年12月至今,大模型已经迭代30多次。
据介绍,即将上线的Mind GPT-3o是一个多模态端到端大模型,响应速度进入百毫秒级别,能够理解不同的模态,在一个模型内完成从感知到认知再到表达的完整的能力。
同时,理想还在推动理想同学的任务能力、成长能力和陪伴能力的不断进化,理想同学的大脑升级为最新一代Mind GPT-3o之后,记忆、规划、工具、表达能力全面提升。也就是说,”助手“的能力也会进一步提升。
而何时进入从“成为我的助手”到“是我的硅基家人”。
李想在近期的AI Talk中也给出了答案,其表示,理想汽车做机器人在概率上肯定是100%,但节奏不是现在。
“如果我们连L4级跟自动驾驶的汽车都解决不了,怎么去解决更复杂的?因为车是个无接触机器人,而且道路是标准化的,包括道路上的提示和参与者都是标准化的,而且每个人都受交通规则的训练,我觉得这已经是最简单的机器人了,如果车没法实现,其实其他人工智能机器人,还是非常有限的。”
李想的决策显然是深思熟虑的结果。眼下人工智能浪潮汹涌,但落地形态并不明确,以人型机器人为例,能精细抓握和控制的机器手,都未有成熟的产业链,从车企贸然切入,势必直面风险。
而站在智能汽车这个拥有稳健现金流的业务基石上,构建大脑,同时等待产业迷雾进一步清晰,才是真正向人工智能下一步的进发时机。
就像李想所说,今天还是OpenAl定义的AGI(通用人工智能)第一个阶段:聊天机器人。接下来,将进入第二个阶段是推理者。
到第三个阶段Agent(智能体)的时候,才是真正的“iPhone 4时刻”。
“普通老百姓都能用了,它能独立地、持续地、连续地完成任务,而不需要靠密集的提示词”。
就汽车行业而言,L4级的自动驾驶汽车,无疑就是这个Agent。而这样的时刻,对于理想这样,视人工智能为核心战略的车企,已经越来越近。
#EI-Drive
更真实的协同感知!协同感知和融合通信特征的智驾平台
本文对EI-Drive: A Platform for Cooperative Perception with Realistic Communication Models进行介绍,EI-Drive将协同感知和通信延迟与误差融合,打造了一个更贴近车间通信(V2V Communication)真实部署环境的自动驾驶平台,为抗通信干扰的相关自动驾驶算法提供了测试和训练的平台。
项目详情:https://ucd-dare.github.io/eidrive.github.io/
开源代码:https://github.com/ucd-dare/EI-Drive
论文链接:https://arxiv.org/abs/2412.09782
研究动机
随着自动驾驶领域的不断发展,协同感知(Cooperative perception)得到了越来越多的关注,它使多个车辆或RSU能够共享传感器数据,从而增强其对环境的感知。这种方法对克服传感器遮挡、视野受限以及噪声等限制尤为重要,这些限制可能导致障碍物的遗漏或决策上的致命错误。
现有的一些自动驾驶平台已经具备协同感知相关功能,并实现了其与仿真环境的交互。然而,当前相关测试平台的一个主要局限在于其采用了不现实的通信模型。由于协同感知高度依赖于单位之间的通信,通信过程对车辆感知的质量起着至关重要的作用。诸如传输延迟和错误等关键因素可能对实时决策产生负面影响,从而大大降低整体性能。遗憾的是,大多数现有研究并未考虑到协同感知中的传输延迟和错误,而这些在现实世界的车间通信中却是不可避免的。
EI-Drive框架
论文贡献
为了在真实通信条件下评估协同感知及其他自动驾驶算法的性能和鲁棒性,我们开发了 EI-Drive 仿真平台,将现实的通信模型集成到平台设计中。EI-Drive 融合了若干项功能,以克服现有自动驾驶仿真平台的局限性。本文的主要贡献总结如下:
EI-Drive 集成了现实的通信模型: EI-Drive在协同感知中集成了现实的通信模型。这使得多个智能体(如车辆和 RSU)能够共享和融合传感器数据,在复杂驾驶环境中显著增强其态势感知能力。包含传输延迟和错误的通信模型准确地再现了自动驾驶车辆在真实网络条件下面临的环境,提升了测试的鲁棒性和可靠性。
内置多智能体测试场景: EI-Drive 内置包含复杂交通和多变网络条件的场景,具有较强的对多智能体动态环境的仿真能力。这些内置场景结合了world scripts和 EIScenarios,专为探索智能体之间的交互和不同功能(如协同感知和通信模型)而设计,用于在复杂动态环境中对自动驾驶算法进行测试。
在传输延迟和错误条件下对协同感知进行实验: 基于内置场景,我们在现实的通信模型下对协同感知进行了实验研究。结果表明,传输延迟和错误对协同感知性能及车辆行为产生了显著影响。此外,这些实验突出了 EI-Drive 作为强大工具的能力,能够有效模拟通信模型与自动驾驶系统之间的复杂交互。
实验结果
1)基于规则的自动驾驶
EI-Drive包含一个较为简单的基于规则的自动驾驶算法,以实现车辆的自主寻路、识别、避障。该算法将成为后续更复杂实验的基础。我们设计了四种不同的任务,包括超车、跟车、红绿灯和停车标志,以展示该自动驾驶算法的基本能力。在所有场景中,自车(ego vehicle)采用多模态输入,并采用多种感知方法。
多模态传感器:展示了自车在每个场景中利用多模态传感器的行为。在超车场景中,自车成功连续超越前方两辆车,确保换道安全且无碰撞。在跟车场景中,自车以安全距离跟随前方车辆。在红绿灯场景中,自车能够正确识别红绿灯并通过路口。在停车标志场景中,自车在停车标志前停车,然后继续前进。实验表明,自车能够识别环境中的目标并作出正确响应,确保轨迹规划和运动控制的安全性与流畅性。
感知方法:为了进一步细化感知模块中的目标检测方法,我们在超车和跟车场景中测试了内置的感知方法。实验利用了内置的 Oracle、YOLOv5 和 SSD 算法,对自车摄像头图像进行目标检测。如图所示,这些方法能够准确检测车辆并可视化边界框。
2)碰撞规避任务
为了更好地突出协同感知扩展自车感知能力并提高安全性的作用,我们设计了基于碰撞规避任务的实验。在该实验中,自车需要通过一个没有红绿灯的路口,而一辆被消防车遮挡的左侧来车可能引发潜在碰撞。为了避免碰撞,协同感知从观测车辆或 RSU(路侧单元)提供有关这辆隐藏车辆的额外信息,帮助自车做出正确决策。
在上图中,我们研究了协同感知、传输延迟和传输错误的影响。在此实验中,我们将延迟和错误率分别设置为 0.3 秒和 30%。如图所示,仅当启用了协同感知时,才能可视化消防车后方来车的边界框。然而,在未启用协同感知的情况下,自车只能在来车从消防车后方进入其视野时才检测到,而此时自车已无法及时刹车。图中的第三行和第四行则突出显示了传输延迟和错误的影响,分别导致边界框位置偏离真实位置和部分边界框帧的丢失。
我们在更多场景和不同实验设置下测试了协同感知的性能,其结果如上表所示。很显然,协同感知能有效提高自动驾驶系统的安全性,而通信延迟和错误将降低整体性能。
3)目标检测任务
为了进一步验证协同感知在不同任务中的性能,我们设计了目标检测任务。在这些场景中,自车分别在观测车辆和 RSU 的帮助下,在路口实时检测繁忙交通中的车辆。检测到的车辆数量作为评估性能的重要指标,该指标将受到有限视角和检测范围的限制。
如上图所示,未启用协同感知时,由于周围车辆遮挡,自车的感知范围受限。当启用协同感知时,观测车辆和 RSU 分享感知信息以扩展感知范围,从而显著增加了检测到的车辆数量。此外,由于目标检测并非总是稳定的,来自多个来源对同一目标的冗余检测提高了感知的鲁棒性。因此,协同感知在城区复杂交通环境下大幅提升了车辆的感知能力。
#Balanced 3DGS
性能提升7.5倍!英伟达Balanced 3DGS完美解决负载问题训练负载不平衡
3DGS是一项创新的3D图形技术,虽然这项技术具有巨大的潜力,但也面临着显著的计算挑战,因此优化显得尤为重要。为了提升3DGS的性能,目前主要探索了两种优化策略。
- 第一种策略着眼于算法本身的修改,以实现更高的精度、更少的存储需求或更高的计算效率。
- 第二种策略则不改变算法本身,而是通过各种方法提升原始算法的计算效率,例如智能任务调度或CUDA内核的优化。
尽管3DGS技术取得了很大的进步,训练3DGS模型仍然是一项充满挑战且耗时的任务,尤其是在负载不平衡的情况下。当像素和高斯球之间的工作负载不均衡时,会影响训练性能。具体来说,图形处理器(GPU)设计用于处理规则且同质化的任务,并以SIMT(单指令多线程)方式运行。因此,当像素和高斯球之间的工作负载存在差异时,一些线程会处于活动状态,而另一些线程则会处于空闲状态,从而降低整体性能。据我们所知,目前尚无研究在内核层面解决这些不平衡问题。
在对3DGS训练过程进行深入分析和实验的基础上,我们确定并归纳了三种显著的负载不平衡问题:
- CUDA静态分配导致的流处理器(SM)负载不平衡:如果使用静态分配方法,在不同的SM之间会出现负载不平衡问题。尽管在不同的SM之间线程块任务的数量相同,但每个线程块的工作负载可能会有很大的差异。这是一个被忽视的性能因素,导致了SM之间的负载不均衡。
- 分块中的负载不平衡:在3DGS中,为避免每个像素派生高斯球的计算成本,图像最初被划分为多个不重叠的分块。每个分块包含16×16个像素。然而,如果基本的CUDA分配和分块策略保持不变,一些分块可能会拥有极大的工作负载,而其他分块的工作负载则很轻,从而导致SM之间出现严重的负载不平衡。
- 训练阶段的负载不平衡:在3DGS训练过程中,不同阶段的数据特性会发生显著变化。在初始阶段,像高斯分布这样的度量在不同块或线程之间存在显著差异。随着训练的进行,这些不平衡随着数据特性的变化而改善。在经过多次迭代后,极端的数据特性变得更加平衡。
Balanced 3DGS[1]其亮点包括:
- 首次提出了基于高斯的并行负载均衡方法,以优化Warp内正向计算的CUDA渲染内核。
- 此外,创新性地提出了块间动态工作负载分配技术,通过在计算块之间均匀分配任务,最大限度地减少线程的空闲时间并最大化资源利用率。
- 精细化组合负载均衡方法结合了这两种技术,提供了一个完整的负载不平衡问题解决方案。
- 提出了一种基于实验的自适应内核选择策略。这种策略克服了手动选择度量标准的局限性,能够更准确地反映训练过程的实际情况,并确保更好的性能和效率。
具体方法
为了应对在流处理器 (SM)、图像分块以及训练阶段中提到的负载不平衡问题,我们提出了 Balanced 3DGS,这是一种基于高斯的并行渲染与精细化分块的方法,专注于3DGS训练中的负载均衡。该方法的关键在于如何在不同的SM之间调度工作负载,考虑高斯在不同图像分块中的分布不均,从而在高斯渲染中实现最佳利用率。值得注意的是,这种解决方案不会导致精度损失。
块间动态工作负载分配
如果图像分块被静态方法映射到线程块(SM),不同图像分块中的高斯数量分布不均将导致严重的负载不平衡:某些线程块将较早完成其任务,而必须等待负载最重线程块完成,这会引发明显的整体性能下降和计算资源浪费。
静态分配中,线程块按固定顺序处理分块,高斯数量的差异会导致负载不平衡。
为了解决这个问题,我们使用一种动态任务映射(分配)方法:
- 将所有分块的任务收集到一个任务池中;
- 每个线程块会先获取一个初始任务;
- 一旦线程块完成其当前工作,它会立即从任务池中获取下一个分块并运行;
- 所有任务以这种动态方法被线程块获取(见算法1)。
通过这种方式,某些线程块可以集中处理少量高负载分块,而其他线程块可以处理许多低负载分块,从而避免由于工作负载分配不平衡造成的SM空闲。图2展示了静态和动态工作负载分配的SM工作负载差异。
SM执行顺序中,动态分配通过任务池均匀分配工作负载,解决分块负载差异问题。
动态分配的具体实现通过以下步骤完成:
- 首先,在任务池中初始化所有分块;
- 每个线程块从任务池中取出一个任务开始处理;
- 如果线程块完成了任务,它会返回任务池并获取下一个分块;
- 任务分配逻辑使用原子操作以确保线程间的任务调度不会冲突。
算法1展示了具体的实现细节,包括线程块如何动态获取任务以及如何同步任务状态。
这种动态分配策略显著提高了GPU资源的利用率,最大化了计算效率,尤其是在负载差异较大的场景中。
基于高斯的并行渲染
当前,一个线程负责处理一个像素的工作负载。传统的渲染内核采用像素级并行方式,同时串行处理高斯。然而,即使在同一个图像分块内,像素共享同一组高斯,不同像素的实际工作负载可能差异很大。因为,如果某些像素在特定高斯的渲染过程中完成了计算,它们不需要遍历剩余的高斯,这种情况称为“提前停止”(early stop)。提前停止可能导致分块内像素之间的工作负载差异显著。因此,简单地将像素映射到线程会导致 Warp 内线程负载不均,而 Warp 内线程以 SIMT(单指令多线程)方式运行,这种不均衡会导致性能显著下降。
因此,我们提出了一种 Warp 协作(warp-collaboration)方法:
- Warp 内的所有线程将协作处理单个像素,通过基于高斯的并行方式来避免 Warp 内的工作负载分歧。
- 在这种方法中,传统方法中由一个 Warp 并行处理的 32 个像素将改为串行处理。
- 换句话说,我们用高斯级并行替代了像素级并行,从而减少了 Warp 内的工作负载分歧(见算法2)。
实际上,不同高斯的计算之间存在依赖关系,如公式(4)所示。由于我们以 32 路并行方式处理高斯,因此需要额外执行一次前缀乘积操作,以确保每个高斯能够从其前序高斯中获取所有计算结果。在图3中,展示了 Warp 级像素级并行和 Warp 级高斯级并行的区别。
精细化组合负载均衡
这两种线程块之间和线程之间的负载均衡方法是正交的,我们可以将它们结合起来以实现更好的性能。在此之前,我们发现图像分块的尺寸对负载均衡和整体性能有显著影响。“分块尺寸”指分配给单个线程块的像素数量。
为了分析分块尺寸对性能的影响,我们使用了 A100 GPU 进行实验。假设一个线程块包含 128 个线程以简化分析。A100 具有 108 个流处理器(SM),每个流处理器可以同时调度 64 个 Warp(或 16 个线程块,每个线程块包含 4 个 Warp)。因此,一个波次可以包含多达 16 × 108 = 1728 个线程块。
在原始方法中,一个线程块处理一个 16×8 像素大小的分块。考虑到图像尺寸为 960×540 像素,我们可以发射 ⌈960/16⌉ × ⌈540/8⌉ = 4080 个线程块,这意味着渲染内核中只有 4080/1728 ≈ 2.36 个波次。在这种情况下,分块之间的负载不平衡可能会非常显著。我们需要更多的波次,以确保轻负载分块的工作量能够积累并与极重负载的分块相当。
解决方案:减小分块尺寸
为了解决上述问题,我们使用更小的分块尺寸分配给每个线程块(参见算法 3)。具体来说:
- 渲染内核中的初始分块尺寸和线程块内的线程大小仍保持为 16×8。
- 但是,我们将每个线程块处理的分块从 128 像素的分块减少到仅 4 像素的分块。
这样:
- 可分配的任务组数量增加了 32 倍(参见算法 3 第 23 行)。
- 分块之间的负载均衡变得更加可行。
在原始渲染内核中,128 像素的分块只需要将高斯数据加载到共享内存一次;而现在,由于每个线程块只处理 4 个像素,高斯数据需要多次加载到共享内存(参见算法 3 第 13 行)。显然,分块尺寸是负载均衡和内存访问效率之间的权衡。
性能优势
尽管更小的分块尺寸会显著增加内存访问的开销,但我们的实验结果(见图 5,高斯分布)表明,解决负载不平衡问题能带来更大的性能提升。
通过减小线程块的任务分配尺寸,我们能够直接结合介绍的两种负载均衡方法。图 4 展示了我们的组合负载均衡方法。
自适应内核选择策略
3D高斯分割模型训练的初始数据主要来自于处理过的LiDAR稀疏SfM点云数据。在训练的不同阶段,数据特性变化显著。分块中的高斯数量是负载平衡的关键指标。图5显示了随着训练的进行,每个块/线程中的高斯分布如何变化。
在训练开始时,不同块/线程中的高斯数量差异很大。一些极端负载的块/线程如果未能被适当处理,可能会导致显著的性能下降。在这种情况下,我们应使用提出的组合负载平衡优化方法。
然而,随着训练的进行,高斯数量的不平衡逐渐改善。从图5可以看到,经过若干次训练迭代后,最大高斯数量显著减少,其分布变得更加集中。在这种情况下,继续使用我们的负载平衡优化不会带来显著的性能提升;此外,正如上文所述,我们的优化可能会引入额外的开销。基于这些观察,当数据已经达到良好的平衡状态时,我们应放弃这些优化。
自然地,如何判断数据是否已经达到良好的平衡状态,并据此选择最佳内核,是实现最佳性能的关键。
与传统神经网络训练不同,固定的渲染内核无法在3DGS训练过程中保证负载均衡,因此需要基于实验的自适应内核选择策略。此策略可以避免手动选择度量平衡的指标,并能更好地反映实际情况。
图6展示了我们的训练过程:
- 我们从负载平衡优化内核开始训练。
- 每1000次迭代后,我们分别运行两种内核,并与当前数据单独比较其性能。
- 如果负载平衡优化内核的性能较差,我们假定数据已经达到良好的平衡状态。因此,剩余的训练将使用原始内核。
- 对于原始内核,我们还进行了某些内存访问优化,如第5.2.2节所述。具体来说,将特征和深度存储在共享内存中。尽管这种优化在训练初期因内存访问占比较小而效果不显著,但随着训练的进行,负载逐渐平衡,其效果会变得更加明显。
实验效果
总结一下
Balanced 3DGS是一种在3DGS训练过程中采用基于高斯的并行渲染和精细化分块的方法,完美解决了负载不平衡问题。在负载不平衡的场景中,通过块间动态工作负载分配、基于高斯的并行渲染和精细化组合负载均衡技术,可显著增强正向渲染CUDA内核的性能。同时,3DGS在训练过程中能够根据不同的负载平衡情况自适应选择最佳的渲染CUDA内核,从而有效提高训练效率。
#DrivingWorld
最近自回归(AR)生成模型的成功,如自然语言处理中的GPT系列,促使人们努力在视觉任务中复制这一成功。一些工作试图通过构建能够生成逼真的未来视频序列和预测自车状态的基于视频的世界模型,将这种方法扩展到自动驾驶。然而,先前的工作往往产生不令人满意的结果,因为经典的GPT框架旨在处理1D上下文信息,如文本,并且缺乏对视频生成所必需的空间和时间动态进行建模的固有能力。本文介绍了DrivingWorld,这是一个GPT风格的自动驾驶世界模型,具有多种时空融合机制。这种设计能够有效地对空间和时间动态进行建模,从而促进高保真、长持续时间的视频生成。具体来说,我们提出了一种下一状态预测策略来模拟连续帧之间的时间一致性,并应用下一token预测策略来捕获每个帧内的空间信息。为了进一步提高泛化能力,我们提出了一种新的掩码策略和重新加权策略用于token预测,以缓解长期漂移问题并实现精确控制。我们的工作展示了制作高保真、持续时间超过40秒的一致视频片段的能力,这比最先进的驾驶世界模型长2倍多。实验表明,与先前的工作相比,我们的方法实现了卓越的视觉质量和更精确的可控未来视频生成。
- 开源链接:https://github.com/YvanYin/DrivingWorld
总结来说,本文介绍了DrivingWorld,这是一个基于GPT风格视频生成框架的驾驶世界模型。我们的主要目标是在自回归框架中增强时间一致性的建模,以创建更准确可靠的世界模型。为了实现这一目标,我们的模型结合了三个关键创新:1)时间感知标记化:我们提出了一种时间感知标记器,将视频帧转换为时间相干标记,将未来视频预测的任务重新表述为预测序列中的未来标记。2)混合token预测:我们引入了一种下一状态预测策略来预测连续状态之间的时间一致性,而不是仅仅依赖于下一个token预测策略。之后,应用下一个token预测策略来捕获每个状态内的空间信息。3)长时间可控策略:为了提高鲁棒性,我们在自回归训练过程中实施了随机标记丢弃和平衡注意力策略,从而能够生成具有更精确控制的持续时间更长的视频。DrivingWorld使用AR框架增强了视频生成中的时间连贯性,学习了未来进化的有意义表示。实验表明,所提出的模型具有良好的泛化性能,能够生成超过40秒的视频序列,并提供准确的下一步轨迹预测,保持合理的可控性。
世界模型。世界模型捕捉了环境的全面表示,并根据一系列行动预测了未来的状态。世界模型在游戏和实验室环境中都得到了广泛的探索。Dreamer利用过去的经验训练了一个潜在动力学模型,以预测潜在空间内的状态值和行为。DreamerV2基于最初的Dreamer模型构建,在雅达利游戏中达到了人类水平的性能。DreamerV3使用了更大的网络,并成功地学会了从零开始在Minecraft中获取钻石。DayDreamer扩展了Dreamer,在现实世界中训练了四个机器人,成功地完成了运动和操纵任务。
最近驾驶场景的世界模型在学术界和工业界都引起了极大的关注。之前的大多数工作仅限于模拟器或控制良好的实验室环境。Drive WM使用扩散模型探索了现实世界中的驾驶规划者。GAIA-1基于自回归模型研究了现实世界的驾驶规划者,但GAIA-1具有较大的参数和计算需求,随着条件框架数量的增加而增加。在本文中,我们提出了一个自回归框架下的自动驾驶场景的有效世界模型。
VQVAE。VQVAE通过矢量量化学习离散码本表示,以对图像分布进行建模。VQGAN通过结合LPIPS损失和对抗性PatchGAN损失提高了真实感。MoVQ通过将空间变异信息嵌入量化向量中,解决了VQGAN的空间条件归一化问题。LlamaGen进一步微调了VQGAN,表明较小的码本矢量维数和较大的码本大小可以提高重建性能。虽然基于VQGAN的结构被广泛使用,但一些方法探索了更高效的架构。ViT VQGAN用视觉变换器取代了卷积编码器-解码器,提高了模型捕获长距离依赖关系的能力。VAR采用多尺度结构来预测先前尺度的后续尺度,从而提高了发电质量和速度。然而,这些方法侧重于单一图像处理,阻碍了它们捕获时间一致性。为了解决这个问题,我们提出了一种时间感知标记器和解码器。
视频生成。目前有三种主流的视频生成模型:基于GAN、基于扩散和基于GPT的方法。基于GAN的方法经常面临几个挑战,例如模式崩溃,生成器生成的视频的多样性受到限制。此外,生成器和鉴别器之间的对抗性学习可能会导致训练过程中的不稳定。基于扩散的方法的一个主要问题是它们无法生成精确控制的视频。扩散过程的随机性在每一步都引入了随机性,使得难以对生成内容中的特定属性进行严格控制。另一方面,传统的基于GPT的方法允许一定程度的控制,但它们的计算成本随序列长度呈二次增长,显著影响了模型效率。本文提出了一种解耦的时空世界模型框架,该框架在确保精确控制的同时,显著降低了计算成本,提高了模型效率。
DrivingWorld方法详解
我们提出的世界模型DrivingWorld利用GPT风格的架构高效预测未来状态,能够以10Hz的频率将预测时间延长到40秒以上。该模型旨在理解过去的现实世界状态,并预测未来的视频内容和车辆运动。DrivingWorld专门专注于根据时间1到T的历史状态预测时间T+1的下一个状态,我们可以通过逐一顺序预测未来状态来生成长视频。
如图2所示,我们提出的DrivingWorld不仅可以根据过去的观测结果生成未来状态,还可以通过操纵车辆的位置和方向来支持复杂驾驶场景的可控模拟。
Tokenizer
标记化将连续数据转换为离散标记,从而能够与语言模型和增强的多模态序列建模集成。在我们的方法中,标记器将多模态状态映射到统一的离散空间中,从而实现了精确可控的多模态生成。为了为图像生成时间一致的嵌入,我们提出了一种时间感知的矢量量化标记器。我们提出的车辆姿态标记器将姿态轨迹离散化,并将其整合到我们的DrivingWorld中。
前言:Single Image Vector Quantized Tokenizer。单图像矢量量化(VQ)标记器旨在将图像特征图转换为离散标记q。量化器利用包含K个矢量的学习离散码本,将每个特征f(i,j)映射到Z中最接近代码的索引。这种方法能够将连续图像数据转换为离散token。
时间感知矢量量化标记器。单图像VQ标记器通常难以产生时间一致的嵌入,导致不连续的视频预测,阻碍了世界模型的训练。
为了解决这个问题,我们提出了一种时间感知的矢量量化标记器,旨在确保随时间推移的一致嵌入。具体来说,为了捕捉时间依赖性,我们在VQGAN量化之前和之后都插入了一个self-att,其中注意力沿着时间维度进行操作。这使得我们的模型能够捕捉帧之间的长期时间关系,提高生成序列的连贯性和一致性。我们的模型基于LlammaGen的开源VQGAN实现。我们直接而有效的时间self-att的集成可以无缝地整合到原始框架中,然后进行微调,以开发一个健壮且通用的时间感知VQ标记器。
车辆位姿标记器。为了准确表示车辆的自车状态,包括其方向θ和位置(x,y),我们采用以自车辆为中心的坐标系,如图2所示。我们采用相邻时间步长之间的相对姿态,而不是全局姿态。这是因为在长期序列中,由于绝对姿态值的增加,全球姿态带来了重大挑战。这种增长使得归一化变得困难,并降低了模型的鲁棒性。随着序列变长,管理这些大的姿势值变得越来越困难,阻碍了有效的长期视频生成。
世界模型旨在理解过去的状态输入,模拟现实世界的动态,并预测未来的状态。在我们的背景下,它预测了即将到来的驾驶场景,并规划了可行的未来轨迹。为此,世界模型将历史状态标记连接成一个长序列,其中2D图像标记以锯齿形顺序展开为1D形式。因此,目标是预测下一个状态。基于过去的观测序列,捕捉时间和多模态依赖关系。请注意,来自不同模态的所有离散token在被馈送到世界模型之前,都由其各自的可学习嵌入层映射到共享的潜在空间中。所有后续过程都在这个潜在空间内进行。
前言:下一个token预测。一种直接的方法是使用GPT-2结构进行1D顺序下一个token预测。图3(a)显示了一个简化示例。因果注意被应用于下一个token预测,T+1中的第i个token被建模为:
因此我们提出了一种下一状态预测管道,它由两个模块组成:一个集成时间和多模态信息以生成下一状态特征(即时间多模态融合模块),另一个是自回归模块(即内部状态自回归模块)以生成高质量的内部状态token。时间多模态融合模块。我们的时间多模态模块由一个单独的时间层和一个多模态层组成。这将时间和多模态信息的处理解耦,从而提高了训练和推理速度,同时也降低了GPU内存消耗。如图3(b)所示,我们建议在时间转换层Fa(·)中使用因果注意力掩码,其中每个token只关注自身和所有先前帧中相同顺序位置的token,充分利用时间信息。
在多模态信息融合层Fb(·)中,我们在同一帧中采用双向掩码,旨在充分整合内部状态多模态信息,并促进模态之间的交互。每个token处理来自同一时间步的其他token:
内部状态自回归模块。在时间多模态模块之后,我们获得了用于未来帧状态预测的特征。一种天真的方法是同时预测下一个状态tokenht。最近,多图像生成工作提出,用于下一个token预测的自回归流水线可以生成更好的图像,甚至优于扩散方法。受此启发,我们提出了一个内部状态自回归模块来生成下一时间步的姿势和图像(见图3(b))。
然后,它们被输入到内部状态自回归Transformer层Fc(·)。因果掩码在这些层中使用,因此每个token只能出席自己并前缀内部状态token。自回归过程如方程式6所示。由于我们的管道同时包含了下一个状态预测和下一个内部状态token预测,我们在训练中实施了两种教师强制策略,即一种用于帧级别,另一种用于内部状态级别。
训练损失交叉熵:
使用世界模型预测下一个状态标记,然后我们可以利用解码器为该状态生成相应的相对方向、相对位置和重建图像。这个过程使我们能够将预测的潜在表示映射回物理输出,包括空间和视觉数据。
Vehicle Pose Decoder:
Temporal-aware Decoder:
Token Dropout实现无漂移自动回归。在训练过程中,世界模型使用过去的地面真实token作为条件来预测下一个token。然而,在推理过程中,模型必须依赖于先前生成的表征进行调节,这可能包含缺陷。仅使用完美的GT图像进行训练可能会在推理过程中导致内容漂移问题,导致生成的输出迅速退化并最终失败。为了解决这个问题,我们提出了一种随机掩蔽策略(RMS),其中一些来自地面真实token的token被随机丢弃。每个标记有50%的机会被该帧中的另一个随机标记替换,并且这种丢失以30%的概率应用于整个调节图像序列。如图4所示,这种dropout策略显著缓解了推理过程中的漂移问题。
平衡注意力实现精确控制。世界模型利用广泛的注意力操作在代币之间交换和融合信息。然而,每个前视图图像被离散化为512个标记,而只有2个标记表示姿势(方向和位置)。这种不平衡会导致模型忽略姿态信号,导致可控生成不令人满意。为了解决这个问题,我们提出了一种平衡的注意力操作,通过在注意力机制中优先考虑自车状态标记,而不是平等地关注所有标记,来实现更精确的控制。具体来说,我们手动增加注意力图中方向和位置标记的权重(在softmax层之前),分别为这些标记添加0.4和0.2的恒定权重。此外,我们结合了QK范数和2D旋转位置编码,以进一步稳定训练并提高性能。
实验结果
总之,DrivingWorld通过利用GPT风格的框架来生成更长、高保真的视频预测,并提高了泛化能力,从而解决了以前自动驾驶视频生成模型的局限性。与在长序列中难以保持连贯性或严重依赖标记数据的传统方法不同,DrivingWorld生成了逼真、结构化的视频序列,同时实现了精确的动作控制。与经典的GPT结构相比,我们提出的时空GPT结构采用了下一状态预测策略来模拟连续帧之间的时间一致性,然后应用下一token预测策略来捕获每个帧内的空间信息。展望未来,我们计划整合更多的多模态信息,并整合多视图输入。通过融合来自不同模态和视角的数据,我们的目标是提高动作控制和视频生成的准确性,增强模型理解复杂驾驶环境的能力,并进一步提高自动驾驶系统的整体性能和可靠性。
#CoSurfGS
3DGS的出现显著地革新了新视角合成(Novel View Synthesis, NVS),在训练和渲染速度以及高保真度方面都取得了显著的进步。这项技术迅速被采用为各种任务的通用3D表示形式,包括3D场景感知、动态场景重建、同步定位与建图(SLAM)、3D生成与编辑等。
然而,由于3D高斯的多视图不一致性,3DGS在精确表示3D表面方面存在困难,从而限制了其在自动驾驶和城市规划等领域的应用。为了解决这一问题,近年来一些研究通过将3D高斯展平为定向椭圆盘并添加多视图几何约束,将3DGS扩展到表面重建。然而,在实际大规模场景中,这些方法不可避免地导致低几何精度、高内存成本以及过多的时间消耗。
为了应对这些问题,设计了一个全新的框架,称为CoSurfGS[1],专注于大规模表面重建。在以下三个方面进行了优化:
- 高质量表面:在大规模场景中实现高质量表面重建是一个挑战,因为单一的全局模型难以捕获场景结构的所有几何细节。为此,我们将表面几何优化问题从直接的全局场景优化转化为从局部区域到全局场景的渐进式过程。对于每个局部区域的表面几何优化,我们引入了单视图几何约束和多视图几何约束以获得局部3DGS模型。然后,为了逐步将局部区域的表面结构聚合到全局场景中,我们设计了一个模型聚合方案(MAS),该方案采用自知识蒸馏机制,以保持每个局部区域的关键结构并对齐相邻共视区域的表面几何。这两个步骤是实现大规模场景高质量表面的关键。
- 低内存成本:在大规模场景的表面重建中,内存成本是另一个关键问题。为了解决这一问题,我们在聚合到全局场景之前,对每个局部模型采用局部模型压缩(LMC)。这一策略基于一个发现,即在大多数情况下,局部模型之间会存在重叠区域,并包含许多冗余的高斯点。为减少这些冗余,我们定义了优先级分数,用于筛选缺乏多视图一致性且不透明度较低的高斯点。
- 高速训练:除了内存成本之外,大规模场景重建的时间消耗也是一个难以忍受的问题。因此,加速整个训练过程具有重要意义。在我们的框架中,这一问题通过建立分布式框架得以解决,该框架允许设备之间进行并行的3DGS初始化和训练,从而显著减少了数据传输引起的延迟。此外,MAS和LMC的设计还能进一步加速全局模型的最终训练速度。
项目链接:https://gyy456.github.io/CoSurfGS/
在两个数据集上进行了定量和定性评估。大量实验结果突出了我们方法的优越渲染质量和令人印象深刻的表面重建性能。我们的主要贡献包括:
- 提出了一种基于分布式学习的大规模表面重建协作方法,大幅减少了训练时间。
- 提出了局部模型压缩(LMC)和模型聚合方案(MAS),以实现更低GPU内存消耗的高质量全局场景表面表示。
- 综合实验表明,该方法在表面重建方面达到了最先进的性能,超越了现有的所有方法。同时,在新视角合成方面也提供了具有竞争力的结果。此外,与现有所有方法相比,CoSurfGS显著减少了训练时间和内存成本。
框架采用“设备-边缘-云”的架构,以实现分布式表面重建。在实践中,每个设备(如无人机)会捕获一定数量的图像,并训练一个高斯模型 (Gd_{i,j}),其中 (i) 和 (j) 分别表示第 (j) 个边缘中的第 (i) 个设备,(i \in [1, M], j \in [1, N])。随后,会执行设备到边缘的聚合过程,将 (M) 个附近设备的模型聚合到第 (j) 个边缘高斯模型中,表示如下:
其中,(f_{LMC}) 表示局部模型压缩过程,(f_{MAS}) 用于将设备的局部模型上传至边缘服务器并进行聚合,以获得第 (j) 个边缘模型 (Ge_j)。
采用相同的策略,我们将 (f_{MAS}) 和 (f_{LMC}) 应用于边缘-云聚合过程,用于大规模场景的分布式重建。最终公式如下:
通过仅上传高斯模型而非原始图像,该框架能够有效保护每个设备的隐私。从公式(4)和公式(5)可以看出,这两个过程都涉及从局部到全局的过渡。因此,在后续部分中,我们将设备-边缘或边缘-云聚合过程的输入称为局部模型 (Gl),输出称为全局模型 (Gg)。
针对第 (i) 个设备,受PGSR的启发,为了将3D高斯转化为2D平面表示,从而准确表示实际场景的几何表面,我们直接最小化每个高斯的最小缩放因子 (S_i = \text{diag}(s_1, s_2, s_3)):。
在早期的学习阶段(即前 (τ) 次训练迭代中),我们仅专注于图像重建损失,采用原始3DGS的损失函数 (L_{3DGS}(I, I_{gt}) = (1 - \lambda)|I - I_{gt}|1 + \lambda L{SSIM}(I - I_{gt})) 和尺度损失 (L_s)。因此,第一阶段的损失函数为:。
在第一阶段训练后,我们进一步在训练过程中引入PGSR的几何约束。使用的损失函数包含两个部分:单视图几何损失 (L_{svg}) 和多视图几何损失 (L_{mvg})。最终损失函数 (L) 表示为:
考虑到突然添加几何损失可能导致模型难以收敛并影响渲染质量,我们采用了平滑权重策略,逐步增加训练迭代过程中几何损失的权重,其中几何权重 (\lambda_i^{(t)}) 定义为:
其中 (t) 是训练迭代的索引,(T) 表示最大训练迭代次数,(\beta_i) 是超参数。
在上述训练过程中,高斯模型通过密化将会变得越来越大。尽管密化过程显著提高了渲染性能,但也会大幅增加高斯点的冗余以及内存成本。为此,我们采用了一种自适应高斯修剪(AGP)策略,以减少过参数化的高斯点数量,同时保留原始的准确性。具体来说,对于每个高斯点 (G_k = (x_k, \Sigma_k, S_k, \alpha_k), G_k \in G_d),我们将优先级分数 (S_{pro, k}) 与高斯点投影到图像平面视野的频率相关联:
其中 (M, H, W) 分别表示图像的数量、高度和宽度;(\mathbb{I}(\cdot, \cdot)) 是指示函数,用于确定某个高斯点是否与给定像素的光线相交;(\gamma(\Sigma)) 用于自适应衡量其体积维度,通过对所有排序后的高斯点的前90%进行归一化并限制范围为0到1。
通过公式(10)获得的优先级分数越高,表明该高斯点可以投影到许多图像平面上,且具有较大的尺寸和较高的不透明度;优先级较低的分数则表明其位于场景边界区域,缺乏多视图一致性且尺寸较小、不透明度较低。因此,我们可以通过引入超参数 (\phi) 轻松修剪高斯点。
局部模型压缩
为了减轻边缘或云端的GPU消耗,并在有限的训练周期内让全局模型更好地优化,有必要在将局部模型传输到边缘或云端之前减少其点冗余,特别是在靠近其他局部模型的区域。此外,由于局部模型训练的冗余高斯点缺乏多视图一致性,其几何表示通常不够准确,这会导致某些区域的几何模糊和不一致。
为了解决这些问题,我们提出了局部模型压缩模块 (f_{LMC}),将局部模型 (Gl) 压缩为 (\hat{G}_l)。在融合之前,为了精确移除冗余点,我们建立了一个修剪比例 (\Psi),该比例由局部模型与全局模型相机视角重叠的比例决定:,
其中 (C_l = {K^l_k, E^l_k}),(C_g = {K^g_k, E^g_k}) 分别表示局部模型和全局模型的相机集合,(K^l_k)、(E^l_k) 分别为相机的内参和外参矩阵。
我们利用公式(10)计算在与全局模型视角不重叠的局部模型相机视角下,高斯点的优先级排序:,
然后移除优先级分数最低的高斯点,比例由 (\Psi) 决定。
通过这种方式,局部模型中的冗余点可以被有效压缩,从而减少传输到边缘或云端的数据量,降低训练过程中的内存占用,并提高全局模型优化的效率。
模型聚合方案
为了将局部模型 聚合成全局模型 ,一种直观的想法是直接合并所有局部模型的高斯点:
然而,这种策略会在局部模型之间的边界区域引入明显的模糊。
以往的集中式方法通过两步优化解决了这一问题:扩展每个局部模型的训练区域,并在边界处修剪和合并模型。然而,扩展训练区域会增加训练时间和设备的计算资源消耗。此外,为扩展而收集相邻区域的图像可能会侵犯相邻设备的隐私。
为了解决边界模糊问题而不增加计算成本,我们采用了一种基于分布式学习的自蒸馏机制,以优化全局模型。首先,每个局部模型将其压缩模型 及其对应的相机 上传至全局服务器,用于初始化全局模型 。为了尽可能保持渲染质量和表面几何的准确性,我们将局部模型作为教师模型,利用其RGB、法向量和深度图来监督和优化全局模型 。由于高斯点已经足够密集,我们不再执行密化操作。全局模型 的优化公式为:
其中 表示RGB、深度和法向图的渲染过程。与设备端训练类似,我们使用尺度损失 和单视图几何损失 来组成 ,以保持高斯点的平面特性和单图像的几何一致性。此外,我们进一步引入深度损失 和法向损失 ,用于约束大规模场景表面的深度和法向一致性,定义如下:
其中 是局部模型渲染的深度图和法向图, 是全局模型渲染的深度图和法向图。
优化完成后,我们根据高斯点的不透明度和尺寸修剪冗余高斯点,从而得到一个优化后的全局模型
实验效果
CoSurfGS是一种“设备-边缘-云”框架,以实现分布式表面重建。针对设备-边缘和边缘-云聚合过程,所提出的LMC模块可以消除局部模型之间的冗余高斯点,而MAS模块有助于优化合并的全局模型。在UrbanScene3D、MegaNeRF和BlendedMVS数据集上的大量实验表明,该方法在表面重建精度、时间消耗和内存成本方面均达到了最高水平,同时渲染质量与当前最先进的方法相当。