#Text2LiDAR

文本引导的无条件点云生成新SOTA

论文题目:《Text2LiDAR: Text-guided LiDAR Point Cloud Generation via Equirectangular Transformer》  
论文地址:https://arxiv.org/pdf/2407.19628  
代码地址:https://github.com/wuyang98/Text2LiDAR

一句话概括

本文探索了一种文本引导激光雷达点云生成的Transformer框架,以序列到序列的方式,利用等距圆柱投影注意力机制在KITTI-360和nuScenes数据集上取得了优异的无条件生成和文本引导生成点云结果。

51c自动驾驶~合集14_自动驾驶

图1 本文方法与此前方法概要对比,(a)为此前以U-Net为代表的卷积框架,缺乏对等距圆柱投影图像的适配也不利于可控性拓展;(b)为我们提出的Transformer框架,适配等距圆柱投影图像的同时便利了控制信号的嵌入

摘要

复杂的交通环境和多变的天气条件使得激光雷达数据的收集既昂贵又困难。实现高质量、可控的激光雷达数据生成十分有必要,而对文本控制的激光雷达点云生成的研究仍然不足。为此,本文提出了Text2LiDAR,这是第一个高效、多样化且可通过文本控制的激光雷达数据生成框架。为了提升文本控制生成性能,本文构建了nuLiDARtext,它为850个场景中的34,149个激光雷达点云提供了多样化的文本描述符。在KITTI-360和nuScenes数据集上的实验展示了本文方法的优越性。

背景

1.为什么需要生成激光雷达数据?

  1. 本领域中激光雷达点云数据怎么表示?

51c自动驾驶~合集14_自动驾驶_02

3. 实现文本引导生成激光雷达点云主要面临两项挑战

(1)目前本领域没有专门为等距圆柱投影图像和文本设计的生成框架。与目标级别的点云不同,户外的激光雷达点云更加的不规则和稀疏。在涉及到自动驾驶场景的激光雷达点云处理时,相关工作[1,2,3]往往会将激光雷达点云投影为等距圆柱投影图像以缓解激光雷达点云的不规则性和稀疏性。在此基础上,Nakashima等人[4,5]将真实数据中的激光点的缺失现象纳入考虑,并设计了GAN网络来生成数据。为了进一步提升生成数据的真实性,如图1(a)所示,LiDARGen[6]和R2DM[7]设计了以U-Net去噪结构的扩散模型,然而在卷积方框中提取特征的方式破坏了等距圆柱投影图像的环形结构,稀释了像素间的关联。同时,卷积框架的可拓展性有限,在适配来自不同模态的控制型号时,很不方便且效率低下。此外,一些现有的方法也忽视了等距矩形投影图像中的高频信息与点云目标结构之间的对应关系。这些都促使我们去探索一个统一的可控生成结构,使其能与等距矩形投影图像和多模态信号兼容。

(3)现有的数据集没有提供高质量的文本-激光雷达点云数据对[8, 9, 10, 11]。高质量的文本描述词不仅需要描述激光雷达点云中存在的目标,更需要描述天气、光照、环境结构等关键信息,这些辅助信息的利用可以明显的提升点云生成的质量,如图1(b)所示,这些信息共同构成了一帧相对完善的自动驾驶场景的激光雷达点云数据。如何构建高质量的文本-单帧激光雷达点云数据也是一个需要解决的问题。

方法

51c自动驾驶~合集14_自动驾驶_03

图2 本文方法流程

为了解决以上提到的两项挑战,我们提出了Text2LiDAR,这是一个Transformer结构,可以更好地适配等距圆柱投影图像的环状特性,保持任意像素点之间的关联性。得益于序列到序列的特征处理方式,Text2LiDAR可以很便捷地增删多模态控制型号。此外,本文构建的nuLiDARtext在nuScenes的基础上为激光雷达点云提供了丰富且合理的文本描述词,可以更好地促进文本控制的激光雷达点云生成。

如图2所示,我们的Text2LiDAR具体计算流程如下:
首先,我们对正常激光雷达点云添加噪声得到了扰动的雷达点云(Perturbed LiDAR)输入,然后将其送进等距圆柱投影Transformer中进行无条件的噪声预测或在文本信息引导下的噪声预测,经过处理后的输出特征再送入频率调制器(Frequnency Modulator)用于自适应频率调制,最后输出就得到了预测噪声(predicted noise)。在数据生成时,我们可以通过对纯噪声的逐步去噪得到了我们最后生成的雷达点云图。

接下来,我们分别介绍流程中关键的四个组成部分:

1. 等距圆柱投影Transformer (Equirectangular Transformer Network)

51c自动驾驶~合集14_自动驾驶_04

图3 等距圆柱投影Transformer结构图

在此部分本文设计了如图3所示的等距圆柱投影注意力(EA)适配等距圆柱投影图像。首先,本文利用自注意力适应等距圆柱投影无边界的特性。其次,本文利用傅里叶特征,并将高度角和方位角扩展为二的幂的频率分量。这保留了3D先验,同时放大了邻近位置之间的差异,有助于模型更好地学习。接着,本文使用相互重叠的展开方式,将输入序列在不同阶段切割成不同尺度,强化局部建模,这个过程可以表述为:

51c自动驾驶~合集14_自动驾驶_05

在解码部分,本文设计了反向等距圆柱投影注意力(REA)进行上采样,允许持续捕捉全局到局部的关系。为了更好地恢复对象细节,本文引入了编码阶段的特征。同时,为了增强嵌入对模型的引导,本文在每个上采样阶段使用设计好的控制信号嵌入注入器(CEI)来提供控制。通过四个阶段的上采样,本文可以将标记序列上采样到高分辨率,与输入尺寸相匹配。
这个过程可以写成:

51c自动驾驶~合集14_自动驾驶_06

其中,是文本嵌入向量,是时间步嵌入向量。

2. 控制信号注入器(Control-signal Embedding Injector)

51c自动驾驶~合集14_自动驾驶_07

图4 控制信号注入器结构图

51c自动驾驶~合集14_自动驾驶_08

3. 频率调制器(Frequency Modulator)

51c自动驾驶~合集14_自动驾驶_09

图5 频率调制器结构图

扩散模型总是倾向于首先恢复低频信息,然后逐渐恢复高频信息,本文设计了一个频率调制器(FM),允许模型自适应地专注于高频信息。其过程主要包含离散小波变换(DWT)、由卷积组成的频率门控函数(FG)和逆离散小波变换(IDWT),可以描述为:

51c自动驾驶~合集14_自动驾驶_10

4. 构建nuLiDARtext

51c自动驾驶~合集14_自动驾驶_11

图6 nuLiDARtext中描述词的出现频次

nuScenes数据集中的文本描述旨在描述短时间内的场景,并没有特别为激光雷达数据配对。为了节省资源和成本,本文在现有的nuScenes数据集上构建了适用于单帧激光雷达点云生成的文本描述词,描述词的出现频次如图6所示,通过提供路况、光照、天气等更全面的描述词,文本才能更准确地描述出一帧自动驾驶场景的激光雷达点云数据,从而引导更符合实际的数据生成。

实验结果

在无条件生成时,本文方法与当前领先的方法就行了对比,展现了优异的性能:

51c自动驾驶~合集14_自动驾驶_12

表1 本方法与先进方法无条件生成结果在四个指标上的对比

本文方法在激光雷达点云稠密化任务上也能取得不错的效果,针对远处的小目标的补全效果更佳:

51c自动驾驶~合集14_自动驾驶_13

图7 本方法与先进方法的点云稠密化可视化对比

在文本控制激光雷达点云生成时,也有有趣的结果,除了对大目标和小目标有一定的区分能力,本文方法可以很好地生成受天气影响时的针对性数据,例如雨天激光雷达光束随着距离增加逐步丢失的特性得到了很好地体现,在图9中对雨天数据生成进行了更多展示。

51c自动驾驶~合集14_自动驾驶_14

图8 本方法文本引导的生成结果可视化展示

51c自动驾驶~合集14_自动驾驶_15

图9 本方法文本引导的雨天场景生成结果可视化展示

自动驾驶视觉相关 开发板商城 天皓智联 TB上有视觉设备哦 支持AI相关~ 大模型相关也可用~



#智能驾驶域控制器

汽车智能驾驶功能持续高速渗透,带来智能驾驶域控制器市场空间快速增 长。智驾域控制器是智能驾驶决策环节的重要零部件,主要功能为处理感知 信息、进行规划决策等。其核心部件主要为计算芯片,英伟达、地平线等芯 片厂商市场地位突出。随着消费者对智能驾驶功能需求的不断提升,基础L2 功能成本下探,中低算力方案搭载率快速增长;头部厂商智驾水平持续提升, 城市NOA覆盖范围扩大,高算力域控产品需求同样旺盛。BEV+Transformer 的广泛应用也使得智驾域控的算力提升和结构变化。

智能驾驶功能渗透率快速提升。智能驾驶功能渗透率仍处于较低位置, 提升空间较大。随着技术快速成熟、产品价格逐渐下降及用户智能化体 验需求的不断提升,智能驾驶功能正逐渐从豪华车向中低端车型发展, 渗透率快速提升。智驾功能的性能和搭载率的提升将带动智驾域控制器 的需求快速增长。 智能驾驶域控制器为整车计算中心。智驾域控制器主要包括计算芯片、 Safety MCU、存储芯片及其他无源器件等。其中计算芯片主要用来进行 摄像头图像处理、运行深度学习算法、输出识别结果、进行传感器融合 和轨迹预测等功能,是决定智驾域控性能的核心部件。智能驾驶芯片具 有较高的技术壁垒,现阶段市场高端芯片以英伟达、华为为主,中低端 芯片厂商较多,主要包括地平线、Mobileye、TI、黑芝麻智能等。各主要 芯片厂商积极拓宽产品矩阵,国产芯片市占率持续提升。与主要芯片厂 商建立稳定的合作开发关系的智驾域控供应商有望受益。

芯片开发和生产制造能力仍为核心竞争力。随着BEV+Transformer 的应 用,智驾功能对车端算力要求更高,加上城市NOA及后续L3功能的搭 载,高算力芯片仍为头部主机厂中高端车型首选方案。智驾域控仍以国 内Tier 1 厂商为主,虽然头部主机厂自研域控意愿较强,但受限于相关研 发积累、资金限制及自身销量等问题,自研难度大、成本高,不一定有 足够的销量来摊薄前期研发成本。目前L2及以上智驾域控以国内厂商为 主,产品布局全面、芯片开发设计实力强、量产制造能力丰富、出货量 较大的供应商具备一定竞争优势。

L2 级智能驾驶功能渗透率快速提升

L2 级智能驾驶功能渗透率快速提升 2021 年8月,工信部提出《汽车驾驶自动化分级》推荐性国家标准。《标准》按“是否存在设计运 行范围限制”等六要素对驾驶自动化等级进行划分。其中L2级自动驾驶关键配置有ACC自适应巡 航、AEB 主动刹车、LKA车道保持等,实现一定程度上的车辆主动控制。L3级自动化系统应该具 备在其设计运行条件下持续地执行全部动态驾驶任务的能力。由于L2至L3的跨度过大,经历时间 较长,业内为区分不同系统的智能化程度,额外划分出L2+级别,主要包括NOA等功能,可实现高 主动的辅助驾驶功能,但仍需驾驶员监督。

国标驾驶自动化等级与划分要素的关系

从功能上看,智能驾驶功能经历从单车道向多车道再向 NOA 发展的过程。

早期辅助驾驶功能集中 在单车道里,以车辆前后的控制为主,重点实现跟车不碰撞、驾驶不偏移等效果,主要功能包括ACC (自适应巡航)、LCC(车道居中控制)、TJA(交通拥堵辅助)、CCS(定速巡航)、AH(自动 驻车)等。随着技术的不断推进,辅助驾驶逐渐开始涉及多车道场景,由系统可以控制车辆进行变 道,主要功能包括 ALC(智能辅助变道)、TJA-ML(多车道交通拥堵辅助)、HWA-ML(多车道 高速驾驶辅助)。近年各企业向点对点控制推进,在选定目的地即可交由辅助驾驶功能进行控制, 主要为高速NOA及城市NOA功能。

智能驾驶功能渗透率仍处于较低位置,提升空间较大。

随着技术逐步走向成熟、产品价格逐渐下降 及用户智能化体验需求的不断提升,智能驾驶功能正逐渐从豪华车向中低端车型发展,渗透率快速 提升。据高工智能汽车数据显示,2023 年 1-6 月中国市场(不含进出口)乘用车前装标配 L2(含 L2+)辅助驾驶功能车型销售324.4万辆,同比增长37.7%,增速维持较高水平。前装标配搭载率为 34.9%,同比提升约8pct。其中,新能源汽车前装标配搭载L2(含L2+)交付新车147.1万辆,同比 增长75.6%,前装标配搭载率为50.4%,同比提升约10pct。智驾功能性能和搭载率的提升将带动智 驾域控制器的增长。拥有智能驾驶功能的车型中以域控架构为主,域控制器作为车端处理感知信息、 进行决策规划的重要零部件,用量有望随着智驾功能渗透率的提升而增长。

NOA功能逐步落地,成为智能化重要发力方向。自动辅助导航驾驶(NOA,Navigate on Autopilot) 主要分为高速NOA和城市NOA两类,在基础L2辅助驾驶功能的基础上,通过与地图导航等功能 结合,实现点到点的辅助驾驶功能。据高工智能汽车数据,2023年1~7月前装标配NOA车型交付 量26.3 万辆,同比增长120.4%。高速NOA为当前主机厂智驾推进目标之一。高速NOA场景相对简单,路况、标志和标记的图像相 对标准,相比城市NOA场景更为简单,推出进度相对更早。早期高速NOA融合高精地图,在部分 高速公路或高架等封闭路段行驶时,可以让车辆实现自动变道、自动进入和驶出匝道口的技术功能。但上下匝道需要高精地图和高精定位模块,成本较高。随着车企成本压力增加,高速NOA或将向简 化版方案发展,即舍弃上下匝道功能,仅在目标匝道前进行接管提醒,避免错过匝道等问题发生。城市NOA加速落地,覆盖主要行车使用场景,为用户提供从高速到城市的全场景可持续的自动驾驶 功能。早期城市NOA功能普遍使用高精地图,提供更精确的定位服务,但高精地图采集成本高、覆 盖率较低、更新慢,难以满足城市NOA快速大规模的上车需求。随着车端算力及传感器功能迭代升 级,单车感知水平不断提升,大部分厂商通过“轻地图”+单车感知方案,即仅在匝道口等导航地图 难以精确处理的部分做数据强化,实现NOA功能。

城市NOA主要功能

城市NOA功能快速铺开,应用城市逐渐普及。

随着大量车企向BEV+Transformer 的视觉感知路线 转换,逐步降低对地图的依赖,城市NOA功能具备了泛化推广的能力。根据相关公司规划,华为拓 展速度领先,预计在2023年年底前实现全国覆盖;其余企业覆盖城市也迅速扩张,小鹏宣布到 2023 年底扩增至 50 城,2024 年扩增至 200 城,力争做到城区领航辅助驾驶「全国都能用」;理想计 划在 2023 年底推送至 100 个城市。蔚来另辟蹊径,按通勤道路开通,计划2023 年Q4开通城区 领航路线里程 6 万公里;2024年Q2开通40万公里。

部分厂商城市NOA进度

自动驾驶标准逐步落地,L3合规加速推进。

2022年8月,深圳市正式施行《深圳经济特区智能网 联汽车管理条例》,对智能网联汽车定义、测试及示范应用条件、权责归属等问题进行了详细定义, 是全国首个对L3及以上自动驾驶权责、定义等重要议题进行详细划分的官方管理文件。2022 年11月,工信部发布《关于开展智能网联汽车准入和上路通行试点工作的通知(征求意见稿)》, 对智能汽车生产企业和产品以及试点上路通行做出了详细要求。2023 年7月,工信部、国家标准委联合发布《国家车联网产业标准体系建设指南(智能网联汽车)(2023 版)》,提出第一阶段到 2025 年,系统形成能够支撑组合驾驶辅助和自动驾驶通用功能的智能网联 汽车标准体系;到2030年,全面形成能够支撑实现单车智能和网联赋能协同发展的智能网联汽车标 准体系。随着国内自动驾驶标准体系和管理政策逐步细化落实,国内相关产业有望快速发展。

2020 年-2023 年中国自动驾驶主要政策整理

汽车消费升级趋势持续,智能化需求不断增加。

据乘联会数据显示,2023年前三季度 30万元以上 车型销量占比大幅提升,10万元以下车型销量减少。据高工智能汽车数据显示,23H1标配搭载L2 (含L2+)交付新车均价为26.6万元,相比2022年末提升1.5万元。智能驾驶功能在高端车型的渗 透率逐渐提升。随着消费者消费能力的提高以及消费观念的转变,消费者不再将汽车局限于简单的 出行工具,而是将其作为追求生活品质的载体之一,越来越重视汽车的用户体验及享受度的提升, 更加追求汽车的娱乐性、互动性、舒适性及安全性等功能,从而使得消费者对智能汽车的关注度日 益提高,加快汽车智能化发展的进程,使得智能汽车渗透率稳步提升,同时对汽车各类功能的丰富 度提出了更高的要求。

政策、需求和供给三方面推动,汽车智能化水平快速提升。随着新一代消费者比例逐步增加,智能 座舱、智能驾驶等个性化功能的需求越来越凸显。且越来越多的厂商开始重视用户体验,从车身设 计、智能化服务、自动驾驶功能等多角度提升用户驾乘感受。同时,车辆本身也已经从代步交通工 具向智能移动空间转变,车辆数字化转型已成行业共识。随着用户智能化体验需求的不断提升、政 策的持续推进、行业的高度重视,汽车智能网联技术发展迅速。 

NOA功能预计有望快速渗透。

目前NOA处于高速发展阶段,随着软件算法逐步升级技术逐渐成熟、 感知方案向重视觉感知路线转换成本降低,NOA功能具有向低价格带车型拓展、应用场景不断丰富 等特点。根据高工智能汽车研究院监测数据显示,从当前搭载NOA功能车辆价位来看,标配NOA 领航功能的车型大部分集中在30万以上价格区间,而小鹏P5、吉利博越L、宝骏云朵灵犀版等20 万以下的车型也开始逐渐实现NOA的搭载。我们预计NOA未来将逐渐成为中高端车型标配,同时 扩大搭载范围,下探到10~15万左右的车型。我们预计明年10万以上车型将可以选配高速NOA;20万以上车型将会标配高速NOA,选配城市NOA;30万以上车型将会实现城市NOA普及。

特斯拉坚定拥抱重视觉感知方案。

2018年,特斯拉视觉感知路线通过2D 图像+ CNN卷积神经网络 路线实现智能驾驶功能,对于图像的标注主要依靠人工标注,于2019年采用一部分自动标注来提升 标注效率。该阶段聚焦在2D图像处理,将图像处理完后拼接成single trip,实现时间的多帧融合。该方式对图像的处理属于规则算法,通过IPM将2D图像坐标进行计算,转换到3D空间中。但2D 图像处理在处理三维世界中的感知问题仍会有较大问题,如路面不平、车辆颠簸等问题都会影响到 转换的准确度。2020年特斯拉转向BEV方案,并将CNN神经网络转向Transformer。先在BEV空 间层中初始化特征,再通过多层Transformer 和 2D 图像特征进行交互融合,得到BEV特征,避免 了视觉融合时导致的误差问题。BEV方案2020年重点关注路网的感知,2021年拓展到整个空间, 进行数据重建

国内厂商向重视觉路线转变。

国内厂商早期以融合路线为主,通过高精地图+毫米波雷达+激光雷达 的多传感器方案进行感知,对于静态障碍物(如路网、井盖等)的感知主要依赖高精地图和激光雷 达,视觉主要用于动态障碍物(如车辆等)的识别。目前为了节省成本、增强自动驾驶功能泛用性, 头部企业向BEV+Transformer 的重视觉方案转型。

小鹏Xnet BEV算法架构

BEV+Transformer 的广泛认可导致智驾域控结构发生变化。智驾方案早期摄像头以前视为主,四周 主要靠毫米波雷达实现环视覆盖,较为广泛的方案为5R(Radar)1V(Video)、3R1V、1R1V、2R1V、 5R3V,支持的摄像头数量较少。同时路网信息主要依靠高精地图提供,视觉传感器以动态障碍物识 别为主,静态障碍物主要依靠激光雷达实现感知。但是BEV架构下,需要至少6~8个摄像头实现车 身周边感知(前后左右各一个,四角各一个),摄像头接口需求增加。同时由于取消高精地图,部 分定位模块可以减少或简化。由于大模型搭载,低算力芯片性能难以支持端侧部署,对芯片算力有 了更高的要求。域控芯片需要调整以适应Transformer模型。早期AI芯片主要会考虑对 CNN、Pooling 等的优化。但是 Transformer 的神经网络与原先差别较大,需要不同的算子进行支持。如果芯片不支持 Transformer 算子,会导致在GPU上训练时候用Transformer训练,但是部署在车端时候需要进行算 子转化,带来一定的困难,导致最终在端侧并不是BEV+ Transformer,而且近似CNN的替代算法。目前头部芯片厂商如地平线、英伟达等已经实现对 Transformer 算子的支持,后续部分厂商需要将 BEV+ Transformer 下放到端侧。

特斯拉Model 3传感器配置

感知方面,感知重心向视觉传感器转移。智驾系统向BEV+Transformer转型后,低成本的视觉 传感器更为重要,为保证数据获取的精确度和完整度,摄像头的像素和数量也不断增加,800 万像素摄像头使用量逐渐提升,摄像头数量也向单车 10个以上发展。毫米波雷达和激光雷达 短期内仍难以替代。由于国内使用Nerf进行多帧重建仍有待提升,故需要激光雷达或4D毫米 波雷达获取路网数据,进行车道线识别。此外,由于纯视觉系统对于暗光环境和非标准物体等 场景的识别准确问题仍无法完全解决,通常需要4D毫米波雷达进行静态障碍物识别。我们预计摄像头和4D毫米波需求有望增长。

Mobileye 4D 毫米波雷达点云效果近似4线激光雷达

相比基础的L2功能,NOA功能对精度的要求更高,需要更精确的感知,对计算量的要求也更高。虽然BEV感知在低算力(如8Tops)芯片上可以运行,但是一方面感知精度相比于中高算力芯片要 低。另一方面算法方案上的选择也会有一些差别。高算力平台大都基于Transformer的carrier-based 方案;在低算力平台,更多是类似BEV Depth、BEV Det这种2D转3D的方式去实现。而且对于无 图或轻图的NOA功能,由于缺少已知的地图信息,域控需要处理更多的感知数据,对域控制器的算 力要求更高。随着智驾功能的发展,高算力芯片仍为头部主机厂中高端车型首选方案。智能驾驶域控硬件的核心 是其芯片的运算能力。随着各个厂商向重视觉感知的大模型技术路线转型,高级别智驾对车端算力 的要求越来越高,需要性能更强的芯片支撑。相比城市 NOA,L3 级智能驾驶对算力的需求更甚, 当前已量产芯片较难满足L3级智驾需求,芯片向更高算力发展的进程仍在持续。车企也需采用足够 强力的芯片进行算力 预埋,以支撑日后有效升级。针对未来L3级智能驾驶,主机厂需要进行冗 余设计,以保证系统安全。较为简单的设计是放置两个域控制器/增设备份芯片,智驾芯片需求量后 续有望提升。

整车E/E 架构快速演进。E/E架构的四个阶段分别是分布式架构阶段、域集中架构阶段、准中央计 算架构阶段及中央计算架构阶段。主机厂正加快推进电子电气架构的演进,域集中架构阶段包括大 众 E3 架构、长城 GEEP3.0 架构等。中央计算平台+区域控制器的准中央计算架构阶段包括特斯拉 Model3、长城GEEP 4.0架构等。汽车E/E架构最终演进的方向是中央计算架构阶段,将功能逻辑均 集中到1个中央控制器,如长城计划于2024年推出中央计算架构GEEP 5.0,将实现全车只有一个 大脑,完全形成智能机器人,长安也计划于2025年完成中央域架构的开发。

汽车电子电气架构演进方向

分布式ECU架构各系统独立,系统复杂协同性差。分布式架构ECU为核心,多个ECU通过CAN 和LIN总线连接在一起,进行数据采集与交换,并通过执行器来操控汽车。在传统的分布式电子电 气架构中,每个控制系统都采用单独的 ECU,彼此之间均保持相对独立性,功能增加需要 ECU和 传感器数量的叠加。随着汽车智能化的发展趋势,功能越来越丰富和多样,导致单车的ECU数量激 增,安装成本也随之提高。同时不同ECU来自不同的供应商,每个产品的语言和编程风格各异,因 此功能的增加会导致大量的、不兼容的、风格各异的产品模块存在,难以进行统一的维护和升级, 协同困难巨大,无法满足汽车智能化革新的趋势和需求。

DCU成为新的电子电气架构的核心。DCU(域控制器)将功能相似且分离的ECU功能集成整合起 来,解决了分布式E/E架构存在的诸多问题。根据博世汽车电子部件功能分类,将整车划分为动力 域、底盘域、座舱域、自动驾驶域、车身域五个域,每个域的系统架构由域控制器为主导搭建,利 用处理能力和算力更强的中央计算机相对集中地控制每个域,以取代分布式电子电气架构。

域控架构高度集成,有明显的成本和设计优势。1)线束数量显著减少,节约安装成本。DCU 通过 集成化的域控化管理,各个功能模块以区域内的域控制器为主导,减少了ECU的数量,从而降低了 线束的数量及重量,节省安装成本。2)整合集成度高,便于协同管理。各功能模块ECU软件通常 由其硬件供应商开发,导致系统之间相互独立,难以协调。DCU统一了软件开发和管理,加之数据 交互的接口标准化,降低了开发和制造成本。3)计算能力较高,便于OTA升级。模块越少、系统 越统一越容易实现整车OTA,域控制器更为集中的EEA架构将车内各个分散的ECU部件的控制功 能集成在一个DCU中,仅对DCU进行控制功能进行更新升级完成OTA,同时规避了各ECU的不 同传输协议和兼容性风险,减少了每个ECU进行安全性确认防篡改的工作量。

智能驾驶域控制器是汽车智能化发展的重要环节

智能驾驶域是E/E架构的重要组成部分。智能驾驶域是汽车智能功能的实现基石,智能驾驶域控制 器是智驾系统决策的中心。高级别的自动驾驶需处理来自摄像头、毫米波雷达、激光雷达、惯导等 的多种感知数据,需在短时间内完成整个运算和决策等,是推动L3及以上更高等级自动驾驶的核心 部件。

智能驾驶域控制器架构

智能驾驶域控制器结构相对复杂,核心在于计算芯片。硬件主要包括:1)计算芯片:主要用来进行 摄像头图像处理、运行深度学习算法、输出识别结果、进行传感器融合和轨迹预测等功能。2)Safety MCU:主要处理功能安全要求较高的数据,进行逻辑运算,包括处理雷达等对外接口数据、车辆规 控、通信等。3)存储芯片:对数据进行存储,包括eMMC、Nor Flash、Memory芯片等。4)其他:电阻电容等无源器件、散热组件、密封性金属外壳、PCB板、接口、网关、电源管理芯片等。软件 部分主要包括底层操作系统、中间层软件及上层应用软件。域控制器的硬件部分与ECU相似,最大 的区别在于域控制器的芯片算力更高、可以软硬解耦等,其多功能模块的实现主要依赖于主控芯片 以及软件部分的高度结合。

域控制器构成:硬件+软件

预计2025年自动驾驶域控制器市场规模达479.4亿元。我们预计智能驾驶域控制器价格将持续下降, 市场渗透率有望快速增长。1)随着智能驾驶的不断发展,智能驾驶域控制器有望高速渗透。2)目 前各个主机厂降本意愿较强,单芯片行泊一体方案受到各主机厂青睐。低成本方案如(单TDA 4/ J3 芯片)实现基础L2功能的方案预计有较大市场空间。经我们测算,2025年中国乘用车市场自动驾驶 域控制器市场将达到479.4亿元,2021-2025年复合增速达109.9%。

中国乘用车自动驾驶域控制器市场规模预测

计算芯片是智驾域控的核心部件

计算芯片直接决定域控性能。智驾域控制器主要承担汽车计算功能,其负责运算的模块主要是AI 芯片,故域控产品所使用的AI芯片的性能和数量直接决定其计算能力,目前CPU、GPU、DSP等 传统设计芯片仍是智驾域控选用芯片的主流,与此同时针对应用场景定制化或半定制化的FPGA、 ASIC等方案也在逐步发展。由于域控硬件需要算法的支撑调用,域控厂商与芯片厂商的合作开发、 生态共建同样重要。其好处在于与主流芯片厂合作紧密的域控厂商可以率先拿到先进芯片样品进行 开发,在上下游协同和产品性能上具有先发优势;同时对原有主流芯片的开发经验有代际传承,更 有利于新品开发。

智能驾驶芯片壁垒较高,芯片厂商较为集中。智能驾驶芯片具有较高的技术壁垒,现阶段市场高端 芯片以英伟达、华为为主,中低端芯片厂商较多,主要包括Mobileye、TI、地平线、黑芝麻智能等。部分厂商也积极拓展产品矩阵,高通依托早期在座舱芯片积累的优势地位,推出智驾芯片拓展市场;英伟达推出Orin-N,算力70Tops,满足中低算力方案需求。芯片国产替代的趋势也愈加明显,地平 线等国产芯片厂商市占率不断提升。根据高工智能汽车《2022年度中国市场乘用车标配L2+NOA功 能智驾域控制器芯片方案市场份额榜单》,地平线市场份额排名第一,占比达49.05%,英伟达市场 份额排名第二,占比达45.89%,二者占比总和高达95%,德州仪器、Mobileye、华为市场份额分别 位列三、四、五,占比分别为2.69%、1.97%、0.41%。

部分国内外芯片厂商

英伟达依托积累多年的图形计算处理能力、GPU计算经验,布局智能驾驶芯片。

英伟达是全球最大的智能计算平台型公司,早期专注 PC 图形计算,后重点布局AI 领域,并在独立显卡、GPU等领域卓有成就。公司2006 年开发了基于 GPU 的「CUDA」平台,实现使用GPU进行通用计算功能。公司2015年进军车载计算SOC,主要提供计算芯片和相关开发工具。英伟达产品定位偏高端,性能表现出色,其推出的Orin芯片仍是目前已量产的最高性能的智能驾驶芯片。

英伟达汽车芯片算力

芯片方面,英伟达于2016年发布首款高级智能驾驶芯片Xavier,并于2020年实现量产。使用CPU (8核ARM 64架构)+GPU(Volta架构)+ASIC的混合技术路线,基于台积电12nm工艺,最高 算力达30Tops。Xavier 用于德赛西威IPU03域控制器上,搭载于小鹏P5、P7等车型。英伟达2019年发布Orin芯片,于2022年量产,目前仍为已量产的算力最高的智能驾驶芯片。Orin 采用7nm工艺,集成170亿个晶体管,可提供每秒254TOPS,内置第二代深度学习加速器DLA、 第二代视觉加速器PVA。出色的计算能力使得Orin目前仍为高级别智驾方案的首选芯片,蔚来Adam 超算平台搭载四颗DRIVE Orin芯片,最高可实现1016TOPS算力,理想L9、小鹏G9等多款车型均 搭载Orin芯片。

英伟达Orin芯片架构

Thor(雷神)芯片于2022 年发布,预计2025年量产,算力高达2000TOPS,是Orin芯片算力的8 倍,主要通过CPU(Grace)、GPU(Ada Lovelace)和处理 Transformer 模型的引擎(Hopper)实 现算力提升。同时Thor可以满足汽车多个场景的算力需求,包括智能驾驶、主动安全、智能座舱、 自动泊车、车载操作系统、信息娱乐等,预计可以实现座舱域和智驾域的融合域控制。

英伟达Thor芯片

软件方面,英伟达提供DRIVE工具链和技术支持,助力芯片高效开发。Drive 工具链包含了开发工 具包Cuda、TensorRT 等各种各样的算法库、全套工具链的车载操作系统Drive OS;自动驾驶中间 件Drive Works;包含感知、定位、决策三部分的全套软件栈Drive AV;主要进行可视化渲染、驾驶 员检测、人机交互等功能的Drive IX。

英伟达Drive工具链

地平线国内智能驾驶芯片领先供应商,由国际著名机器学习专家余凯博士于2015年7月创建;2017年12月,地平线即推出了首款 智能芯片征程1和旭日1;2019年8月,宣布量产中国首款车规级智能芯片征程2并于同年10月发 布新一代AIoT智能应用加速引擎旭日2;2020年9月,推出新一代高效能车载智能芯片征程3和全 新一代AIoT智能芯片旭日3;2021年7月,推出业界第一款集成自动驾驶和智能交互于一体的全场 景整车智能中央计算芯片征程5,单芯片算力达128TOPS。

地平线征程系列芯片产品

芯片产品布局广泛,覆盖低算力到高算力多款方案。地平线首款车规级芯片征程2于2019年8月量 产,可提供超过4TOPS算力,实现基于征程2的单目前视解决方案。征程3芯片算力达5TOPS,是 目前仍在低算力平台上广泛使用的芯片之一。据不完全统计,自2020年9月发布以来,J3累计获得 约10家主流车企、超过40款车型定点合作,先后搭载2021款理想ONE、奇瑞 瑞虎8 PRO、奇瑞 欧萌达OMODA 5、第三代荣威RX、哪吒U-II、哪吒GT、博越 L、深蓝S7、深蓝SL03等多款车 型。其中2021款理想ONE是全球首个搭载征程3芯片的量产车型,采用双J3方案打造辅助驾驶功 能,并搭载J2的NPU计算平台实现全车语音交互。2023年4月,地平线携手大陆集团打造基于单 颗征程3芯片的800万像素智能前视摄像头一体机,可以支持1V1R(1个摄像头1个雷达)、1V3R (1 个摄像头3个雷达)、1VXR(1个摄像头,多个雷达)等多种形态的产品,实现NOA导航辅 助驾驶功能并于深蓝SL03实现首发量产。

征程3芯片性能

征程5是地平线第三代车规级产品,可提供单芯片128TOPS算力,并支持至多16路摄像头、毫米 波雷达、激光雷达等多传感器感知、融合、预测与规划需求,支持如BEV等领先智能驾驶算法模型 的应用部署。基于单颗征程5芯片打造的行泊一体域控方案,能够支持超越同级配置的高性能行泊 一体功能,同时开放上层应用的差异化开发和软件OTA升级。目前,理想L8首发搭载了征程5芯 片,实现了高速NOA导航辅助、自动泊车、自动紧急制动等功能,同时征程L5也获得了比亚迪、 上汽大众、一汽红旗、长安汽车等车企定点,并搭载于理想L系列在售Pro、Air所有车型。

征程3芯片性能

软硬件协同布局,感知算法布局深入。地平线早在2021年发布新一代征程5车载智能芯片之时,就 推出了基于征程5的纯视觉BEV感知原型方案;2023年6月,在计算机视觉领域顶级会议CVPR 上提出“感知决策一体化”的自动驾驶通用大模型UniAD,建立了以全局任务为目标的自动驾驶大模 型架构,将检测、跟踪、建图、轨迹预测、占据栅格预测以及规划,整合到一个基于 Transformer 的端到端网络框架下,并将各项任务通过token的形式在特征层面按照感知-预测-决策的流程进行深 度融合,实现了自动驾驶系统算法性能的全面提升。

地平线为合作伙伴提供硬件参考设计及算法、基础中间件、工具链、开发平台等配套产品,助力芯 片的开发应用。天工开物 AI 芯片工具链具有“算法仓库”(包括产品级算法、基础算法和产品参 考算法三类算法资源)、“芯片工具链”(包括量化训练工具和浮点定点转换工具)、“应用开发 中间件”(包括XStream和XProto两套应用开发框架)三大功能模块,包含模型后量化、量化训练、 编译优化和部署三大核心能力,其主要作用在芯片端,可为开发者提供从模型获得至应用部署的全 流程支持。艾迪AI开发平台则主要作用在云端,为AI开发者提供数据标注、训练、优化、部署、 管理与性能分析等工具,实现模型算法的优化与迭代;智能驾驶应用开发套件TogetherROS·Auto则 服务于智能驾驶专业开发者,集开发、集成、验证三位一体,提供支持量产开发的分层框架与接口 协议,开发者可基于标准化框架与接口进行灵活适配,同时整套接口与协议面向量产全流程,兼顾 各个软件模块,做到了可兼容、易转化,能够快速提升应用集成和验证效率,方便各模块开发者高效协作。

高通:座舱芯片领军者,智驾领域新拓展,2020 年1月,高通发布自驾平台Snapdragon Ride,其主要面向三大细分方向:L1/L2级ADAS,面 向具备AEB、TSR 和 LKA等驾驶辅助功能的汽车,提供30TOPS算力;L2+级ADAS,面向具备 HWA、自动泊车APA以及TJA功能的汽车,提供60~125TOPS算力;L4/L5级自动驾驶,面向在 城市交通环境中的自动驾驶乘用车、出租车和物流车,可提供700TOPS算力。2023 年 1月高通发布第二代Ride升级版Ride Flex芯片,包括Mid、High、Premium三个级别,主 打舱驾一体,既能用于车内座舱,又可以实现辅助驾驶的可扩展系列SoC,算力最高可达2000Tops。其从设计之初就是一个开放且可编程的平台,能够满足从新车评价规范(004ECAP)到 L2+/L3级别 驾驶辅助和自动驾驶全方位的需求。同时,面向视觉、中央计算和高性能自动驾驶需求,Ride Flex 还提供可扩展SoC处理器和加速器产品组合,基于Arriver的一站式视觉软件栈,支持从单个摄像头、 800 万像素前置摄像头,一直到多达11个摄像头的解决方案,其支持主机厂和Tier1利用Arriver驾 驶策略解决方案打造自己的驾驶策略、泊车或驾驶员监测软件栈和导航功能。

生态合作方面,宝马集团、长城汽车、通用汽车、大众集团、雷诺集团、Stellantis集团、阿斯顿·马 丁、吉利汽车、比亚迪汽车、沃尔沃汽车、梅赛德斯-奔驰、极星等整车厂商都与高通达成了合作, 采用Snapdragon Ride 平台打造ADAS和AD解决方案,并且国内首个搭载Snapdragon Ride的车型 魏牌摩卡DHT-PHEV激光雷达版已实现量产上市。不止整车厂,均联智行、毫末智行、畅行智驾、 纵目科技、诺博科技、德赛西威等Tier 1厂商也在与高通持续协作,基于Snapdragon Ride平台,共 同为下一代汽车开发安全、高效的ADAS/AD系统。

Mobileye 是全球领先的智能驾驶芯片解决方案提供商。2004年公司发布了第一代芯片EyeQ1,随后 迅速与宝马、通用等汽车制造商达成合作。经过多年的发展,Mobileye相继推出了Eye Q1-Q6等多 款ADAS芯片,并为OEM厂和Tier 1厂商提供了“芯片+算法”软硬一体化的ADAS视觉解决方案。Mobileye 智驾方案为“黑盒”方案,提供软硬一体的交钥匙方案,不单独出售芯片或算法。虽然黑 盒方案定制化程度极为有限,但对于开发实力相对薄弱的中小主机厂来说,产品成本低、开发周期 短,且多数功能经过验证,因此Mobileye的“黑盒”模式仍具有一定受众。此外,Mobileye也在一 定程度上逐步提高其编程开放性,2022年6月新推出的EyeQ Kit从黑盒走向合作,能够大幅降低车 企的开发成本,加快下游产品的开发周期。

芯片领域,EyeQ系列芯片目前已推出多代产品,算力由最初的不足1TOPS到176TOPS,其中EyeQ Ultra 作为公司的最新产品,计划2025年开始量产。Mobileye于2016年发布EyeQ5芯片,并与2021 年开始量产,搭载车型为极氪001和宝马iX。芯片基于台积电7nm FinFET工艺,EyeQ5 High可实 现15TOPS算力,EyeQ5 Mid也可超过4TOPS。EyeQ5采用专有的计算内核,针对包括深度神经网 络在内的各种计算机视觉、信号处理和机器学习任务进行了优化。同时,EyeQ5 开始提供完整的软 件开发套件(SDK),允许客户通过在EyeQ5上部署算法来区分其解决方案。作为可扩展的纯视觉 感知摄像头的计算基础,EyeQ5 由多个独立的计算机视觉引擎和用于算法冗余的深度网络组成,可 实现端到端的自动驾驶,这也是业内首个支持120度800万像素摄像头的解决方案。2022 年 1月在国际消费电子展(CES 2022)上,Mobileye连续发布EyeQ Ultra\EyeQ6 L\EyeQ6 H 三款芯片,并计划于2024年、2025年开始量产EyeQ6两款芯片和EyeQ Ultra。EyeQ Ultra是专为 端到端自动驾驶而打造的单封装自动驾驶汽车集成芯片超级计算平台,基于5nm制程工艺,算力达 176TOPS。EyeQ 6 芯片基于台积电7nm FinFET工艺,最高可实现34TOPS算力。EyeQ6 Lite是一种经过优化的一体式前风挡解决方案,旨在以较低功耗和高效率提供入门级和高级驾驶辅助系统 (ADAS)功能。同时宣布的EyeQ6 High将支持高级驾驶辅助系统功能,并具有可扩展到“视线脱离/解放双手”的控制功能。

芯片开发和生产制造能力仍为核心竞争力

厂商加速布局,智驾域控制器厂商竞争激烈 域控制器设计生产合作模式多样。目前,域控制器设计生产主要包括主机厂委托代工域控制器、Tier1 供应商为主机厂提供域控制器生产、Tier1.5主攻域控制器基础软件、Tier0.5全栈参与四种模式。具体来看:模式一:主机厂委托代工域控制器。该种模式下域控制器的设计和研发由主机厂负责,而供应商负 责域控制器的硬件制造,即外包域控制器,如特斯拉由广达及和硕进行域控制器代工、蔚来由Wistron 及伟创力代工。模式二:Tier1供应商为主机厂提供域控制器生产。该种模式是目前主流的业务模式,不同类型的企 业根据自身优势进行分工合作,芯片供应商、Tier1供应商和主机厂深入合作,芯片商提供芯片、开 发软件栈和原型设计包,Tier1提供域控制器硬件生产、中间层以及芯片方案整合,如德赛西威与英 伟达及小鹏/理想/智己深入合作、极氪与Mobileye及知行科技达成合作等。模式三:Tier1.5 主攻域控制器基础软件。该种模式下 Tier1.5 连接产业链上下进行开发,能够适应 软硬件分离的趋势,向上支持主机厂掌控系统的自主开发权,向下整合芯片、传感器等Tier2的资源, 如TTTech与上汽旗下联创汽车电子合资成立的创时智驾等企业。模式四:Tier0.5全栈参与。该种模式下供应商与主机厂深度绑定,参与主机厂域控制器的研发、生 产、制造等环节。

国内外厂商纷纷布局智能驾驶域控制器领域。现阶段,智能驾驶域控制器参与者主要包括四类:1.Global Tier1 供应商系统集成能力较强,具有客户群优势。2.本地Tier1供应商致力打造全栈解决方 案,与 OEM 深度合作。3.自动驾驶域控制器软件平台厂商以软件切入,实现通用和模块化平台。4.OEM 厂商期望自研域控制器甚至芯片以掌握底层硬件自主权。

智能驾驶域控制器供应仍以国内Tier 1厂商为主,虽然头部主机厂自研域控意愿较强,但受限于相关研发积累、资金限制及自身销量等问题,自研难 度大、成本高,不一定有足够的销量来摊薄前期研发成本,故大多数厂商仍以采购Tier 1厂商产品及方案为主,自身参与到开发中,一方面积累相关技术,另一方面优化软硬件协同效果。国内主流 Tier 1 有华为、德赛西威、经纬恒润等企业,均胜电子、中科创达、大疆、东软睿驰等快步追赶,占 据一定市场份额;国际Tier 1大陆集团、博世、采埃孚等均有所涉及,但进入L2+级自动驾驶以后, 国际Tier 1厂商开始逐渐落后于国内Tier 1厂商的发展步伐。华为:智能驾驶全栈解决方案供应商 作为国内Tier 1厂商中较少能够提供智能驾驶全栈解决方案的企业,华为智能驾驶产品线非常丰富, 综合实力强。华为MDC产品经过数年发展,已覆盖多场景自动驾驶平台需求,其使用同一套软件, 同一个硬件架构,方便进行软件和硬件的迭代升级。目前全系列共有4件产品:MDC300F用于矿区、 港口、园区、高速物流等车辆;MDC210主要用于中低端车的铺量;MDC610用于高端车拉升品牌;MDC810 用于Robotaxi 或高级别的自动驾驶,其采用昇腾620芯片,算力高达400+TOPS。

华为MDC平台性能强大,功能安全,提供开放的生态和多种开发工具。华为MDC810性能强劲算 力达400TOPS。具备用户态分布式OS内核,调度时延<10us,平台级时延<40ms。其异构计算能力 能针对不同环节提供不同的算力类型和大小,更精准地满足算力需求。此外,华为 MDC 具备面向 L4 的高安全架构,通过了信息安全、功能安全、车规级测试、软件成熟度认证、极端工况测试等多 项检验。同时,华为 MDC 基于标准化和平台化的设计理念,实现软硬件解耦,提供丰富的传感器 接口、全场景覆盖的工具链、100+标准的API和开放的SDK,支持与线控底盘接口对接、支持软件 开发和移植、支持不同级别自动驾驶的功能要求。华为也提供完整的开发工具链,帮助客户和生态 伙伴提升开发效率,完善华为MDC生态构建。华为于2021华为智能汽车解决方案生态论坛提出,截 至2021年底已有70余家生态合作伙伴,联合拓展乘用车项目超6个,商用车/专用车项目超11个。

华为MDC提供了MDC工具链、MDC Core SDK和车云协同开放平台等开发者套件,很好地提升 了开发效率。MDC工具链含有AI集成开发环境Mind Studio、AP配置工具MMC、集成开发环境 MDS、标定诊断工具MCD、可视化调测工具MViz,覆盖自动驾驶应用的研发、调试、部署、运营 全生命周期。MDC Core SDK加速开发效率,支持TensorFlow、caffe等主流AI框架,支持1000+ 主流算子,开放100+API 接口。云端提升提供数据、场景、训练、仿真服务,加速车云数据闭环, 有20万+场景库和2000万+数据集,大幅提升训练和仿真效率。

德赛西威专注于人、机器和生活方式的整合,前身为1986年成立的中欧电子工业有限公司,迄今已 有30多年汽车电子产品制造经验,制造工艺覆盖汽车电子产品生产全流程,公司为智能座舱、智能 驾驶以及网联服务提供创新、智能的产品解决方案,与大众集团、马自达集团、吉利汽车、长城汽 车、广汽集团、小鹏汽车、理想One等国内外汽车制造商建立了良好的合作关系。德赛西威智驾产品全面丰富,满足客户多层次产品需求。公司与英伟达深入合作,智能驾驶域控制 器产品经过IPU01-04四代迭代已形成丰富产品矩阵,能够满足从高性价比到高性能多层级市场需求。IPU01 是德赛西威最早量产核心产品,主要用作环视及泊车控制器,出货量已超百万套;轻量级智 能驾驶域控制器IPU02已进入上汽、长城、通用以及造车新势力等车企配套体系,适配国内中低价 格带这一最大细分市场,能够在有限成本范围内提供一定的智能驾驶功能;IPU03/04是高性能方案, 基于英伟达 Xavier 芯片的 IPU03 已在小鹏 P7 上量产,基于Orin芯片的高算力平台IPU04已通 过ISO/SAE 21434 体系认证并在理想等客户上实现规模化量产。受益于英伟达芯片的强大算力以及 自身优秀的量产能力和规模化优势,公司持续拓展产品矩阵和客户群体,伴随着国内 L2、L2+级 ADAS产品渗透率的快速提升,公司智能驾驶域控制器有望迎来爆发式增长。

智驾域控制器与英伟达深度合作,带来高硬件性能及先发优势。IPU03/IPU04 依托于英伟达芯片的 高度计算能力,产品性能表现出色。2020年,德赛西威首款基于NVIDIA Xavier芯片的IPU03自动 驾驶控制平台量产,能够应对 L2 级别的全速域 ACC 自适应巡航、车道居中、车道偏离预警等功 能;作为德赛西威拳头产品的 IPU04,在算力、性能、端口、成熟度等方面有了跨越式发展,基于 两颗Orin 芯片,其总算力已达到 508TOPS 并可根据车企需求最高可拓展至 2000TOPS,算力高出 IPU03 的 7 倍以上,满足当前L2甚至L3级算力需求;具备更丰富的接入端口,最高可接入16路 高清摄像头,5个毫米波雷达,12路超声波传感器,以及1-3个激光雷达。

高端智驾域控领域具有先发优势,合作开发能力较强。1992年公司已建立智驾研发团队,近年来研 发费用占营收比重持续超过10%,同时公司与英伟达合作较早,开发的域控硬件和中间件等产品能 够较好匹配底层芯片,充分发挥其效能。德赛在打造域控产品平台化实现快速复用的同时,依靠快 速设计、验证、量产的经验和能力,针对车企不同车型空间结构设计差异、算法差异等进行相应适 配满足车企定制化需求,使公司相对于通用产品供应商竞争优势明显。

大批量量产制造经验带来质量、成本、设计上的护城河。德赛域控产品历经四代迭代已形成丰 富产品矩阵,具有量产经验,IPU03、IPU04 大规模搭载小鹏 P7、理想 L9 等旗舰车型,高搭 载率和车型销量充分证实域控产品的可靠性。同时德赛西威作为目前中国市场主要域控制器供 应商,市占率较大,芯片采购量相比其他主机厂和Tier 1更多。大批量采购能带来一定的价格 优惠,在芯片的供应端具有成本优势。同时对于很多共用的芯片和零部件可以大量备货,在部 分客户芯片等零件结构性短缺时候可以串货,缓解客户供应端的压力。此外,德赛西威依托其 市场地位,在与上游供应商合作时有更高的话语权,与部分芯片厂商有定制化产品,弥补通用 芯片上的不足,使其产品更有竞争力。同步布局传感器和智驾算法,域控产品协同优势明显。公司积极开展智能驾驶领域多维度、多渠道 的协同共创,积极拓宽传感器、智能天线、算法等领域布局,提供平台化域控产品和系统级智能驾 驶解决方案,进一步增强公司产品整体适配度和综合竞争力。传感器方面,已在智能驾驶相关传感 器和T-Box方面获得市场领先地位,目前公司高清摄像头、ADAS摄像头已实现规模化量产,毫米 波角雷达、BSD 雷达均在多个客户量产应用,同时 4D 及国产化雷达方案已完成产业技术布局;5G+V2XT-BOX+智能天线方案已顺利在上汽通用、红旗等客户上实现规模化量产,并在 2022 年获 取国内头部OEM多款车型的出海业务。自动驾驶算法领域,公司全方位布局 L1 泊车至 L4高级智能辅助驾驶算法,通过自研+对外投资合 作模式寻求产品快速突破;同时由于和英伟达的长期合作开发,德赛对Orin芯片的定制算法理解独 到,可以为下游整车厂提供底软技术支持,使其具备更好的竞争优势。公司通过上述全栈布局形成 智驾域控领域全套解决方案,打造出“智驾域控制器+传感器+软件算法+5G-V2X”产品矩阵,协同优 势明显。

经纬恒润:高性价比智驾方案供应商,智能驾驶研发起步早,具备不同等级解决方案。公司自 2010 年起投入研发智能驾驶产品,经过持续 产品创新,目前已形成ADAS+ADCU+HPC的完整平台化产品解决方案系列,能够满足不同等级智 能驾驶功能需求。公司前向 ADAS 系统是公司智能驾驶业务的核心产品,该产品整合了 Mobileye EyeQ4 芯片和Infineon AURIX ™高算力平台,实现了自适应巡航控制、车道保持辅助等多项功能。2016 年,公司自主研发的先进辅助驾驶系统(ADAS)量产配套上汽荣威RX5,实现公司自动驾驶 产品首次量产的同时打破了国外零部件公司在该领域的垄断地位。截至 2021 年 ADAS 产品已配 套或定点的车型超过 100 款,客户主要为一汽集团、上汽集团、中国重汽、吉利汽车等整车厂商。

智能驾驶域控制器(ADCU)是经纬恒润设计研发的集成式高性能计算单元。ADCU基于 Mobileye EyeQ4 及 Infineon TC-297TA 芯片,能够实现自动驾驶等高级别自动驾驶功能,支持毫米波雷达、 激光雷达、高精地图等信息接入;同时在ADCU基础上,经纬恒润将智能驾驶域控制器和自动泊车 域控制器进行融合,面向 L2+级智能驾驶要求,推出了一系列低成本、中低算力的行泊车一体解决 方案,很好地契合了市场需求;并且在ADCU硬件基础上,经纬恒润可以提供自主研发的自动驾驶 功能,或集成第三方研发功能,为用户量身定制系统级自动驾驶解决方案。

智能驾驶高性能计算平台持续投入。2023年3月,公司基于NXP新一代多核异构SoC高性能平台 开发的中央计算平台(CCP)发布,该产品实时控制核采用Classic AUTOSAR软件架构,方便多方 软件联合开发和部署、高性能计算核基于商用Linux + Adaptive AUTOSAR软件架构,提供整车全量 数据采集、整车OTA升级、SOA服务等功能,支持整车厂用户持续快速迭代应用软件,使得产品 能够提供中央网关、车身及舒适控制、新能源整车动力控制、整车全量数据采集、SOA 车控服务、 边缘计算等功能,满足 ASIL-D 功能安全等级要求。同时支持公司自研或客户定制的人工智能感知 算法、路径规划和控制方案,实现在高速公路、城市道路、停车场等场景下安全、精准、稳定的自 动行驶。该产品目前已配套滴滴、合众汽车、一汽解放等客户。

积极开拓单车智能解决方案,产品协同效应显著。经纬恒润智驾产线具备向上集成完整智能驾驶方 案的软硬件产品基础,是目前国内少数能够提供智驾全栈式解决方案的供应商,其智驾解决方案中 智驾算法、摄像头、毫米波雷达、智能网关控制器、高精定位系统等域控核心配套产品均为自研。感知端,车载摄像头、毫米波雷达产品种类丰富,车载摄像头搭配先进的ISP图像处理算法,能够 在各种复杂光照环境下给予驾乘者高质量视觉体验,同时大幅提升感知算法的识别速率和准确率, 目前已广泛应用于广汽、吉利、红旗、一汽等整车厂的主流车型。最新LRR610 4D成像前雷达具备 水平和俯仰高分辨能力(1.25°×1.7°)、超远距离探测能力和丰富的点云信息(单帧点云>10K)。

平台工具和方法流程布局全面。为保证AI感知算法的可靠落地,公司自研了一整套平台工具和方法 流程,其AI算法通过挖掘深度神经网络在数据表达方面的能力,具有实时性好、检测准确、鲁棒性 好等特点,目前已经应用在多个园区自动驾驶示范项目中,同时也在智能化港口项目中得到了充分 的应用和验证;同时公司高精定位模块LMU可以实现道路级定位,支持L2+自动驾驶,能够准确持 续提供前方道路的曲率和坡度信息,支持DOTA/FOTA升级,目前已应用于上汽、红旗、长城等客 户车型。通过上述协同布局,公司形成的系统级智能驾驶解决方案技术自主,能够充分发挥协同效 应进一步降本增效,为客户提供更高性价比智驾产品。

中科创达:领先的智驾操作系统供应商

完善产业协同布局,发力智能驾驶赛道。中科创达以智能操作系统为核心,聚焦场景需求,持续布 局智能驾驶领域。在低速智能驾驶领域,中科创达已经构建了从AVM(全景环视系统)、XPA(智 能泊车)到AVP(无人代客泊车)的全链路产品、技术与解决方案,实现了智能座舱与低速驾驶的 融合创新。此外,在域控算力平台领域,中科创达子公司畅行智驾基于在操作系统及实时中间件领 域的技术优势,为全球客户提供行业领先的智能驾驶域控产品和开放的智能汽车HPC软硬件平台。

公司利用自身技术积累,积极布局智驾相关操作系统和云端平台。目前公司正在开发 ThunderAuto 智能网联汽车操作系统和智能驾驶辅助系统 SmartDrive。该智能驾驶辅助系统包含硬件抽象、软件 开放、端云服务、场景落地等四大平台,客户可以用其开发ADAS产品、应用和系统,降低开发复 杂度、周期和成本,有望解决目前ADAS系统各自为政、软硬不分离、集成成本高、迭代演进难等 问题。

携手高通、立讯精密,智能驾驶域控制器已取得初步成果。2022年中科创达自动驾驶子公司畅行智 驾获高通创投、立讯精密投资。2022年9月,基于Snapdragon Ride SA8540P芯片,畅行智驾开发 了旗下首款智驾域控RazorDCX Takla,提供60TOPS算力、12路相机最高像素8M Pixels的接入能 力,并预留多路CAN/CANFD 接口,提供8路车规级以太网接口,满足自动驾驶对传感器接入的需 求,具备高性价比优势,实现全时中阶行泊一体,可广泛应用于低速泊车智能驾驶、高速公路智能 驾驶、城区智能驾驶以及封闭园区智能驾驶等诸多场景中。2023年4月,发布基于Snapdragon Ride 平台的高阶智驾控制器RazorDCX Pantanal,采用4nm SOC, 集成Snapdragon Ride™视觉软件栈,单芯片算力达50-100TOPS,可同时支持基础配置7V5R12USS 与高阶配置11V5R12USS 接入,并预留多路 CAN/CANFD 接口,提供 8 路车规级以太网接口,满 足不同等级智能驾驶对传感器接入的需求。实现记忆泊车、L2.9 级高速公路自动驾驶及 L3 级城区 自动驾驶,并可拓展至L4级无人售货车、矿山、自动清洁车等封闭园区自动驾驶。其具有可拓展性 强、功能安全性高、应用场景广等特点,满足从入门级到旗舰级车型对智驾域控的不同需求。

大疆:低成本NOA方案优质供应商。大疆依托视觉技术深厚积累,推出新一代智能驾驶解决方案。2023年4月,大疆车载公布了全新一 代智能驾驶解决方案,该方案以低至32TOPS的算力,7V/9V的纯视觉配置,通过“强视觉在线实时 感知、无高精地图依赖、无激光雷达依赖”实现了包括城区记忆行车(32TOPS)/城区领航驾驶(80TOPS) 在内的 L2+智能驾驶功能。同时,该纯视觉辅助驾驶系统也支持扩展毫米波雷达、超声波雷达、激 光雷达、高精度地图等传感器,增强系统的安全冗余。该方案基于当前对智能驾驶系统成本约束,结合当前智能车电子电气架构演进水平,以及中国市场 对智能驾驶真实需求,具备算力门槛低,算法扎实、功能丰富、传感器配置简洁高效、可拓展性强 等特点,方案支持扩展算力至200TOPS,提升了高速领航与城区领航等高阶L2+功能的舒适体验, 目前,该智驾解决方案目前已处于可用状态,正与合作车企积极推进量产。

均胜电子持续发力智能驾驶系统,多渠道布局智驾域控。均胜电子加快研发新一代高算力智能驾驶 域控制器产品,2022年8月,子公司均胜科技获得与国内某知名整车厂关于自驾高算力域控平台的 联合开发,公司基于英伟达Orin芯片,为客户提供一款双Orin系统架构的高算力域控平台(AD域 控制器),可以实现L2++高速公路及城市情景NOA功能、AVP代客泊车功能,并计划于2024年 开始量产;2023年5月,旗下子公司均联智行发布全球首批基于高通Snapdragon Ride第二代芯片平 台的自动驾驶域控制器nDrive H,芯片算力高达200TOPS,基于软硬件深度融合的行泊一体设计, 支持L2++到L4级别自动驾驶全场景功能,实现HPA、NOP、HWA等自动驾驶场景。同时其双芯 片结构可提供同级别全冗余平台的最优性价比解决方案,在散热处理上提供行业领先方案,高配版 本采用水冷散热设计,低配版采用风冷设计,较好解决散热问题。

同时,公司与地平线、黑芝麻等国内各芯片厂商建立合作关系。2021年8月,均联智行与黑芝麻智 能签署战略合作协议,双方依托各自优势资源,在自动驾驶计算芯片、前瞻技术联合预研及智能汽 车平台化等业务领域展开深度合作,重点围绕自动驾驶域控制器进行协同开发;2023年5月均联智 行与地平线达成战略合作,地平线将提供以“芯片+参考算法+开发工具”为基础的智能汽车解决方案, 包括车规级芯片、车载计算平台、视觉感知、人机交互等。均联智行基于自身车规级自动驾驶技术 积累,与地平线共同推进高级辅助驾驶(ADAS)、自动驾驶、智能人机交互等领域的产品开发, 加速自动驾驶解决方案的量产;同时公司依托公司智能汽车技术研究院在人工智能的技术储备和前 瞻研发优势,加快研发新一代高算力智能驾驶域控制器等产品,目前在此领域已获批及在批专利逾 50 项,涵盖自动驾驶域控制器结构、路径规划、车辆控制、数据存储等;公司和国内外多家整车厂 商共同推进基于不同芯片平台的智驾域控、驾舱融合域控及中央计算单元等项目的研发,部分项目 已顺利完成A样的开发和POC(验证测试),为公司后续获取客户量产项目的定点提供坚实支撑。

东软睿驰发力行泊一体域控,实现全链条国产化打通。东软睿驰基于地平线征程5、芯驰科技X9U 系列芯片,构建了国内首个全国产自动驾驶域控制器平台,实现国产化芯片、算法、软件、硬件从 研发到量产应用全方面全链条打通。同时,基于该平台打造的高性能行泊一体域控制器 X-Box 4.0 面向L2++级别自动驾驶,配置地平线征程5、芯驰科技X9U系列芯片,单芯片算力达到128TOPS, 可提供高速(NOA)、记忆泊车(HPA)、智能巡航(ICA)、遥控泊车(RVM)等40余项功能, 支持8M摄像头、4D点云毫米波雷达和激光雷达、DSI3超声波雷达的接入,能够有效实现对各类 异形和未知障碍物的精准感知和避让。面向跨域融合时代,基于全国产化大算力单芯片,东软推出多域融合域控制器 X-Center2.0,采用 SOA设计理念,通过自研软件架构的强大算力支撑,支持以太网接口、多屏输出以及处理多路CAN 数据的接入和转发等,大幅度减少整车开发复杂度,不断扩展整车智能化性能,实现从“域控”到“中 央计算”的跨越。

截至目前,市场上出现大量行泊一体智驾域控产品,除上述案例以外,其余厂家如地平线推出了与 金脉联合开发的自动驾驶域控制器产品Horizon Matrix® Pilot 3.0;黑芝麻推出智驾解决方案BEST drive;宏景智驾推出 ADCU 高级别自动驾驶域控;同时国际厂商大陆集团、博世、采埃孚等传统 Tier 1 巨头也在发力智驾域控产品,或通过自研、或通过成立合资公司联合开发以谋求一定的市场地 位。但由于智驾域控产品技术集成度高,投入巨大且产业上下游协同壁垒高,新晋厂商以及传统国 际巨头面临技术成熟度不足、产品工程、转型困难等问题,短期内仍难以形成有效市场竞争力。我们仍较为看好以德赛西威、华为为代表的国内主流Tier 1厂商,其具备技术领先优势、规模化量产 优势、客户覆盖度广优势,并且能够充分发挥上下游协同优势深入参与主机厂产品研发过程,精确 理解用户需求并不断完善自我产品生态,预计在将来仍会保持较大的市场份额。

少数头部主机厂选择自研+代工模式 车企对于坚持智驾域控自研的考虑,无外乎成本、核心技术及供应链稳定、产品亮点和差异化等几 个因素的考量。根据 HiEV 大蒜粒车研所测算,从资金成本考虑,当前智驾域控中硬件占总成本的 比重约为60-80%,软件占比约为20-40%,以主营业务为智驾域控的知行科技为例,其雇佣员工200 人左右,近三年合计研发投入近2亿元,从时间成本上考量,小鹏从官宣自研到落地G9大致花了 两年时间,因此如果能将硬件乃至整个域控方案掌握在自己手里,将有效降低车企成本提升产品竞 争力;同时如果车企意图将智能化打造为自身标签,自研与车型更为匹配的域控产品将会是更好选 择,自研域控将会提高系统的软硬件协同能力并减少芯片算力耗费,同时车企将拥有完整的开发工 具链,在算法升级、驱动更新上将更为及时。因此,对于有一定实力和愿景的车企而言自研域控无 疑具有很强的吸引力。自研智驾域控系列产品具有裨益的同时也会带来巨大成本耗费。根据南方日报报道,2023年上半年 中国市场约20%的头部企业市场占比超过90%,在汽车市场竞争愈发激烈的当下,大部分厂商稳定 销量难以保证,相对主流Tier 1厂商而言其自研域控成本—收益比较低甚至不能覆盖成本;同时自 研域控的时间成本和缺乏经验带来的技术问题难以短时间内解决;域控的规模量产商用和与之相关 的软件生态形成也很难依靠一家自研而成。虽然理论上自研极具优势,但主机厂前置成本较高并且 难以依靠车型销量制胜,有意愿自研的厂商仍为少数。

对于规模巨大的极少数头部厂商而言,自研优势明显。将域控技术掌握在自己手里不但可以控制整 体成本也可以确保核心技术及产品供应链稳定;其次自研与车型更为匹配的域控,将有助于车企打 造差异化竞争力,定制更多个性化功能,使需求与研发结合更为紧密,从长远来看将会提升车企核 心竞争力。而外购或合作开发对于众多中小厂商或许更为友好,中小厂商自研能力薄弱并且车型销 量不足以覆盖自研成本,但依托成熟的供应链系统,中小厂商可以在有限的预算范围内,快速、低 成本外购相对高性价比的整体解决方案,使产品实现一定的智能驾驶功能并满足中低端自动驾驶需 求。长期来看,我们预计“极少数高端主机厂自研+主流Tier 1供应”的产业格局将长期存在,以华 为、德赛西威为代表的研发实力强劲、量产规模大、质量有保障的各Tier 1厂商仍将占据供应链核 心地位。

特斯拉:智能驾驶全栈自研领导者

做为智能驾驶全栈自研的先驱者和领导者,特斯拉技术优势明显。特斯拉于2020年正式推出其全栈 自研智能驾驶解决方案FSD,实现了从芯片开发到底层架构到软件开发的整体编辑能力。硬件系统 HW3.0基于特斯拉自研FSD芯片,算力达到144TOPS, 该芯片采用三星14nm工艺,包含12个 CPU、 1 个 GPU、2 个神经处理单元、以及其他硬件加速器,能够实现自动泊车、智能召唤、自动辅助导 航驾驶(NOA)、自动变道、交通信号识别、停车标志识别、城市道路自动辅助等高阶智驾功能;同时在域控算法端,特斯拉也具有领先优势,其率先应用神经网络系统HydraNet、BEV+transformer 感知算法、占用网络技术、数据处理融入时序特征、图像特征级融合等方案,提升了智驾系统感知 精确性、复杂环境鲁棒性,至今仍为行业标杆。根据推特博主“greentheonly”拆解最新 Model Y 和最新首发 Model S/X 情况来看,新一代 HW4.0 已搭载北美地区Model X/Y等高端车型。其搭载了第二代FSD芯片,采用4nm工艺;CPU核心增 加至20个;GPU、TRIP核心增加至2个;具有3个NPU核心,使用32 MB的SRAM,用于存储 模型权重和激活,预估综合性能将为当前芯片3倍左右。传感器方案也有一定改进,在坚持视觉方 案的同时,新增一个4D毫米波雷达做为安全冗余,提升感知系统的精准度和安全性。

HW4.0

小鹏:域控自研+代工模式,软硬件更加适配域控硬件自研设计,有效提升软硬一体化水平。

2020 年小鹏发布搭载有自研智驾系统 XPILOT 的 P7,该车型智驾域控为德赛西威研制,基于英伟达Xavier芯片的自动驾驶域控制器IPU03,算力达 到30TOPS。同时,小鹏也开始启动智驾域控自研并在G9上实现量产,形成以“X-EEA电子电气架 构+XNGP智能驾驶辅助系统+Xmart OS车载智能系统”为核心的智能驾驶生态。通过对域控方案自 研设计,软硬件一体化程度有效提升,二者可以更好适配,明确软件开发边界,提升硬件利用率。

自研智驾系统XNGP表现出色。其基于英伟达Orin芯片的第二代智驾系统XNGP于23年3月正 式发布。作为“重感知、轻地图”技术路线的代表,完全形态的XNGP将具备全场景智能辅助驾驶 能力,在全国各个城市都能无缝连接高速、城市、地下停车场等各种场景,实现端到端的城市NOA 辅助驾驶体验。其包含的新一代智驾域控基于2个英伟达Orin芯片,总算力达到508TOPS,搭配 31 个传感器,能够实现智能导航辅助驾驶、全场景智能辅助驾驶、VPA-L停车场记忆泊车增强版等 高阶智驾功能;域控感知算法层面,自研XNet深度视觉神经网络,凭借超强的环境感知能力,XNet 能够将多个摄像头采集的数据进行多帧时序前融合,输出动态目标物的4D信息及静态目标物的3D 信息,大大提升智能辅助驾驶,尤其是面对城市复杂场景时的感知、预判、决策、执行的能力和效 率,并且借由小鹏“扶摇”超算中心算力,使得动态XNet的训练时间由过去的276天缩减到11小 时,效率提升超过600倍。

       小鹏XNGP智能辅助驾驶系统                             小鹏XNet视觉感知神经网络



#理想~端到端

其实看见李想和蔚来那俩老大就感觉恶心可笑

半年全切换,全场景无图自己开

一夜间,理想也端到端了。

智能车参考获悉,本月理想完全自研的端到端智驾系统,已完成千人内测。

顺利的话,不用等到年底就会全面覆盖所有MAX车型用户。

这是理想第一次公开端到端上车进展,从之前尾随追赶华为、小鹏,一举实现齐头并进,效率惊人。

技术上还更加纯粹:One Model,没有任何对旧技术体系的妥协或改良。

更加惊人的是,理想自动驾驶研发一号位郎咸朋告诉我们,整个技术路线的切换、上车验证、量产准备,只用了半年时间

能用吗?敢用吗?智能车参考率先替大家体验了一番。

理想做出了什么样的端到端

在体验之前,理想智驾产品经理特意向我们介绍了测试路线的“含金量”:

路线是选定好的,围绕理想位于北京顺义的研发中心,全程20多公里大约40分钟。

远离市中心但工厂企业很多,晚高峰仍然拥堵。城市、乡村、人车混行等等场景都有,完全真实。

虽然路线选定,但场景下变量随机。

整体体验下来,顺义路况还是比北京市区轻松得多,没有严重的堵车、加塞,车道线清晰度和路面宽度也比市区好得多:

良好路况下理想端到端的体验,几乎和智能车参考前两天为大家介绍的理想6.0“无图NOA”,没有太大区别。

但在特定的复杂工况和博弈场景下,端到端优势就十分明显了。

比如在一个左转路口,旁车道的车突然抢跑别车:

理想端到端系统,采取了快打方向、紧急避险动作,而不是突然刹停提示接管。

“避让”显然是比“刹停退出”更安全、更负责任的行为,而且也符合人类司机在相同情况下的会采取的行动。

再比如,路上我们遇到了一辆停在路上下客的公交车,而同时,对向车道又有一辆驶来的大卡车。

理想端到端给我们秀了一把“艺高人胆大”,直接在两个大车夹缝中完成了一次极限穿越

对于可通行空间的精准判断和车控的细腻程度,已经超越了人类老司机。

但这样的策略是否必要?会不会给用户带来不必要的心理压力?可能还需要再斟酌讨论。

理想的解释是,现在的端到端还在测试,驾驶行为的偏好取向还要更多数据和测试反馈来决定,不代表量产实际情况。

第三个让人印象深刻的场景,是在一条主干道和乡村小路的右转博弈:

挑战是多方面的,首先这是个直角弯,对于大型SUV来说操作空间十分有限。其次路面有很大的坡度,车辆俯仰会影响传感器的朝向和数据质量。

最困难的还是同时和两轮车、三轮车、货车、行人等等目标的博弈:

整个过程沉着冷静,没有任何多余的刹车、加速或是方向调整。

理想特别强调了“拟人”的优势:没用端到端的智驾,也有概率能通过,但博弈过程可能是“前倨后恭”,想过又不敢过,整个过程反复刹车、提速。

最后再来看一个十分有趣的场景。

路过学校时,理想同学会给用户播报“现在路过学校,速度降至XX”。类似的,对于路上可能会影响驾驶行为的突发事件,理想同学现在都会播报。

难道是背后用高精地图开天眼?

NoNoNo,这其实是理想端到端智驾的独特优势:

车端2个系统,一个是端到端AI司机,另一个是视觉语言模型VLM

端到端负责感知、决策、规划,是AI司机的主体。并且理想端到端不同于华为、小鹏,采用更直接的One Model结构,不分层

输入传感器数据,直接输出自车行驶轨迹。

One Model典型玩家是特斯拉,国内的商汤绝影UniAD也选择了这条路线,同样也走到了量产前夜。

至于VLM,本质是一个多模态大模型,作用是智能驾驶“点读机”,哪里不会点哪里,利用大语言模型的认知能力理解场景,输出另外一条行驶轨迹给端到端模型参考修正。

为啥要这么做?理想解释因为端到端模型尽管直接学习人类成熟驾驶经验,但黑盒决策过程不为人知。对于目标的错检漏检,以及幻觉问题难以通过直接调参解决。

所以要加这么一个“点读机”,以及适当的强化学习手段来规范端到端模型的行为。

总结一下,理想用半年时间干出了这样一套即将量产的端到端智驾技术:

最大的不同点是没用国内主流的多段式结构,而是和特斯拉One Model一样一步到位,而且也是国内量产进度最快的。

但理想和特斯拉不同的点又在于,选择用语言模型为基础的多模态模型作为认知能力的补充,和小鹏、蔚来、商汤等等玩家相同。

以及还有一点,端到端模型参数量4-5亿,VLM总参数量22亿,完全能在现有Orin芯片的理想各个MAX车型上实现车端部署

理想怎么做端到端

简要的说,理想端到端“方法论”有三个组成部分:

一是找对老师,二是理顺架构,三是舍得砸钱。

理想自己形容新的智驾技术体系为一快、一慢

快的是端到端模型本身,应对实时驾驶任务;慢的则是VLM大模型,用来学习常识,应对未知路况,比如潮汐车道等等。

分别来自两个“老师”:端到端摸着特斯拉过河,VLM则取法谷歌机器人系统 RT-1 和 RT-2。

这是理想认为的现在最可行的端到端量产模式,集各家之长。

自己是“踩在巨人的肩膀上”,躲了前人掉过的坑,才能在半年内完成端到端技术切换和量产准备。

理想尤其强调了特斯拉的先驱作用,FSD在V12之后各个版本展现出的实力,和快速进步迭代的能力,让理想几乎没有什么犹豫,果断选择One Model路线。

更长远的影响,是特斯拉的数据理念,理想从2019年就开始实践了。

李想去年曾坦白在智驾方面投入不足:早期因为要活下去,而把主要资源投在了产品、制造、渠道等等方面,智驾研发长期都是拮据状态。

智驾一号位郎咸朋更详细地解释了一下:所谓“没资源”,主要是没有足够的预算挖人才搞算法

所以早期理想用Mobileye方案,后来又用地平线+三方供应商方案等等,那时的智驾团队更像是一个“甲方”或项目交付团队。

但在有限资源制约下,李想和郎咸朋依然达成共识:算法可以徐徐图之,但数据能力必须提前建立起来。

所以在2019年开始交付的第一代理想ONE,团队特意在Mobileye的传感器旁边多放了一个摄像头,用来收集和分析问题。相应的,完成了一整套数据采集、挖掘、标注、训练的工具链。

一个例子,郎咸朋透露目前理想智驾训练数据的人工标注占比,已经不到1%。每年节约大约三四百亿的成本(人工标注一帧约10元)

数据积累和研发体系建设上很早,这是理想端到端“一夜间”上车交卷的核心。

理顺架构始于去年下半年的理想战略会,明确研发和量产交付一起做,一个技术体系,无论是早期的NPN还是去年底推的无图NOA,研发团队都是先在封闭区域短时间做验证,一个区域跑通就立马往外扩,同步加上安全兜底策略。

随着测试范围扩大,理想会逐步加入用户测试,实际上此时研发团队的角色和交付团队重叠了。

舍得砸钱,郎咸朋说目前理想每年用在训练上的费用为10亿人民币,未来这个数字会上升到10亿美金。

所以10亿仅仅是入场券,企业有健康的营收利润,保持每年数十亿的持续投入,才是端到端出成果的前提——“幸好理想的业务十分健康”。

换句话说,车卖得多,钱也多,以及还有另一层优势:数据足够多

郎咸朋认为这是理想回应一切对于质疑的终极答案。

理想为什么要做

理想端到端有两个模型,所以现在出现两种质疑声音。

首先是融合图像、语言多数据类型的大模型,理想能不能做好?

之前有国内知名AI玩家质疑过车企或者纯自动驾驶团队,没有通用性大模型的落地实践经验,靠开源模型永远实现不了端到端自动驾驶的认知能力。

换句话说,除非你一直搞通用AI大模型,否则你就很难搞好那个端到端“点读机”。

把这个问题抛给理想,他们的回应是这样的:

对于垂类应用来说,通用AI领域的多模态模型借鉴意义没那么大,唯一相通的其实就只有预训练的部分。

但再往后怎么训练,怎么加自动驾驶的知识而还不影响大模型常识,我们更有优势。因为我们有足够多的数据。反而是他们可能有点天真了

第二种质疑,来自All in端到端的友商,同样被我们抛给理想智驾负责人。

刚刚布道完端到端的何小鹏提了两个观点,首先是端到端应该是渐进式的,一步跳到One Model不可靠,以及他还说“车多数据多,也不一定能做好”。

对于分段式和One Model之争,郎咸朋认为肯定是One Model更好,但理想的技术路线切换不存在什么“飞跃”,而是实践后得出的认知。

去年,理想先后验证了高速NOA的有图路线、NPN(地图先验信息)、通勤NOA,最后又改成现在6.0的无图NOA(BEV+Transformer),在一年时间内快速试错:

从高速NOA到城市NOA,发现高精度图依赖不得,于是决定走NPN线,只在复杂路口用地图先验信息。后来NPN百城推进过程中,又发现大量二三线小城,效果远不如北上广这样的一线城市,解决不了问题,于是开始探索彻底去图的方案。

6.0无图NOA就是在这样的背景下诞生的。其实和小鹏华为在推的“分段式”端到端一本质相同,也是感知、决策、规控几个模型串起来,各个模块采用数据驱动。

但无图NOA落地过程中,理想又发现了新的问题。那就是只要还有规则存在,就永远有不符合人类驾驶习惯风格的行为,在用户看来,就是“开得不好”。

这个时间节点是今年年初,理想内部迅速统一了认识:

只有One Model端到端才能完全按照人类的习惯去学习驾驶。

虽然有技术切换的成本,有组织管理上的代价,但对于理想来说是值得的,也能负担得起。

为什么要做端到端,为什么走了这么多弯路才开始做端到端,以及为什么能这么快出结果,理想和盘托出。

至于端到端是不是解决自动驾驶终极问题的灵丹妙药,理想和大部分从业者看法并不同。

理想认为,仅靠端到端实现不了无人驾驶,因为目前为止,端到端模型本身解决的还是corner case问题,只不过方式从以前的写规则变成了喂数据。

真正制约自动驾驶发展的,是模型的认知能力,是大模型本身的规模

所以理想认为,智驾未来的关键变量其实是算力,只有车端算力足够大,才能把大模型频率跑的足够高、延迟足够低。

一旦大模型的响应时延满足自动驾驶安全需要,端到端模型本身和“外挂”VLM模型会出现融合的趋势,理想现在已经在做相关预研工作…这是一条特斯拉也不曾探索过的路线。

未来终局会是什么样,中间又会有哪些变数?

现在下结论太早,最快也要到英伟达的1000TOPS“芯皇”Drive Thor量产上车,答案才会逐渐清晰。



#DOLPHINS

多模态大模型:全面理解复杂长尾的开放驾驶场景

原标题:DOLPHINS: MULTIMODAL LANGUAGE MODEL FOR DRIVING

论文链接:https://arxiv.org/pdf/2312.00438

代码链接:https://github.com/SaFoLab-WISC/Dolphins

项目地址:https://vlm-driver.github.io/

作者单位:威斯康星大学麦迪逊分校 NVIDIA 密歇根大学 斯坦福大学

论文思路:

探索完全自动驾驶汽车(AVs),使其能够在复杂的现实世界场景中以人类般的理解力和反应力进行导航一直是一个重要的目标。本文提出了Dolphins,这是一种新颖的视觉-语言模型,旨在作为对话式驾驶助手,具备类似人类的能力。Dolphins能够处理包括视频(或图像)数据、文本指令和历史控制信号在内的多模态输入,并生成与所提供指令相对应的知情输出(informed outputs)。基于开源的预训练视觉-语言模型OpenFlamingo,本文首先通过创新的Grounded Chain of Thought(GCoT)过程增强了Dolphins的推理能力。然后,本文通过构建特定于驾驶的指令数据并进行指令调优,将Dolphins定制化为驾驶领域的应用。通过利用BDD-X数据集,本文设计并整合了四种不同的自动驾驶任务到Dolphins中,以促进对复杂驾驶场景的整体理解。最终,Dolphins的独特特征体现在两个方面:(1)能够全面理解复杂且长尾的开放世界驾驶场景,并解决一系列自动驾驶任务;(2)展现出类似人类的能力,包括通过上下文学习进行无梯度的即时适应,以及通过反思进行错误恢复。

主要贡献:

  • 本文提出了一种基于视觉-语言模型(VLM)的对话式驾驶助手Dolphins,该助手能够像人类一样规划高级行为,补充自动驾驶系统(ADS)。
  • 本文设计了一种 Grounded Chain of Thought(GCoT)过程,最初赋予Dolphins链式思维推理的能力。随后,本文使模型与自动驾驶任务对齐,尽管可用数据集的范围有限,这一方法不仅弥补了数据集的限制,还使Dolphins能够有效地分解复杂任务并学习其基础子任务。
  • 本文通过定量指标和定性展示,证明了Dolphins在场景理解和推理、即时学习和适应、反思和错误恢复方面的显著能力。

论文设计:

实现车辆系统完全自动化的探索是一场创新的考验,融合了人工智能[1]、机器人技术[2]和汽车工程[3]的见解。其核心目标是设计出能够在人类般理解和响应的复杂现实驾驶情境中进行操作的自动驾驶车辆(AVs)。

当前的自动驾驶系统(ADS)[4]是数据驱动并且通常是模块化的,将任务分为感知、预测、规划和控制[5]。然而,这些系统在不同情境下的集成和性能方面仍面临挑战。端到端(E2E)设计提供了直接从感官输入到控制输出的映射,但它们缺乏可解释性,给安全性和法规遵从带来了挑战[6, 7, 8]。

此外,与人类驾驶员相比,现有的自动驾驶系统(ADS)存在许多局限性,包括:

  1. 整体理解和解释:现有的数据驱动自动驾驶系统(ADS)在整体理解和解释动态复杂场景方面往往表现不足,尤其是在开放世界驾驶环境中长尾分布的场景中[9, 10]。例如,在一个球弹到路上,随后一个孩子追着球跑的场景中,人类驾驶员可以立即推断出潜在的危险,并采取相应的行动来防止意外发生,这依赖于常识、过去的经验以及对人类行为的基本理解。相比之下,现有的ADS如果没有大量类似数据的先前暴露,可能难以准确地解释这种场景。这种缺乏整体理解能力限制了系统在数据分布长尾中意外场景中的泛化能力[11, 12]。
  2. 即时学习和适应:与能够通过少量示例即时学习和适应新场景的人类驾驶员不同,现有的ADS需要大量数据的广泛训练才能处理新情况。例如,人类驾驶员可以在遇到一种新的道路障碍后迅速学会绕行,而ADS可能需要暴露于许多类似场景才能学到同样的教训。
  3. 反思和错误恢复:现有的ADS通常在操作过程中采用前馈处理,缺乏基于反馈和指导进行实时纠正的能力。相比之下,人类驾驶员可以根据反馈实时纠正其驾驶行为。例如,如果人类驾驶员走错了路,他们可以迅速根据错误反馈调整决策,而ADS可能难以迅速从错误反馈中恢复[13, 14]。

这些局限性突显了需要一种中间框架来弥合当前自动驾驶系统(AVs)与人类驾驶之间的差距。最近在(多模态)大型语言模型(LLMs)[15, 16, 17]方面的进展,带来了应对这些挑战的希望。这些模型具备丰富的人类知识库,为显著改进自动驾驶系统提供了宝贵的见解。然而,这些模型主要在一般的视觉和语言数据上进行训练,这限制了它们在专门驾驶领域的有效性。此外,当前的模型设计只能处理静态图像和文本数据以生成零样本决策,缺乏处理时间性视频输入和上下文学习的能力。

本文提出了Dolphins(如图1所示),这是一种专门为自动驾驶车辆(AVs)定制的视觉语言模型(VLM),作为对话式驾驶助手,旨在缩小现有自动驾驶系统(ADS)与人类驾驶之间的差距。

基于OpenFlamingo [18],Dolphins通过一系列专门的指令数据集和有针对性的指令微调,适应了驾驶领域。本文首先基于一些公共视觉问答(VQA)数据集[19, 20, 21, 22]、视觉指令数据集[15, 23]和ChatGPT,构建了一个带有 grounded CoT 响应的图像指令跟随数据集,以将细粒度推理能力融入OpenFlamingo模型中。然后,本文利用BDD-X [24]建立了本文的指令数据集,重点关注四个关键的自动驾驶任务:行为理解、控制信号预测、行为分析和深入对话。

Dolphins展示了对复杂驾驶场景的高级理解和类似人类的能力,如即时学习、适应、反思和推理,这显著缩小了现有自动驾驶系统(ADS)与人类驾驶之间的差距。值得注意的是,Dolphins在感知、预测和规划等广泛任务中展现了广泛的适用性,这要归功于其对场景的全面理解。它能够解释静态和动态场景,整合环境因素,并有效地处理下游的预测和规划任务。

此外,Dolphins的上下文学习能力使其能够快速适应新的驾驶条件,相较于现有模型是一个显著的进步。其错误恢复机制提高了模型的准确性和可靠性,使其成为实际驾驶场景中的宝贵工具。更重要的是,Dolphins提供了可解释性,这是在自动驾驶系统(ADS)操作中建立信任和确保透明度的关键因素。

图1:Dolphins概述。第5部分的演示展示了Dolphins在属于整体理解与推理和类人能力这两个维度的一组子任务中的能力。前者包括与自动驾驶相关的能力,如场景理解以及对自车行为的预测和规划。后者则分析了三种人类级别的能力:快速学习与适应、反思与错误恢复以及互动对话。

图2:为增强视觉语言模型(VLMs)的细粒度推理能力而生成 GCoT 响应的过程。ChatGPT从文本输入开始,逐步生成GCoT。

图3:本文提出的数据集概述。与之前的数据集相比,本文采用了RICES(基于检索的上下文示例选择)[60]方法为每个样本选择上下文示例。此外,本文引入了“详细对话”任务,以训练本文的模型生成与人类偏好高度一致的详细响应。此指令旨在释放基础模型的潜在能力,该模型已在由图像-指令-响应三元组组成的数据集上进行了指令微调。

图4:Dolphins模型架构。

表1:和标记最初来自OpenFlamingo训练范式,本文遵循Otter的做法,加入了一个新标记,以更容易截取模型输出的目标答案。请注意,只有绿色序列/标记用于计算损失,本文使用交叉熵损失来训练本文的模型。

实验结果:

图5:展示Dolphins在场景理解方面能力的示例 § 5.1.1。视频中展示了一辆自车在隧道中行驶的场景。Dolphins能够识别自车所处的环境,并准确确定前方车辆的颜色以及推断当前时间。

图13:展示Dolphins在预测能力方面的示例 § 5.1.2。视频中展示了一辆自车正在掉头。Dolphins能够预测前方停放的黑色车辆的轨迹。由于前方的黑色车辆目前停在路边,本文的模型预测该车辆将继续停在那里,不会出现在自车的掉头轨迹中。

图14:展示Dolphins在规划能力方面的示例 § 5.1.2 及控制信号。Dolphins还能够理解控制信号,并利用这些信号预测自车下一秒的速度和转向角度。此外,本文可以启用Dolphins为自车制定规划,从而在驾驶过程中辅助驾驶员。然而,由于缺乏足够的信息,如地图、驾驶目的地等,该规划目前仍然仅限于短时间的未来。

图20:三个示例展示了本文的模型通过上下文学习实现对未见指令的快速适应 § 5.2.1。在前两个示例中,Dolphins通过上下文示例学习扮演驾驶员的角色,并能够准确描述其行为,尽管没有接受过此类指令的训练。第三个示例显示,Dolphins能够从上下文示例中学习常识,例如在隧道内无法根据光线判断当前时间。

图22:展示Dolphins在交互对话能力方面的示例 § 5.2.2。视频中展示了一辆自车在雨天停在路口,Dolphins能够回答关于天气、交通信号灯及其对驾驶影响的各种问题。

图25:展示Dolphins在反思能力方面的示例 § 5.2.3。视频中展示了一辆自车在城市街道的路口行驶。前方的黑色车辆似乎想要右转,因为它的右尾灯在闪烁。最初,Dolphins预测黑色车辆会继续向前行驶。然而,在被告知“闪烁的尾灯表示转弯或变道”这一交通规则后,Dolphins进行了反思并修正了错误的预测。

总结:

随着本文对Dolphins的探索接近尾声,这款旨在提升自动驾驶车辆(AVs)的新型视觉语言模型展示了其在复杂驾驶场景中进行整体理解和类人推理的显著能力,标志着自动驾驶技术领域的一大进步。通过利用多模态输入和创新的 Grounded Chain of Thought, GCoT 过程,Dolphins展现了其作为对话式驾驶助手的高超能力,能够以更高的解释能力和快速适应能力应对广泛的自动驾驶任务。尽管本文已经取得了显著进展,但未来仍面临诸多挑战。

然而,本文在将Dolphins完全优化用于实际自动驾驶车辆(AVs)应用的过程中遇到了显著挑战,特别是在计算开销和可行性方面。本文对Dolphins在DriveLM数据集上的表现进行了评估,这是一个针对现实驾驶场景的基准测试,结果显示其在NVIDIA A100上的平均推理时间为1.34秒,这表明在边缘设备上实现高帧率可能存在限制。此外,在车辆中运行如此复杂的模型所需的功耗也构成了部署的重大障碍。这些发现强调了在模型效率方面进一步改进的必要性。

展望未来,正如新兴研究[78]所建议的,开发定制和精简版的模型似乎是一个有前途的方向。这些精简的模型有望在边缘设备上更具可行性,能够在计算需求和功耗效率之间取得平衡。本文相信,在这一领域的持续探索和创新对于实现配备Dolphins等先进AI功能的自动驾驶车辆的全部潜力至关重要。


#还是端到端

“要么拥抱端到端,要么几年后离开智驾行业。”

进入智驾行业数年,智驾工程师秦风(化名)原本已经适应智驾行业激烈的内卷节奏。但当新技术“端到端大模型”来临时,他觉得首先被冲击的可能不是人类司机,而是作为工程师的自己。

这种焦虑并非秦风独有。不少智驾工程师告诉36氪,为了学习新技术,他们在工作加班的间隙看起了行业最新论文、去B站听课,有的甚至从研究生课本开始学起。

“端到端大模型”是今年智能驾驶行业的最新技术炸弹。

今年1月,特斯拉面向普通用户正式推送了 FSD(自动驾驶软件包) v12 的测试版本。该版本采用了端到端网络方案,不少用户称效果经验,比之前的v11版本要拟人得多。

马斯克曾介绍端到端的能力,称之为“图像端输入,控制端输出”。尽管多位行业人士向36氪表达,他们不相信特斯拉端到端方案在实操层面如此激进与神乎其技,但端到端依然如蜜般驱策着国内同行。国内玩家逐渐相信,在大模型、大算力、海量数据的驱动下,AI系统会像人类一样开车。

嗅到新的技术风潮,国内的车企与头部智驾公司已经付诸行动。华为、蔚小理、比亚迪等头部玩家都投入了团队与资源推进端到端方案;理想与蔚来两家车企,还成立了专门的端到端大模型部门,以更快推进技术落地。

高端人才的争夺也在明暗处涌动。在第一款车推向市场之际,为追上智驾进度,小米汽车挖来了前图森中国CTO王乃岩加盟。还有智驾行业人士告诉36氪,华为智驾甚至通过相关专利来锚定人才,做定点挖掘。

新方案的确在引燃国内市场。但这枚硬币另一面是,端到端强依赖于数据驱动,而非大量工程师的人力堆叠实现。特斯拉300人左右的团队规模,被当成范本在头部玩家之间传播。

然而行业现实是,当下头部玩家的智驾团队,人才规模几乎都是千人级。追赶智驾中的老牌车企比亚迪,有达3000人的软件团队,华为智驾团队人数也不遑多让。行情好的时候,工程师们普遍能拿到年薪百万的薪资包。

但不少智驾工程师都相信,如果端到端方案效果被进一步验证,车企智驾团队裁员将是大概率事件。

“200-300人都用不上。”一位前新势力车企智驾骨干坚定地对36氪说道。甚至深度学习背景的应届生,可能都比一些智驾工程师进入端到端项目更有优势。

一些智驾猎头也明显感受到了行业的人才满溢:车企智驾团队不再放出新岗位,人员开始要精简,“很多挂着的HC都是僵尸岗。”在一位猎头的最新动态中,他已经切换赛道,转而替机器人公司招揽人才。

被堵在门外的工程师」


智驾工程师田炜(化名)告诉36氪,这场新技术变革中,比起感知模块、预测模块,规划控制模块的工程师受到的冲击会更大。

这主要因为端到端方案与传统智驾方案有明显差异。传统方案分为感知、定位、地图、预测、规划控制等多个模块,模块功能实现基本由工程师的代码驱动。感知、规划控制两大个部门的人员,往往占智驾团队人数大头。

但端到端方案的特点是,从工程师的代码驱动,变成了数据驱动。最理想的方式是,给系统输入图像,系统可以直接输出车辆的控制,中间的环节都由AI神经网络来完成。

从国内头部玩家的进度来看,引入端到端方案后,传统方案的多个模块通过AI神经网络改造,正在被整合成2个大网:感知大模型、预测决策大模型。“当下很多的方案都是在感知大模型的基础之上,接入一个预测规划大模型。”

更进一步的方案,会将感知预测决策规划集于一体,行业称之为“One Model”(一个模型)。

而新的技术路线,也对车企智驾团队有了全新的人才画像。

有智驾人士告诉36氪,端到端团队需要的人数变少,但人才门槛要求变得更高了。大模型本身要求团队有很强的深度学习背景,“搭建方案阶段,更需要很强的infra(基础架构)人才,对感知、规划控制每个模块都有深刻认知,了解不同芯片算力平台的支持力度、不同AI推理框架等。”

但负责模型搭建与训练人只占很小一部分。“可能团队90%的人都是在为端到端提供数据,以及数据闭环工具链支持等。”

“大模型本身就是一个很精干的团队。”有智驾人士说道。这也是OpenAI等AI科技公司早期仅有200-300人,但也能推出大语言模型ChatGPT,改变全球AI进程的原因。

对工程师而言,端到端技术带来的冲击也深浅不一。

有智驾人士告诉36氪,感知、规控两大模块中,感知大模型原本就依赖深度学习技术。尽管视觉检测路线从过去的CNN卷积神经网转向了基于Transformer的BEV,但工程师们的受到的影响并不大。

但对规控工程师而言,如果要加入端到端,几乎是重新切换赛道。有智驾人士告诉36氪,传统的规控工程师主要有几个方向:路径预测、路径优化、规则后处理,以及车辆控制。“都是蛮细分的学科,基本不相关。除了路径预测模块之外,其他方向的工程师基本没有深度学习背景。”

智驾工程师田炜告诉36氪,规控的人如果想转端到端,一个方向是模型训练本身,但需要很强的深度学习背景。“有可能研究深度学习的应届生,对模型的理解都比你好。”

其次,是数据挖掘和处理,为端到端提供数据养分。“但如果工具链的基建搭建完成,模型大概结构稳定之后,也可能不会再需要人。”最后是模型后处理,端到端大模型输出的轨迹不可信,仍需要一小部分工程师要写规则兜底。

工程师们的焦虑也来于此。“一方面是,端到端大模型本身不需要这么多人。另一方面是,大家都想做端到端,但公司的量产业务需要有人运转。”

一位智驾员工也因为公司当前的量产项目,错过了进入端到端项目组的时机而懊恼。但他也很纠结:即便进入端到端方案中,也是为新的方案兜底,但这不是核心的大模型本身岗位;

而如果留在现在的量产项目岗位,可以积累一段完整的智驾量产项目经验,未来几年也还能流向传统车企。

但另一种险境也会到来,一旦端到端方案向全行业普及,那么他积累多年的技术栈在几年后也会面临淘汰的风险。“可能就要离开智驾行业。”


技术分野、资源游戏


为了转入端到端项目组,工程师田炜直接从深度学习的研究生课程开始看起。

他找来深度学习的经典课程,以及一张显卡,对着课本上的实战课程,去实现一些简单的图像识别算法。“至少先把知识点吃透了,才能知道模型本身是怎么运转的。”

看书、实践训练两个月后,田炜才稍微感觉自己能看懂一些端到端大模型开源代码。 他已经向公司申请,调入端到端项目组。

事实上,不只田炜焦虑,田炜所在智驾公司比他更焦虑。他告诉36氪,其公司与一家车企合作开发智驾量产方案,但车企内部也有团队在推进端到端,“整个公司就很焦虑,也早就启动了端到端计划。”

田炜表示,据公司了解,只要上千小时的视频数据,就可以训出来一个端到端demo,而这个量级的数据公司基本能搞定。

但田炜很清楚,以公司现有的资源,最多也只能支撑训练出来一个端到端demo,证明方案可行。从demo到量产,中间还有相当大差距。

而这场新技术的分野游戏,会最先体现在资源分野上。

特斯拉CEO马斯克就曾强调过数据对端到端的重要性:“用100万个视频case训练,勉强够用;200万个,稍好一些;300万个,就会感到Wow(惊叹);到了1000万个,就变得难以置信了。”

另一方面是算力资源,马斯克还大肆采购了英伟达的显卡训练,称到年底其人工智能训练算力将是9万张英伟达H100的等效算力。算力的储备与需求惊人。

这个门槛相当高。对于至今仍然赚钱艰难的智驾公司而言,一方面是不与车企合作,智驾公司的训练数据很难光靠自身采集得到;另一方面,云端的训练芯片在国内一卡难求,不少车企都在高价收购。“量产项目与融资都还不明朗,很难长期投入端到端。”

而另一位智驾工程师也感受到了无奈。在开发端到端项目小半年后,他接到了公司的通知,暂停端到端项目。原因是公司要集中精力与资源去开发当前的城市无图智驾方案,“端到端要消耗的资源太多了”。

该工程师感到可惜的是,他所在团队做的端到端demo已经可以上路了。团队最初还是奔着对标特斯拉的FSD而去,甚至还花了大力气去搭建工具链等基础设施建设。但随着公司端到端战略的暂停,团队的研发重心已经转向了新的领域。

端到端新技术未在国内真正落地,但对智驾行业的人才结构重塑、生态格局的冲击都已经开始显现。

尽管如此,头部玩家还是会想尽办法挤上这趟具有颠覆性意义的快车,而掌握数据资源、芯片资源、人才资源的巨头时代会到来。