#如何在自动驾驶的视觉感知中检测corner cases?
一篇来自德国大学的论文:“Corner Cases for Visual Perception in Automated Driving: Some Guidance on Detection Approaches“,在arXiv上2021年2月11日出现。
corner cases是自动驾驶中很重要的一个问题,本文讨论视觉感知(不包括雷达和激光雷达)如何检测这些corner cases,即出现的未期望或者未知情况。检测corner case的任务对安全十分关键,检测方法对训练数据的选择自动化非常重要,对大众能否接受自动驾驶技术一事也是如此。该文系统性的分析corner cases出现的层次及其检测方法的类别,将二者联系在一起。
注:上面图显示的是corner cases层次划分【5】。
检测corner cases包括online和offline方法,online情况是可以作为安全监控和警告系统,offline情况是用于实验室开发新的视觉感知算法,选择合适的训练和测试数据。一些不错的工作已经展开,比如障碍物检测【6-7】,新出现的目标【8】。
corner cases 定义为 “there is a non-predictable relevant object/class in a relevant location”【9】。本文分析根据【5】将它们分为以下几个层次:
pixel,
domain,
object,
scene,
scenario。
具体讲,pixel level 原因分成 global 和local outliers两个;domain-level 是domain shifts 造成的;object level则是single-point anomalies 或者 single-point novelties;scene-level 来源也分成两个,collective anomalies和 contextual anomalies,其中contextual anomalies 是指未知位置的已知目标,比如街中心的树,而collective anomalies 是指数目异常的已知目标,比如demo。最高层的复杂情况是scenario-level, 包括risky scenarios、novel scenarios和anomalous scenarios。
下面表格给出corner cases的各层例子:确实是有趣的corner cases。
检测它们的方法分为以下类别【10】:
- feature extraction,
- regression,
- knowledge-based,
- signal model,
- state estimation,
- clustering,
- classification methods。
corner cases detection方法分为下面5个概念:
- reconstruction,
- prediction,
- generative,
- confidence scores,
- feature extraction.
Reconstruction 方法 基本上是autoencoder-type networks;Prediction-based 方法 主要是scenario level,比如GAN;Generative 和 reconstruction-based 方法非常相关联;Feature extraction 方法主要采用 deep neural networks。其中 confidence score 类,进一步又分成 三个子类:
- learned confidence scores
- Bayesian approaches
- post-processing
如下表所示是检测方法和复杂层次之间的联系:
总的来说,可以说由于缺乏包含所有类型corner cases的大规模数据集,以及相关的corner cases检测的open world问题,无监督方法或者仅在正常样本上训练的方法目前看来是最有效获取corner case检测器的方法。依赖于异常训练数据的方法需要更复杂、更专业的训练集,并且冒着集中于样本相关的特定corner cases这种风险,对推理中出现未知corner cases的可能性故意视而不见。
pixel level
在pixel level,只有很少的深度学习方法检测corner cases。但是,对于global outlier而言,检测此类情况时,特征提取方法可提供好的结果,因为是检测影响大部分甚至整个图像的情况。这时候,检测可以被认为是二进制分类问题,并且网络能够为该任务提取足够的特征。可以进行有监督的训练,因为这种类型不会有意外的多样性。然而,由于缺乏带标记的global outlier(例如过度暴露)的自动驾驶数据集,对利用少样本学习或类似技术的方法进行研究可能是有益的。此外,更有兴趣检测多个global outliers,例如,共同检测图像中的过度曝光和曝光不足。在出隧道时,它们甚至可以出现在同一图像中。在以后的工作中考虑联合或多任务学习来研究。
而local outliers仅影响图像的一小部分,如像素坏了。可以在训练数据中模拟这些情况,因此通过监督学习解决。由于具有模拟的可能性,加入另一类,这样通过语义分割方法来处理检测问题。这将导致逐像素标注,给出坏像素的位置。预测性方法(在一个时间跨度)将有利于检测local outliers。可以将,例如,坏像素的预测位置,与实际位置进行比较。理想情况下,实际位置与根据学习的光流进行预测的位置,正好相反。
domain level
要检测domain层的corner cases,不需要使用域适应方法,而是去找到适合domain mismatch的度量。但是,这些措施通常来自域适应方法,并被用作损失函数。通常,这些措施被认为是特征提取方法。虽然训练可能需要来自source domain的正常样本进行监督,但是应该明确排除来自另一个域的数据进行训练。在训练中采用第二个域特定示例的方法存在无法达到第三个域相同性能的危险。还可以考虑将一个数据集视为分布内而将另一个数据集视为分布外(out-of-distribution)的OOD检测方法。这些方法可以从分类扩展到汽车视觉感知,因为它们只需要通过正常样本进行监督训练即可。为了可靠地检测domain level的corner cases,需要使用可靠的domain mismatch度量。
object level
在object level,主要任务是检测未知类别的未知目标。这些是属于新类别的实例,以前在训练中没有见过。在训练过程中提供此类corner cases的示例将使网络推断出仅检测类似的corner cases,这对任务是不利的。object level的corner cases检测属于开放式识别的领域,相关方法通常提供某种类别的confidence scores。理想情况下,对于检测和定位,要求逐像素评分。也存在符合该思想的reconstruction方法和generative方法。然而,reconstruction-based方法往往结果意义不大。
想为输入图像获得语义分割掩码,其中属于未知目标的像素与未知类别标签或高不确定性相关联。考虑到这一衷旨,追求confidence scores和generative检测方法似乎最有成效,并且许多最近出现的方法都符合这种趋势。使用Bayesian置信度得分,求解一个与那些未知目标相关的高不确定性模型。Monte-Carlo dropout 或者deep ensembles的贝叶斯深度学习规模化方法为检测提供了第一步。根据那些single-point anomalies定义的训练中未见实例,可以推测出,有效而可靠的检测方法不能依赖包括corner cases的训练样本。人们不得不诉诸无监督方法,它们只能使用正态样本进行训练。
scene level
在scene level,旨在检测未知数量或位置的已知类。此外,认为未来的工作应该利用实例分割(instance segmentation)来获得分组大小,要计算每个类的实例数量。在这种情况下,需要一个阈值来将集体(collection)定义为异常(anomalous)。可以通过特征提取方法来检测contextual anomalies。但是,在汽车视觉感知,特征提取可能无法捕获整个场景的复杂性。因此,许多现有方法给出confidence scores或reconstruction误差,并区分正常样本和异常样本。建议调查类别先验如何对整个流程产生影响,因为这些先验知识可能有助于发现错位的类别代表。
同样,贝叶斯深度学习得出的置信度得分表明模型的不确定性,因此它们对于异常上下文(unusual context)情况下定位目标可能很有用。scene level的这两种corner cases类型都可以使用常规数据进行监督训练,因为都可以检测到已知类的实例。但是,与object level不同,虽然可能需要视觉感知应用程序的像素级语义分割(semantic segmentation)标签,但另外要求实例级标签告诉目标出现在异常位置,或要求图像级标签告诉目标是否以未知的数量出现。
scenario level
scenario level的corner cases由特定时间段出现的模式所组成,并且单帧可能看起来并不异常。在这里,prediction-based方法的决策取决于预测帧与实际帧之间的比较,从而提供了有益的结果。纯粹的reconstruction方法再一次获得不可靠的corner cases检测分数。可以对prediction方法进行有监督训练,因为它们仅需要正常的训练样本即可在推理过程中检测到corner cases。这对于novel scenarios和anomalous scenarios尤其重要,此时由于数量大以及相应的危险性,无法捕获所有可能性。
此外,包含这些样本实际上可能会损害网络,使其仅检测此类情况。为此,需要定义度量标准来检测这种corner cases。尽管可能仍想知道corner cases在图像的位置,但也需要知道时间点。为此,可以考虑在一定时间段的图像标记。除了对度量进行调查之外,建议使用成本函数给予更高的优先级去检测视野边缘处出现的VRUs(vulnerable road users)。这可以,例如,改善检测从遮挡后面跑到街道的人,因为当帧中仅出现几个人的像素时,已经可以实现检测。这种方法还需要识别由于被遮挡或不在视场范围内而未包括在前一帧的逐帧像素掩码。
#北大王选最新OpenAD
助力自动驾驶迈向开放3D世界
开放世界自动驾驶包括域泛化和开放词汇。领域泛化是指自动驾驶系统在不同场景和传感器参数配置下的能力。开放词汇是指识别训练中没有遇到的各种语义类别的能力。在本文中,我们介绍了OpenAD,这是第一个用于3D目标检测的现实世界开放世界自动驾驶基准。OpenAD建立在与多模态大型语言模型(MLLM)集成的角案例发现和标注管道之上。所提出的管道以统一的格式为五个具有2000个场景的自动驾驶感知数据集标注corner case目标。此外,我们设计评估方法,评估各种2D和3D开放世界和专业模型。此外,我们提出了一种以视觉为中心的3D开放世界目标检测基线,并通过融合通用和专用模型进一步引入了一种集成方法,以解决OpenAD基准现有开放世界方法精度较低的问题。
项目链接:https:///VDIGPKU/OpenAD
总结来说,本文的主要贡献如下:
- 提出了一个开放世界基准,同时评估目标检测器的领域泛化和开放词汇表能力。据我们所知,这是3D开放世界物体检测的第一个现实世界自动驾驶基准。
- 设计了一个与MLLM集成的标注管道,用于自动识别极端情况场景,并为异常目标提供语义标注。
- 提出了一种结合二维开放世界模型的三维开放世界感知基线方法。此外,我们分析了开放世界和专业模式的优缺点,并进一步介绍了一种融合方法来利用这两种优势。
相关工作回顾Benchmark for Open-world Object Detection
2D基准。各种数据集已被用于2D开放词汇表目标检测评估。最常用的是LVIS数据集,它包含1203个类别。
在自动驾驶领域,如表1所示,也提出了许多数据集。其中,CODA是一个用于自动驾驶中二维物体检测的道路拐角案例数据集,包含1500个道路驾驶场景,其中包含34个类别的边界框注释。然而,一些数据集只提供语义分割注释,没有特定的实例,或者将目标注释为异常但缺乏语义标签。此外,从真实世界的驾驶数据中收集的数据集规模较小,而来自CARLA等模拟平台的合成数据缺乏真实性,因此难以进行有效的评估。相比之下,我们的OpenAD提供了来自真实世界数据的大规模2D和3D边界框注释,用于更全面的开放世界目标检测评估。
3D基准。3D开放世界基准测试可分为两类:室内和室外场景。对于室内场景,SUN-RGBD和ScanNet是两个经常用于开放世界评估的真实世界数据集,分别包含约700和21个类别。对于户外或自动驾驶场景,AnoVox是一个合成数据集,包含35个类别的实例掩码,用于开放世界评估。然而,由于模拟资产有限,合成数据的质量和实例多样性不如真实世界的数据。除了AnoVox之外,现有的用于自动驾驶的真实数据3D目标检测数据集只包含少数目标类别,很难用于评估开放世界模型。为了解决这个问题,我们提出了OpenAD,它由真实世界的数据构建而成,包含206个出现在自动驾驶场景中的不同corner-case类别。
2D Open-world Object Detection Methods
为了解决分布外(OOD)或异常检测问题,早期的方法通常采用决策边界、聚类等来发现OOD目标。最近的方法采用文本编码器,即CLIP,将相应类别标签的文本特征与框特征对齐。具体来说,OVR-CNN将图像特征与字幕嵌入对齐。GLIP将目标检测和短语基础统一用于预训练。OWL ViT v2使用预训练的检测器在图像-文本对上生成伪标签,以扩大检测数据用于自训练。YOLO World采用YOLO类型的架构进行开放词汇检测,并取得了良好的效率。然而,所有这些方法在推理过程中都需要预定义的目标类别。
最近,一些开放式方法提出利用自然语言解码器提供语言描述,这使它们能够直接从RoI特征生成类别标签。更具体地说,GenerateU引入了一种语言模型,可以直接从感兴趣的区域生成类标签。DetClipv3引入了一个目标字幕器,用于在推理过程中生成类标签和用于训练的图像级描述。VL-SAM引入了一个无需训练的框架,其中注意力图作为提示。
3D Open-world Object Detection Methods
与2D开放世界目标检测任务相比,由于训练数据集有限和3D环境复杂,3D开放世界目标探测任务更具挑战性。为了缓解这个问题,大多数现有的3D开放世界模型都来自预训练的2D开放世界模型,或者利用丰富的2D训练数据集。
例如,一些室内3D开放世界检测方法,如OV-3DET和INHA,使用预训练的2D目标检测器来引导3D检测器找到新的目标。同样,Coda利用3D box几何先验和2D语义开放词汇先验来生成新类别的伪3D box标签。FM-OV3D利用稳定扩散生成包含OOD目标的数据。至于户外方法,FnP在训练过程中使用区域VLMs和贪婪盒搜索器为新类生成注释。OV-Uni3DETR利用来自其他2D数据集的图像和由开放词汇检测器生成的2D边界框或实例掩码。
然而,这些现有的3D开放词汇检测模型在推理过程中需要预定义的目标类别。为了解决这个问题,我们引入了一种以视觉为中心的开放式3D目标检测方法,该方法可以在推理过程中直接生成无限的类别标签。
OpenAD概览
Baseline Methods of OpenADVision-Centric 3D Open-ended Object Detec- tion
由于现有3D感知数据的规模有限,直接训练基于视觉的3D开放世界感知模型具有挑战性。我们利用具有强大泛化能力的现有2D模型来解决这个问题,并为3D开放世界感知提出了一个以视觉为中心的基线。
如图4所示,最初采用任意现有的二维开放世界目标检测方法来获得二维边界框及其相应的语义标签。同时,缓存由2D模型的图像编码器生成的图像特征图。随后,引入了一个结合了多个特征和一些可训练参数的2D到3D Bbox转换器,将2D box转换为3D box。
具体来说,我们使用现有的深度估计模型,如ZoeDepth、DepthAnything和UniDepth,通过2D框获得裁剪图像的深度图。我们还包括一个可选的分支,该分支利用激光雷达点云和线性拟合函数,通过将点云投影到图像上来细化深度图。同时,为了消除2D边界框内不属于前景目标的区域,我们利用Segment Anything Model(SAM)以2D框为提示对目标进行分割,从而产生分割掩码。之后,我们可以使用像素坐标、深度图和相机参数为分割掩模构建伪点云。我们将伪点云投影到特征图和深度图上,并通过插值将特征分配给每个点。然后,我们采用PointNet来提取伪点云的特征fp。同时,2D边界框内的深度图和特征图沿着通道维度连接,其特征fc是通过卷积和全局池化得到的。最后,我们利用MLP来预测具有fp和fc级联特征的目标的3D边界框。
在此基线中,2D到3D Bbox Converter中只有少数参数是可训练的。因此,培训成本低。此外,在训练过程中,每个3D目标都充当此基线的数据点,从而可以直接构建多域数据集训练。
General and Specialized Models Fusion
在实验中,我们发现现有的开放世界方法或通用模型在处理属于常见类别的目标方面不如闭集方法或专用模型,但它们表现出更强的领域泛化能力和处理极端情况的能力。也就是说,现有的通用和专用模型是相辅相成的。因此,我们利用它们的优势,通过结合两种模型的预测结果,提出了一个融合基线。具体来说,我们将两种模型的置信度得分对齐,并使用双阈值(即IoU和语义相似性)执行非最大抑制(NMS),以过滤重复项。
实验结果
结论
在本文中,我们介绍了OpenAD,这是第一个用于3D目标检测的开放世界自动驾驶基准。OpenAD建立在与多模态大型语言模型集成的角案例发现和注释管道之上。该管道以格式对齐五个自动驾驶感知数据集,并为2000个场景注释角案例目标。此外,我们还设计了评估方法,并分析了现有开放世界感知模型和自动驾驶专业模型的优缺点。此外,为了应对训练3D开放世界模型的挑战,我们提出了一种结合2D开放世界模型进行3D开放世界感知的基线方法。此外,我们引入了一种融合基线方法,以利用开放世界模型和专用模型的优势。
通过对OpenAD进行的评估,我们观察到现有的开放世界模型在域内上下文中仍然不如专门的模型,但它们表现出更强的域泛化和开放词汇能力。值得注意的是,某些模型在域内基准测试上的改进是以牺牲其开放世界能力为代价的,而其他模型则不是这样。这种区别不能仅仅通过测试域内基准来揭示。
我们希望OpenAD可以帮助开发超越专业模型的开放世界感知模型,无论是在同一领域还是跨领域,无论是对于可见还是未知的语义类别。
#小米自动驾驶 C++ 面经
一面基础
- 虚拟内存相关详细讲一下
- 讲讲左值和右值
- 什么时候使用右值
- 完美转发
- 假如 a 是 T 的左值引用,T 是 int&& 类型的,那么 a 实际上是什么
- 讲一下智能指针
- shared_ptr 和 unique_ptr 区别,以及性能对比
- weak_ptr 及其作用
- shared_ptr 是线程安全的吗
- lambda 表达式有哪些捕获类型
- 讲讲多态及实现机制
- 虚基类
- 多继承的时候,虚函数表指针怎么存using std::cin 和 在
- using namespace std 后使用cin有什么区别
- 元编程
项目
- 详细介绍
- MSRA实习项目
- 对交易预测输入和输出需要存储,这个空间消耗大概多大
思考题
一个有环链表,两个速度不一样的指针移动,起始位置也不一定一样,它们一定相遇吗
Coding
数据中最小的k个数
class Solution {
private:
int randInRange(int l, int r) {
srand(time(0));
return rand() % (r - l + 1) + l;
}
int partition(vector<int> &input, int l, int r) {
if (l >= r) return l;
int idx = randInRange(l, r);
swap(input[idx], input[r]);
int large = l - 1;
for (int i = l; i < r; ++ i) {
if (input[i] < input[r])
swap(input[++ large], input[i]);
}
swap(input[++ large], input[r]);
return large;
}
public:
vector<int> GetLeastNumbers_Solution(vector<int> input, int k) {
int n = input.size();
int l = 0, r = n - 1;
vector<int> res;
while (l <= r) {
int idx = partition(input, l, r);
if (idx + 1 == k) {
res.assign(input.begin(), input.begin() + k);
return res;
} else if (idx + 1 < k)
l = idx + 1;
else
r = idx - 1;
}
return res;
}
};
二面基础
- 首先介绍了自动驾驶系统涉及的研发方向,问我对哪个感兴趣
- 自我介绍
- 发现性能瓶颈使用过什么方法
- 如何发现死锁
- 在开发时制定什么样的规则可以避免死锁
- 如何调试内存泄露
- 如何调试 core dump
- 虚拟内存介绍
- 每个进程的虚拟内存有多大
- 如果物理内存大于 4G,可以不使用虚拟内存吗(安全性)
- 线程切换要进入内核态吗
- 一个很大的二维数组存在内存中,是按行读取快还是按列读取快(CPU cache,局部性原理)
- map 和 unordered_map区别
- unordered_map 使用什么方法解决 hash 冲突
Coding
LRU,要求自己实现双向链表
#include <bits/stdc++.h>
using namespace std;
struct Node {
int key;
int value;
Node *left;
Node *right;
Node(int k, int v): key(k), value(v) {
left = nullptr;
right = nullptr;
}
Node(int k, int v, Node *l, Node *r): key(k), value(v), left(l), right(r) {}
};
struct BiList {
Node *head;
Node *tail;
BiList() {
head = new Node(0, 0);
tail = head;
}
void insert_front(Node *node) {
auto first = head->right;
node->right = first;
head->right = node;
node->left = head;
if (first) {
first->left = node;
}
if (tail == head)
tail = head->right;
}
pair<int, int> erase_end() {
if (tail == head)
return {-1, -1};
Node *tmp = tail;
tmp->left->right = nullptr;
tail = tmp->left;
int key = tmp->key, val = tmp->value;
delete tmp;
return {key, val};
}
void erase(Node *node) {
if (node == tail)
tail = node->left;
auto left = node->left;
auto right = node->right;
left->right = right;
if (right)
right->left = left;
delete node;
}
Node *first() {
return head->right;
}
~BiList() {
Node *ptr = head;
while (ptr) {
Node *tmp = ptr->right;
delete ptr;
ptr = tmp;
}
}
};
class LRUcache {
private:
int cap;
BiList *lst;
unordered_map<int, Node*> mp;
public:
LRUcache(int k): cap(k) {
lst = new BiList();
}
void set(int key, int value) {
if (mp.find(key) == mp.end()) {
if (mp.size() == cap) { //evict
auto p = lst->erase_end();
int rm_key = p.first;
mp.erase(rm_key);
}
} else {
auto node = mp[key];
lst->erase(node);
}
lst->insert_front(new Node(key, value));
mp[key] = lst->first();
}
int get(int key) {
if (mp.find(key) == mp.end())
return -1;
auto node = mp[key];
int value = node->value;
lst->erase(node);
lst->insert_front(new Node(key, value));
mp[key] = lst->first();
return value;
}
~LRUcache() {
delete lst;
}
};
int main() {
int n, k;
cin >> n >> k;
LRUcache cache(k);
vector<int> res;
for (int i = 0; i < n; ++ i) {
int opt;
cin >> opt;
if (opt == 1) {
int x, y;
cin >> x >> y;
cache.set(x, y);
} else {
int x;
cin >> x;
res.push_back(cache.get(x));
}
}
for (int num : res)
cout << num << " ";
return 0;
}
总结
LRU 出现频率真的好高。。
#图森未来(TuSimple)自动驾驶论文总结
2015年,图森未来(TuSimple)成立,专注卡车无人驾驶研发,一直是中自动驾驶明星企业、处于第一梯队。2021年4月15日,上市纳斯达克上市,成为全球第一个自动驾驶上市企业,因为完善的技术体系和成熟的解决方案,在美国运营的无人卡车运营业务遭到美国政府制裁,也是第一家被美国制裁的自动驾驶企业,2024年1月17日,被迫从纳斯达克退市。
本文总结了2017-2024年图森未来(TuSimple)对外发布的64篇自动驾驶论文,涵盖了感知、融合、预测、规划、高性能计算、机器学习、SLAM、定位等领域,可以作为学习、研发的参考资料,也是对图森未来(TuSimple)自动驾驶技术体系的梳理和回顾。
2024年论文
Topo2D
题目:Enhancing 3D Lane Detection and Topology Reasoning with 2D Lane Priors
名称:利用二维车道先验增强三维车道检测和拓扑推理
论文:https://arxiv.org/abs/2406.03105
代码:
单位:北航、图森未来
出版:
LiDARFormer
题目:LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR Perception
名称:LiDARFormer:基于统一变压器的LiDAR感知多任务网络
论文:https://ieeexplore.ieee.org/document/10610374
代码:
单位:图森未来、佛罗里达大学
出版:ICRA-2024
LiMGT-MP
题目:Multi-Granular Transformer for Motion Prediction with LiDAR
名称:激光雷达运动预测的多粒度变换
论文:https://ieeexplore.ieee.org/document/10610704
代码:
单位:ICRA-2024
出版:图森未来
CDLDC-AD
题目:Framework and experiment for a constraints-defined longitudinal dynamics control for autonomous driving in traffic
名称:交通中自动驾驶约束定义纵向动力学控制的框架和实验
论文:https://ieeexplore.ieee.org/document/10666520
代码:
单位:图森未来
出版:CCTA-2024
LPFormer
题目:LPFormer: LiDAR Pose Estimation Transformer with Multi-Task Network
名称:LPFormer:具有多任务网络的LiDAR姿态估计变换器
论文:https://ieeexplore.ieee.org/document/10611405
代码:
单位:图森未来
出版:ICRA-2024
GM-PPDA
题目:Learnable Graph Matching: A Practical Paradigm for Data Association
名称:可学习图匹配:数据关联的实用范式
论文:https://ieeexplore.ieee.org/document/10423205
代码:
单位:中国科学院大学、图森未来
出版:2024
FSS-3DOD
题目:Fully Sparse Fusion for 3D Object Detection
名称:三维目标检测的全稀疏融合
论文:https://ieeexplore.ieee.org/document/10506794
代码:
单位:中国科学院大学、图森未来
出版:2024
SST
题目:FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels
名称:FSD V2:使用虚拟体素改进完全稀疏的3D对象检测
论文:https://ieeexplore.ieee.org/document/10758248
代码:https:///tusen-ai/SST
单位:中国科学院大学、图森未来
出版:2024
VMPFF-3DOD
题目:Frame Fusion with Vehicle Motion Prediction for 3D Object Detection
名称:基于帧融合与车辆运动预测的三维目标检测
论文:https://ieeexplore.ieee.org/document/10610204
代码:
单位:上海交大、图森未来
出版:ICRA-2024
LightningNeRF
题目:Lightning NeRF: Efficient Hybrid Scene Representation for Autonomous Driving
名称:Lightning NeRF:用于自动驾驶的高效混合场景表示
论文:https://ieeexplore.ieee.org/document/10611130
代码:https:///VISION-SJTU/Lightning-NeRF
单位:上海交大、图森未来
出版:ICRA-2024
PEBO-SLAM
题目:PEBO-SLAM: Observer Design for Visual Inertial SLAM With Convergence Guarantees
名称:PEBO-SLAM:具有收敛保证的视觉惯性SLAM观测器设计
论文:https://ieeexplore.ieee.org/document/10691386
代码:
单位:蒙特利尔理工学院、图森未来
出版:2024
BBTS-SCS
题目:Barrier-Based Test Synthesis for Safety-Critical Systems Subject to Timed Reach-Avoid Specifications
名称:基于屏障的安全关键系统测试综合,符合定时到达避免规范
论文:https://ieeexplore.ieee.org/document/10766673
代码:
单位:加州理工学院、图森未来
出版:2024
2023年论文
MPC-LDC
题目:A Practical MPC Method for Autonomous Driving Longitudinal Dynamic Control's Real-World Challenges
名称:一种实用的MPC方法,用于应对自动驾驶纵向动态控制的现实挑战
论文:https://ieeexplore.ieee.org/document/10422395
代码:
单位:图森未来
出版:ITSC-2023
GPM-USCA
题目:Gaussian Process Model of Uncertainty in Safety-Critical Autonomous Driving
名称:安全关键型自动驾驶中的不确定性高斯过程模型
论文:https://ieeexplore.ieee.org/document/10422367
代码:
单位:图森未来
出版:ITSC-2023
Anchor3DLane
题目:Anchor3DLane: Learning to Regress 3D Anchors for Monocular 3D Lane Detection
名称:Anchor3DLane:学习回归3D锚点以进行单目3D车道检测
论文:https://ieeexplore.ieee.org/document/10204837
代码:https:///tusenai/Anchor3DLane
单位:中国科学院大学、图森未来
出版:CVPR-2023
SS3DOD
题目:Super Sparse 3D Object Detection
名称:超稀疏三维目标检测
论文:https://ieeexplore.ieee.org/document/10153690
代码:
单位:中国科学院大学、图森未来
出版:2023
2D3DDet-Query
题目:Object as Query: Lifting any 2D Object Detector to 3D Detection
名称:物体作为查询:将任何二维物体探测器提升到三维探测
论文:https://ieeexplore.ieee.org/document/10377886
代码:https:///tusen-ai/MV2D
单位:北航、图森未来
出版:ICCV-2023
MonoEdge
题目:MonoEdge: Monocular 3D Object Detection Using Local Perspectives
名称:MonoEdge:使用局部视角的单目3D物体检测
论文:https://ieeexplore.ieee.org/document/10030978
代码:
单位:密歇根大学、图森未来
出版:WACV-2023
Li3DOD-SHP
题目:Once Detected, Never Lost: Surpassing Human Performance in Offline LiDAR based 3D Object Detection
名称:一旦检测到,永不丢失:在基于离线LiDAR的3D目标检测中超越人类表现
论文:https://ieeexplore.ieee.org/document/10376534
代码:https:///tusen-ai/SST
单位:中国科学院大学、武汉大学、图森未来
出版:ICCV-2023
SCD-NDUTDSA
题目:Secure Control Design for Networked Control Systems With Nonlinear Dynamics Under Time-Delay-Switch Attacks
名称:时延切换攻击下非线性动力学网络控制系统的安全控制设计
论文:https://ieeexplore.ieee.org/document/9720959
代码:
单位:田纳西技术大学、图森未来
出版:2023
FeatureNeRF
题目:FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation Models
名称:FeatureNRF:通过提取基础模型来学习可泛化的NeRF
论文:https://ieeexplore.ieee.org/document/10378558
代码:
单位:加州大学圣地亚哥分校、图森未来
出版:ICCV-2023
3DVOD-LOCGO
题目:3D Video Object Detection with Learnable Object-Centric Global Optimization
名称:基于可学习对象中心全局优化的3D视频对象检测
论文:https://ieeexplore.ieee.org/document/10204915
代码:https:///jiaweihe1996/BA-Det
单位:中国科学院大学、图森未来
出版:CVPR-2023
2022年论文
TCUDA
题目:TCUDA: A QoS-based GPU Sharing Framework for Autonomous Navigation Systems
名称:TCUDA:一种基于QoS的自主导航系统GPU共享框架
论文:https://ieeexplore.ieee.org/document/9980923
代码:
单位:图森未来
出版:SBAC-PAD-2022
LVIO-SemMap
题目:LiDAR-Aided Visual-Inertial Localization with Semantic Maps
名称:基于语义地图的激光雷达辅助视觉惯性定位
论文:https://ieeexplore.ieee.org/document/9982152
代码:
单位:图森未来
出版:IROS-2022
QueryDet
题目:QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection
名称:QueryDet:用于加速高分辨率小目标检测的级联稀疏查询
论文:https://ieeexplore.ieee.org/document/9879411
代码:https:///ChenhongyiYang/QueryDet=PyTorch
单位:爱丁堡大学、图森未来
出版:CVPR-2022
GIFS
题目:GIFS: Neural Implicit Function for General Shape Representation
名称:GIFS:用于一般形状表示的神经隐函数
论文:https://ieeexplore.ieee.org/document/9879357
代码:https:///gifs
单位:加州大学圣地亚哥分校、图森未来
出版:CVPR-2022
IOTSR-OA
题目:Online Adaptation for Implicit Object Tracking and Shape Reconstruction in the Wild
名称:隐式对象跟踪和形状重建的在线自适应
论文:https://ieeexplore.ieee.org/document/9817642
代码:https:///implicit-tracking
单位:加州大学圣地亚哥分校、图森未来
出版:2022
DRAF-HFL
题目:Decentralized Edge Intelligence: A Dynamic Resource Allocation Framework for Hierarchical Federated Learning
名称:去中心化边缘智能:一种用于分层联合学习的动态资源分配框架
论文:https://ieeexplore.ieee.org/document/9479786
代码:
单位:图森未来
出版:2022
ST-SS3DOD
题目:Embracing Single Stride 3D Object Detector with Sparse Transformer
名称:采用稀疏Transformer的单级三维目标探测器
论文:https://ieeexplore.ieee.org/document/9878875
代码:
单位:中国科学院大学
出版:CVPR-2022
UIDE-ARN
题目:Auto-Rectify Network for Unsupervised Indoor Depth Estimation
名称:无监督室内深度估计的自动校正网络
论文:https://ieeexplore.ieee.org/document/9655489
代码:
单位:阿德莱德大学、图森未来
出版:2022
NMCSEMM
题目:An Efficient Solution to Non-Minimal Case Essential Matrix Estimation
名称:非最小情况本质矩阵估计的一种有效解法
论文:https://ieeexplore.ieee.org/document/9655489
代码:
单位:阿德莱德大学、图森未来
出版:2022
2021年论文
AccGPUCom-AVS
题目:Accelerating GPU Message Communication for Autonomous Navigation Systems
名称:加速自主导航系统的GPU消息通信
论文:https://ieeexplore.ieee.org/document/9555974
代码:
单位:图森未来、清华大学
出版:CLUSTER-2021
LiDAR-RCNN
题目:LiDAR R-CNN: An Efficient and Universal 3D Object Detector
名称:LiDAR R-CNN:一种高效通用的3D物体探测器
论文:https://ieeexplore.ieee.org/document/9578688
代码:
单位:图森未来
出版:CVPR-2021
RangeDet
题目:RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection
名称:RangeDet:基于激光雷达的3D目标检测的距离视图防御
论文:https://ieeexplore.ieee.org/document/9711088
代码:https:///TuSimple/RangeDet
单位:中国科学院大学、图森未来
出版:ICCV-2021
MMFL-LiFM
题目:Tightly-Coupled Multi-Sensor Fusion for Localization with LiDAR Feature Maps
名称:基于LiDAR特征图的紧密耦合多传感器融合定位
论文:https://ieeexplore.ieee.org/document/9561547
代码:
单位:图森未来
出版:ICRA-2021
MOT-IGP-DFL
题目:Learnable Graph Matching: Incorporating Graph Partitioning with Deep Feature Learning for Multiple Object Tracking
名称:可学习图匹配:将图分割与深度特征学习相结合,用于多目标跟踪
论文:https://ieeexplore.ieee.org/document/9577747
代码:https:///jiaweihe1996/GMTracker
单位:中国科学院大学、图森未来
出版:CVPR-2021
SSNAS-DSO
题目:You Only Search Once: Single Shot Neural Architecture Search via Direct Sparse Optimization
名称:只需搜索一次:通过直接稀疏优化进行单次神经架构搜索
论文:https://ieeexplore.ieee.org/document/9181469
代码:https:///XinbangZhang/DSO-NAS
单位:中国科学院大学、图森未来
出版:2021
DDAS
题目:Direct Differentiable Augmentation Search
名称:直接微分增广搜索
论文:https://ieeexplore.ieee.org/document/9710479
代码:https:///zxcvfd13502/DDAS_code
单位:苏黎世联邦理工学院、图森未来
出版:ICCV-2021
DRL-AVMPC-Survey
题目:A Survey of Deep Reinforcement Learning Algorithms for Motion Planning and Control of Autonomous Vehicles
名称:自动驾驶汽车运动规划与控制的深度强化学习算法综述
论文:https://ieeexplore.ieee.org/document/9575880
代码:
单位:佐治亚理工学院、图森未来
出版:IV-2021
Hybrid Rotation Averaging
题目:Hybrid Rotation Averaging: A Fast and Robust Rotation Averaging Approach
名称:混合旋转平均:一种快速且稳健的旋转平均方法
论文:https://ieeexplore.ieee.org/document/9577752
代码:
单位:北京大学、图森未来
出版:CVPR-2021
CODSS-IVN
题目:Distributed Slice Selection-Based Computation Offloading for Intelligent Vehicular Networks
名称:基于分布式切片选择的智能车辆网络计算卸载
论文:https://ieeexplore.ieee.org/document/9448419
代码:
单位:燕山大学、图森未来
出版:2021
VTSE-PCS
题目:Model-free Vehicle Tracking and State Estimation in Point Cloud Sequences
名称:点云序列中的无模型车辆跟踪与状态估计
论文:https://ieeexplore.ieee.org/document/9636202
代码:
单位:图森未来
出版:IRSO-2021
2D-3D-LineCoor
题目:Learning to Identify Correct 2D-2D Line Correspondences on Sphere
名称:学习识别球面上正确的2D-2D线对应关系
论文:https://ieeexplore.ieee.org/document/9578657
代码:
单位:港科大、图森未来
出版:CVPR-2021
UFP-SMDDS
题目:Unlocking the Full Potential of Small Data with Diverse Supervision
名称:通过多样化的监管释放小数据的全部潜力
论文:https://ieeexplore.ieee.org/document/9523063
代码:https:///BinahHu/ADE-FewShot
单位:图森未来、加利福尼亚大学圣迭戈分校、丰田
出版:CVPR-2021
2020年论文
ECM-HPHR
题目:A Robotic Communication Middleware Combining High Performance and High Reliability
名称:一种高性能、高可靠性的机器人通信中间件
论文:https://ieeexplore.ieee.org/document/9235068
代码:
单位:图森未来
出版:SBAC-PAD-2020
SPQ-GPU-MPS
题目:Safe Process Quitting for GPU Multi-Process Service (MPS)
名称:GPU多进程服务(MPS)的安全进程退出
论文:https://ieeexplore.ieee.org/document/9355641
代码:
单位:图森未来
出版:ICDC-2021
UST
题目:UST: Unifying Spatio-Temporal Context for Trajectory Prediction in Autonomous Driving
名称:UST:统一时空背景进行自动驾驶轨迹预测
论文:https://ieeexplore.ieee.org/document/9340943
代码:
单位:图森未来
出版:IROS-2020
GGCN-FCPCL
题目:Grid-GCN for Fast and Scalable Point Cloud Learning
名称:用于快速可扩展点云学习的网格GCN
论文:https://ieeexplore.ieee.org/document/9156622
代码:
单位:南加州大学、图森未来
出版:CVPR-2020
DMLO
题目:DMLO: Deep Matching LiDAR Odometry
名称:DMLO:深度匹配激光雷达测距
论文:https://ieeexplore.ieee.org/document/9341206
代码:
单位:图森未来
出版:IROS-2021
LSGMN-SAR
题目:Long-Short Graph Memory Network for Skeleton-based Action Recognition
名称:基于骨架的动作识别长短图记忆网络
论文:https://ieeexplore.ieee.org/document/9093598
代码:
单位:北航、图森未来
出版:WACV-2020
REACP-ICFC
题目:Robust Estimation of Absolute Camera Pose via Intersection Constraint and Flow Consensus
名称:基于交点约束和流共识的绝对相机姿态鲁棒估计
论文:https://ieeexplore.ieee.org/document/9091036
代码:
单位:港中文、图森未来
出版:2020
REACP-MVO
题目:Robust and Efficient Estimation of Absolute Camera Pose for Monocular Visual Odometry
名称:单目视觉测距中绝对相机姿态的稳健高效估计
论文:https://ieeexplore.ieee.org/document/9196814
代码:
单位:港中文、图森未来
出版:IROS-2020
2019年论文
HPLFlowNet
题目:HPLFlowNet: Hierarchical Permutohedral Lattice FlowNet for Scene Flow Estimation on Large-Scale Point Clouds
名称:HPLFlowNet:用于大尺度点云场景流估计的分层立体格子流网络
论文:https://ieeexplore.ieee.org/document/8953607
代码:
单位:斯坦福大学、图森未来
出版:CVPR-2019
SATN-OD
题目:Scale-Aware Trident Networks for Object Detection
名称:用于目标检测的尺度感知三叉戟网络
论文:https://ieeexplore.ieee.org/document/9010716
代码:
单位:中国科学院大学、图森未来
出版:ICCV-2019
SLSA-VOD
题目:Sequence Level Semantics Aggregation for Video Object Detection
名称:视频对象检测的序列级语义聚合
论文:https://ieeexplore.ieee.org/document/9009547
代码:
单位:麦吉尔大学、图森未来
出版:ICCV-2019
CVF-3DHPE
题目:Cross View Fusion for 3D Human Pose Estimation
名称:三维人体姿态估计的交叉视图融合
论文:https://ieeexplore.ieee.org/document/9008809
代码:
单位:中科大、图森未来
出版:CVPR-2019
SFT-PRI
题目:Spectral Feature Transformation for Person Re-Identification
名称:人再识别的光谱特征变换
论文:https://ieeexplore.ieee.org/document/9011035
代码:
单位:中科大、图森未来
出版:ICCV-2019
QGO-EVPE
题目:Quasi-Globally Optimal and Efficient Vanishing Point Estimation in Manhattan World
名称:Manhattan世界的准全局最优高效消失点估计
论文:https://ieeexplore.ieee.org/document/9008387
代码:
单位:港中文、图森未来
出版:ICCV-2019
ARCPE-SE
题目:Line-based Absolute and Relative Camera Pose Estimation in Structured Environments
名称:结构化环境中基于线的绝对和相对相机姿态估计
论文:https://ieeexplore.ieee.org/document/8968444
代码:
单位:港中文、图森未来
出版:IROS-2019
IVIT-CGAN
题目:Image Vegetation Index Through a Cycle Generative Adversarial Network
名称:基于循环生成对抗网络的图像植被指数
论文:https://ieeexplore.ieee.org/document/9025412
代码:
单位:立陶宛高等理工学院、图森未来
出版:CVPRW-2019
2018年论文
UCSS
题目:Understanding Convolution for Semantic Segmentation
名称:理解语义分割的卷积
论文:https://ieeexplore.ieee.org/document/8354267
代码:
单位:卡内基梅隆大学、图森未来
出版:WACV-2018
MSPRI-SDM
题目:Multi-shot Pedestrian Re-identification via Sequential Decision Making
名称:基于序贯决策的多镜头行人再识别
论文:https://ieeexplore.ieee.org/document/8578807
代码:
单位:上海交大、图森未来
出版:CVPR-2018
AFAP-DMTL
题目:Automatic Facial Attractiveness Prediction by Deep Multi-Task Learning
名称:基于深度多任务学习的面部吸引力自动预测
论文:https://ieeexplore.ieee.org/document/8545033
代码:
单位:北航、图森未来
出版:ICPR-2018
2017年论文
FBM-IR
题目:Factorized Bilinear Models for Image Recognition
名称:用于图像识别的因子双线性模型
论文:https://ieeexplore.ieee.org/document/8237491
代码:
单位:北京大学、图森未来
出版:ICCV-2017
SPCMTL-RS
题目:Self-paced cross-modality transfer learning for efficient road segmentation
名称:用于高效道路分割的自定进度跨模态迁移学习
论文:https://ieeexplore.ieee.org/document/7989166
代码:
单位:南加州大学、图森未来
出版:ICRA-2017
#最新单目SLAM系统HI-SLAM2
超越RGB-D方法?推动稠密单目SLAM最新发展!
单目3D重建的基本挑战在于缺乏显式的场景几何测量能力。传统的视觉SLAM方法已经发展了数十年,但通常仅提供稀疏或半稠密的地图表示,这不足以支持详细的场景理解和完整的重建。尽管稠密SLAM方法试图通过逐像素的深度估计来解决这一局限性,但仍容易受到深度噪声的影响,难以实现完整和精确的重建。
近年来,深度学习的进步彻底改变了3D重建的许多关键组件,包括光流、深度估计和法线估计。这些改进通过单目深度网络、多视图立体技术和端到端的神经方法集成到了SLAM系统中。然而,即便有这些进步,当前系统往往因深度估计噪声、泛化能力有限或过高的计算需求而导致重建结果带有伪影。特别是,基于神经隐式场和3D高斯分布的神经SLAM方法显示出了很大的潜力。然而,这些方法通常在渲染质量和几何精度之间进行权衡,导致了不理想的结果。
HI-SLAM2[1]旨在推动稠密单目SLAM在3D场景重建领域的最新进展。,这是一种基于几何感知的高斯分布SLAM系统,仅依靠RGB输入即可实现精确且快速的单目场景重建。我们方法的关键在于结合单目几何先验与基于学习的稠密SLAM以增强几何估计能力,同时利用3D高斯分布(3DGS)作为紧凑的地图表示,进行高效且精确的场景建模。如图2所示,与基于地图的SLAM方法不同,我们采用了一种混合方法,使用基于学习的稠密SLAM生成深度图作为中间表示,既用于初始化场景几何,又用于指导地图优化。这种混合设计将地图训练与跟踪解耦,并在联合优化过程中无缝地重新耦合位姿和地图,从而保证了效率和精度。
对于深度估计,引入了一种基于网格的尺度对齐策略,有效解决了单目深度先验中的尺度失真问题,显著提升了深度估计的准确性。在表面深度渲染中,我们采用了在光线与高斯交点处的无偏深度计算方法,能够更精确地拟合表面。为增强表面重建的效果,尤其是在低纹理区域,我们在3DGS训练中加入了单目法线先验,确保重建表面的连贯性。通过利用关键帧位姿更新对3D高斯单元进行变形,我们实现了高效的在线地图更新,从而提升了映射的速度和灵活性。此外,与需要预定义场景边界的哈希网格方法不同,我们的方法允许地图随着新区域的探索而逐步扩展,无需事先了解场景的大小。
我们通过对包括Replica、ScanNet和ScanNet++在内的合成和真实数据集的大量实验验证了我们的方法。结果表明,与现有的神经SLAM方法相比,我们的方法在重建和渲染质量上均有显著提升,甚至在精度上超越了基于RGB-D的方法。我们的方法特别适合需要快速且可靠的场景重建的实时应用场景,例如深度传感器不适用的情况。
主页链接:https://hi-slam2.github.io/
主要贡献:
提出了一种基于几何感知的高斯SLAM框架,通过高效的在线映射和相机位姿与高斯地图的联合优化,实现了高保真的RGB-only重建。
提出了一个改进的深度估计方法,利用几何先验和优化的尺度对齐来补偿单目先验的失真,从而实现了精确的表面重建。
构建了一个平衡的系统,在合成和真实数据集上均实现了几何与外观重建的卓越性能。
具体方法
系统旨在通过单目RGB输入实现快速而精确的相机跟踪和场景重建。如图3所示,该系统由四个关键组件组成:在线跟踪模块、在线回环闭合模块、连续映射模块和离线优化阶段。在线相机跟踪模块采用基于学习的稠密SLAM前端来估计相机位姿和深度图。通过在线回环闭合模块结合回环检测与高效的位姿图束调整(PGBA),实现全局一致性和实时性能。对于场景表示,我们采用3D高斯分布(3DGS),实现高效的在线地图构建、更新和高质量渲染。离线优化阶段通过完整的优化进一步提升重建质量,包括对高斯地图和相机位姿的联合优化,最终通过TSDF融合渲染深度图生成最终的网格。
在线跟踪
在线跟踪模块建立在基于学习的稠密视觉SLAM方法之上,用于估计关键帧的相机位姿和深度图。通过递归光流网络,该系统能够在低纹理环境和快速运动场景中稳健地进行相机跟踪。
关键帧图构建
通过构建一个关键帧图 来表示关键帧间的协作关系:
- **节点 ()**:表示关键帧,每个关键帧包含其位姿 和估计的深度图 。
- **边 ()**:表示关键帧间的可视性关系,由光流对应确定。
关键帧图的边表示具有足够重叠区域的关键帧对。每条边对应的光流关系通过位姿变换维护一致性,并用于后续优化。
关键帧选择
系统基于输入帧与当前关键帧的光流距离,动态评估是否需要选择新的关键帧:
- 计算输入帧与当前关键帧的平均光流距离。
- 如果光流距离超过预设阈值 ,则选择当前帧作为新关键帧。
- 对选定关键帧,通过预训练网络提取单目深度和法线先验,为后续优化提供初始估计。
系统初始化
系统收集 个关键帧后,执行初始化步骤:
- 在关键帧图上进行全局束调整(Bundle Adjustment, BA)。
- 由于单目系统缺乏绝对尺度信息,将所有关键帧深度的平均值归一化为1。
- 在后续优化中固定第一个和第二个关键帧的位姿,用以稳定系统尺度。
局部束调整
每次新增关键帧后,执行局部束调整(Local BA)以优化当前关键帧及其邻域的位姿和深度图:
- 在关键帧图中为新关键帧添加边,与所有具有足够重叠的邻域关键帧连接。
- 最小化重投影误差以优化关键帧位姿和深度估计,重投影误差定义为:其中:
- :光流预测的目标点。
- :从关键帧 到关键帧 的位姿变换。
- :关键帧 的深度图。
- :光流预测的置信矩阵,用于权重化误差。
深度先验的引入
为了克服低纹理或遮挡区域的深度估计困难,将单目深度先验引入到优化流程中:
- 通过预训练网络生成单目深度先验。
- 使用基于网格的尺度对齐策略校正单目深度的尺度失真:
- 在深度图上定义一个二维尺度网格 ,并通过双线性插值为每个像素计算局部尺度。
- 结合尺度网格后,校正后的深度先验定义为:其中 为尺度插值函数。
- 将校正后的深度先验纳入优化目标,通过以下公式联合优化深度图和尺度网格:
优化方法
优化问题通过阻尼Gauss-Newton方法求解,为了提高效率,使用Schur补将深度变量与尺度变量分离。最终优化流程分两步完成:
- 先解尺度变量。
- 再解深度变量。
通过这种方式,系统能够更稳定地校正单目深度先验的尺度失真,从而提供更准确的深度估计初值。
通过结合基于学习的视觉SLAM和深度先验的尺度对齐,我们的在线跟踪模块不仅提升了位姿和深度估计的精度,还为后续地图优化提供了高质量的初始估计。
在线回环闭合
尽管在线跟踪模块能够稳健地估计相机位姿,但随着时间和距离的增加,测量噪声的累积可能导致位姿漂移。此外,由于单目系统固有的尺度不可观性,可能会引入尺度漂移。为了解决这些问题并提升3D地图的全局一致性,我们设计了在线回环闭合模块,该模块通过结合回环检测与基于Sim(3)的位姿图束调整(Pose Graph Bundle Adjustment, PGBA),纠正位姿和尺度漂移。
回环检测
回环检测与在线跟踪模块并行运行,用于识别潜在的回环闭合:
- 光流距离:对于每个新关键帧,计算其与所有先前关键帧之间的光流距离 。如果 小于预定义阈值 ,则认为两帧具有足够的重叠。
- 方向差异:通过当前估计的位姿,计算两帧间的方向差异,要求其小于阈值 。
- 时间间隔:两帧的时间索引差异必须大于当前局部束调整窗口的最小阈值 。
满足以上条件的关键帧对将被标记为回环候选对,并在关键帧图中添加正向和反向重投影边。
基于Sim(3)的位姿图束调整
一旦识别出回环候选,系统将执行基于Sim(3)的位姿图束调整(PGBA),以实现全局优化。与传统的SE(3)优化相比,Sim(3)优化引入了尺度校正能力,可以有效解决尺度漂移问题。
- 位姿初始化:在每次优化之前,将最新的位姿估计从SE(3)转换为Sim(3),并初始化所有关键帧的尺度为1。
- 相对位姿边:构建位姿图时,通过密集的重投影边计算相对位姿,这些边在局部束调整窗口中已被多次优化,提供了可靠的初始值。
- 优化目标:PGBA的优化目标函数如下:其中:
- :回环闭合边。
- :相对位姿边集。
- :相对位姿的方差矩阵,用于衡量每条边的不确定性。
- 优化过程:优化通过阻尼Gauss-Newton算法求解。为了平衡效率与收敛性,Hessian矩阵采用正则化形式:其中:
- :阻尼因子,用于避免局部最小值。
- :正则化因子,改善数值稳定性。
- 优化后的更新:在PGBA优化完成后,将优化的位姿从Sim(3)还原至SE(3)。深度图根据对应的Sim(3)变换进行尺度调整。同时,利用关键帧位姿更新对3D高斯单元进行变形,保持地图的一致性。
通过结合回环检测和基于Sim(3)的位姿图束调整,在线回环闭合模块能够有效纠正累积的位姿和尺度漂移。该模块的设计兼顾了计算效率与全局一致性,确保了系统在大规模场景中的稳健性能,为后续的场景重建提供了准确的全局位姿和一致的地图表示。
3D 场景表示
采用了3D高斯分布(3DGS)作为我们的场景表示方法,用于建模场景的外观和几何。与NeRF等隐式神经表示不同,3DGS提供了显式表示,使得能够高效地进行在线地图更新和高质量渲染。场景由一组三维各向异性高斯分布 表示,其中每个3D高斯单元定义为:
其中, 表示高斯均值, 表示在世界坐标系下的协方差矩阵。协方差矩阵 被分解为旋转矩阵 和尺度矩阵 ,满足 。每个高斯还具有不透明度 和颜色 等属性。与原始的3DGS [51] 不同,我们通过直接使用RGB值而非球谐函数来简化颜色表示,降低了优化的复杂度。为了处理视角相关的颜色变化,我们在离线优化阶段(第III-D节)采用曝光补偿。
渲染过程
渲染过程中,通过透视变换将这些3D高斯投影到图像平面上:
其中, 表示投影函数, 是关键帧的位姿, 是透视变换的雅可比矩阵, 是关键帧位姿 的旋转矩阵。在对投影后的二维高斯按照深度进行排序后,沿每条从近到远的光线,通过-混合计算像素颜色和深度:
其中, 表示与光线相交的高斯集合, 是第 个高斯的颜色, 是在交点处评估的第 个高斯的不透明度,用于计算像素的透明度。
无偏深度
通过沿光线方向确定实际的光线-高斯交点来计算无偏深度。该深度通过求解光线和平面(由高斯表面定义)的交点方程来计算。由于从同一视点出发,与给定高斯相交的所有光线都共面,因此每个高斯的交点方程只需求解一次。该方法在保持基于splat的光栅化计算效率的同时,显著提高了深度精度。我们在第IV-G节的消融实验中展示了这种无偏深度计算的优势。
地图更新
地图更新过程根据关键帧位姿的更新来调整3D高斯单元,以确保3D地图的全局一致性。此更新既发生在在线的基于Sim(3)的PGBA过程中,也发生在离线的全局束调整(BA)过程中。为了实现对3D场景表示的快速和灵活更新,我们对每个高斯单元的均值、方向和尺度进行变形。具体来说,均值和方向根据前后关键帧之间的相对SE(3)位姿变化进行变换,而尺度则根据Sim(3)位姿表示中的尺度因子进行调整。
每个高斯单元的更新方程为:
其中,、 和 分别表示第 个高斯更新后的均值、方向和尺度。此变换确保了高斯之间的几何关系在适应精化后的关键帧位姿的同时得以保持,维持了3D重建的精度和完整性。
曝光补偿
由于光照变化和视角相关的反射,真实世界的捕获会在不同视图中表现出不同的曝光。这些变化会引入颜色不一致性,显著影响重建质量。遵循 [32], [61],我们通过优化每个关键帧的曝光参数(使用一个 的仿射变换矩阵)来解决这一问题。对于渲染的图像 ,曝光校正公式为:,
其中, 是 的颜色变换矩阵, 是 的偏置向量。在离线优化阶段,我们将这些曝光参数与相机位姿和场景几何一起进行联合优化,详见第III-D节。
地图管理
为了确保新观察到的区域被良好地表示,我们通过将估计的深度图反投影到3D空间,为每个新关键帧添加高斯单元。为了保持地图的紧凑性并防止冗余,我们在初始化新高斯之前,对下采样后的3D位置应用随机下采样,因子为 。为了控制地图的增长,我们实施了修剪策略,移除具有低不透明度的高斯。我们每500次迭代重置不透明度值,并每150次迭代交替进行密集化和修剪,以平衡地图的大小和质量。第IV-H节中提供了关于地图大小演变的详细分析。
优化损失
3DGS表示通过结合光度、几何和正则化损失进行优化。光度损失 衡量曝光补偿后的渲染图像 与观测图像 之间的 L1 差异。深度损失 计算渲染深度 与通过交替的BA和JDSA优化得到的估计深度 之间的 L1 差异:
其中, 表示在线映射期间的局部窗口中的关键帧,或离线优化期间的所有关键帧。为了增强几何监督,我们在优化中引入了法线先验。估计的法线从渲染深度图中计算,使用沿图像平面轴的深度梯度的叉乘。法线损失 定义为余弦嵌入损失:
为了防止过度细长的高斯导致的伪影,我们对3D高斯的尺度应用正则化项:,
其中, 表示第 个高斯的平均尺度,惩罚椭球形的拉伸。最终的损失函数将这些项以适当的权重组合如下:
其中,、、 和 是相应的权重。我们使用Adam优化器来优化高斯参数,对于每个新关键帧执行10次迭代。
离线优化
在在线处理完成后,我们通过三个连续的离线优化阶段进一步提升全局一致性和地图质量:后期关键帧插入、全局束调整(Full BA)以及相机位姿与地图的联合优化。
1. 后期关键帧插入
在在线阶段,由于关键帧选择是基于相邻帧之间的平均光流,而无法全面评估视图覆盖范围,可能导致某些区域的观察不足,尤其是视锥边界附近的区域。离线阶段,通过分析视图覆盖情况,我们在这些区域中插入额外关键帧,以完善场景重建。
- 覆盖不足的检测:我们将每个关键帧的像素投影到其相邻关键帧,并计算落在相邻关键帧视野外的像素百分比。当该百分比超过预设阈值时,我们将该区域标记为观察不足区域。
- 额外关键帧插入:在标记的区域插入新的关键帧,以增强视图覆盖并保留场景边界的细节。
如图5所示,在后退旋转或视角快速切换的场景中,后期插入的关键帧(蓝色标记)显著改善了观察不足的区域。
2. 全局束调整(Full BA)
虽然在线回环闭合模块通过基于Sim(3)的位姿图束调整(PGBA)实现了全局一致性,但PGBA在优化密集对应关系时会引入一定的近似误差。通过全局束调整(Full BA),我们进一步提高系统的精度:
- PGBA的局限:PGBA仅针对回环闭合边计算重投影因子,而忽略了邻近关键帧之间的重投影关系。
- Full BA的改进:Full BA重新计算所有重叠关键帧对的重投影因子,包括邻近帧和回环闭合帧,优化目标为:其中, 包括所有具有足够重叠的关键帧对。
Full BA在全局一致性上提供了更细致的优化,使相机位姿和场景几何更加精确。
3. 联合优化
最终阶段,我们对高斯地图和相机位姿进行联合优化,同时优化关键帧的曝光参数,以提升全局一致性和颜色一致性。
- 联合优化目标:该阶段结合全局束调整的结果,对以下参数进行优化:
- 相机位姿
- 3D高斯单元的几何属性(均值、方向、尺度)
- 曝光补偿参数 和
- 曝光补偿:我们在优化过程中考虑曝光校正,以减小颜色不一致性。渲染图像 的曝光校正公式为:其中, 是 的颜色变换矩阵, 是 的偏置向量。
- 优化过程:与Full BA使用的Gauss-Newton算法不同,联合优化阶段使用Adam优化器[62],以第一阶梯度下降法优化所有关键帧的高斯地图参数和曝光参数。
优化总结
通过三个离线优化阶段,我们的系统能够:
- 完善场景覆盖:通过后期关键帧插入,修复在线阶段可能出现的观察不足区域。
- 提高全局一致性:通过Full BA优化所有关键帧对的重投影关系,细化相机位姿和场景几何。
- 增强重建质量:通过联合优化,进一步提升场景几何的精度、地图的全局一致性和颜色一致性。
该离线优化阶段补充了在线模块的实时能力,使系统能够在保持高效的同时,显著提升最终重建质量。
实验效果
总结一下
HI-SLAM2是一种新颖的单目SLAM系统,通过四个互补模块实现了快速且精确的稠密3D场景重建。在线跟踪模块通过结合深度先验与基于网格的尺度对齐,提升了深度和位姿估计能力;在线回环闭合模块中的并行PGBA纠正了位姿和尺度漂移。我们的映射方法利用3D高斯分布实现了紧凑的场景表示,并在SLAM跟踪期间持续优化。在离线优化中,通过引入曝光补偿和对相机位姿、3DGS地图及曝光参数的联合优化,实现了高保真重建。在具有挑战性的数据集上的大量实验表明,HI-SLAM2在精度和完整性方面超越了现有的最先进方法,同时保持了卓越的运行时性能。本系统在几何和外观重建的权衡方面突破了现有方法的限制,实现了高质量的重建。未来工作将探索该方法在更具挑战性的室外大规模和动态环境中的应用。
#高阶智驾加速落地,数据闭环能力是关键
老牌Tier1智驾18个月落地,探究神速背后的“冰山之下”。
当下,以端到端技术加持的高阶智驾进入落地竞速阶段。
而在这之间,除了算法、体验和安全性等显性因素之外,更为关键的是,那些隐藏在“冰山之下”的能力。
换言之,云基础设施、工具链、数据合规闭环等,这些支撑性模块才是决定自动驾驶技术迭代速度的关键因素。
目前,自动驾驶领域所面临诸多挑战,如数据合规性、大规模数据的存储和运算,以及算力瓶颈等……
这些对于构建自动驾驶技术基础至关重要的问题,目前在公众认知中的普及程度仍然有限。
可以说,在自动驾驶行业的靓丽冰山之下,还诸多底层能力模块支持着上层的算法迭代。构建高效、合规的自动驾驶数据闭环,成为核心的“增长飞轮”。
01.高阶智驾成新战场
行业瓶颈初现
据统计,我国L2级自动驾驶新车的渗透率在2023年已超过50%,这一数据表明自动驾驶技术已步入大规模商业化应用阶段。
与此同时,目前新车的高阶智驾功能也在一定程度上成为了新车选购的重要参考依据。
如何快速的补齐这一方面的能力成为了当下车企和Tier1面前的痛点。
一方面,训练数据作为自动驾驶技术的核心,其质量和数量直接决定了自动驾驶系统的性能。
在这其中,海量数据的采集、存储、处理和分析是算法迭代的基础。
而数据合规则是自动驾驶的“保险”,确保数据安全合规,避免数据泄露和滥用,是技术落地的重要前提。
此外,自动驾驶技术正经历从“轻图”向“无图”的演变,这标志着自动驾驶对地图的依赖程度正在降低。
然而,地图数据仍然在辅助驾驶体验和功能落地中发挥着重要作用。特别是在一些复杂路段,仍然需要地图来增加安全冗余。如何以低成本,更轻、更快、更灵活的利用地图数据,也是行业关注的重要话题。
▲智驾感知示意图
目前主流的智驾玩家中普遍认为,云基础设施、工具链和数据合规体系是构建数据闭环能力的核心要素。
云基础设施提供强大的计算、存储和网络能力,工具链实现数据全流程的自动化处理,数据合规体系保障数据安全合规。
通过建立数据采集网络、构建数据平台、开发工具链和建立数据合规体系,企业可以构建高效、合规的自动驾驶数据闭环,推动自动驾驶技术的快速发展,最终实现安全、可靠、的自动驾驶落地。
为此,各大车企纷纷投入巨资进行数据采集和标注,并通过不断提升训练量来提升自动驾驶系统的质量。
而在这其中,重组算力,深入地图数据的采集这样重复造轮子无疑是费时费力的,并不具备可持续性。
而这也正成为了目前高阶智驾落地的瓶颈所在。
可以说,随着自动驾驶技术的快速发展,满足数据闭环下的提质增效也成为了新的挑战。
02.外资老牌Tier1快速落地
云服务兼顾效率与合规
如何确保自动驾驶数据的安全性和合规性,并实现数据的有效流转和应用,成为了各大车企和自动驾驶公司需要解决的重要问题。
在这其中,博世作为外资老牌Tier1,它们的做法和落地成果给了行业一个积极参考。
而在这中间,博世面临着一系列挑战。
作为一家德国企业,如何保障数据采集、存储、模型训练及仿真回放等全链路数据的合规,满足国内最新监管要求?如何在合规的同时兼顾研发效率?
▲博世与腾讯深化合作签约
博世选择了和腾讯的合作,将数据及部分应用部署至腾讯的自动驾驶专有云。所谓的专有云,是专门为智能驾驶行业定制,能够保障数据全流程满足国家最新的监管要求。
与此同时,专有云的机房与网络独立于公有云,但沿袭了公有云同样的技术路线和架构,也就是说,比公有云有更好的安全性,比私有云有更好的灵活性,从而帮助博世在数据安全和开发效率之间取得平衡。
这是行业首个应用自动驾驶专有云技术的案例。在专有云的加持下,博世仅用18个月就完成了高阶智驾的落地,展现了其强大的研发能力和执行力。
博世认为无图方案是智能驾驶发展的趋势,但需要逐步演进,从两段式端到端到一段式端到端,最终实现基于世界模型的解决方案。
博世智能驾控事业部中国区总裁吴永桥表示:“无图是一个方案的结果,过程用什么样的方案实现有两段式、一段式、世界模型。华为是GOD,它就是一般障碍物识别,感知Perception,现在大部分都是一段式,一个模型实现感知,包括激光雷达、毫米波雷达、摄像头,导航地图信息等,它就直接输出了。”
目前博世正在积极推进无图方案的开发,计划在今年12月批产两段式端到端无图方案,明年年中批产一段式端到端方案,并最终在2026年实现基于世界模型的解决方案。
随着智驾技术的成熟,博世认为中低阶智驾将逐渐成为标准件,主机厂可能会选择与供应商合作,专注于终端用户体验的差异化。
博世作为Tier 1供应商,拥有强大的工程化能力和全球化布局,将在此趋势中占据有利位置。
03.高阶智驾走向“无图+端到端”
图云一体能否成为新思路
在刚刚结束的广州车展上,主流车企及供应商也都把宣传中心放在了端到端智驾的量产落地上。
不难看出随着高阶智驾技术的发展,以及"无图+端到端"的方案逐渐兴起,降本增效并实现量产成为了目前智驾研发企业的主旋律。
这种方案的核心是减少对高精地图的依赖,转而使用导航数据,并将其上云,从而帮助企业降本增效并快速迭代。
以前边所讲的博世为例,通过和腾讯的合作使其实现了高阶智能驾的快速落地,而在这其中,腾讯独有的图云结合或许成为了一个新的趋势。
腾讯的智驾云图是一个行业新尝试,它将自动驾驶地图数据全面云化,实现要素级、最快分钟级的在线更新,并通过多图层形态提供灵活的配置和管理。
▲博世中国高阶智驾解决方案
这种开放的合作模式有助于推动低成本、可量产的全民“端到端+无图”智驾方案的落地。
腾讯拥有图商资质,可以提供完整的数据合规服务,帮助博世平衡开发效率和合规性。
吴永桥强调:“腾讯提供了完整的一套服务,这是我们非常看重的。”
可以说这一点对于博世这样的外资Tier1来说至关重要,因为国家近年来对数据合规的监管越来越严格,腾讯的经验和资源可以帮助博世规避风险,确保开发过程顺利进行。
从博世的选择来看,企业构建自己的“冰山之下”能力时,"图云一体" 的模式可能成为一种行业趋势。
而在这样的量产过程中,双方也可谓是“强强联合”,腾讯智慧出行副总裁刘澍泉表示:“我们双方实际上是1+1大于2的合作,我提供更通用的技术,而博世在它的领域有很精深的理解,我们是一个相互配合的关系。”
总而言之,"无图+端到端" 方案的兴起,以及各类底座企业在云图方案的布局,都表明图云一体模式在自动驾驶领域具有重要的应用价值。它有助于降低企业成本、提高研发效率,并推动高阶智驾技术的普及。
04.结语:自动驾驶冰山之下有乾坤
在自动驾驶行业引人注目的成就背后,实际上隐藏着众多默默无闻的底层技术和企业,它们共同构成了支撑整个行业发展的基石。
与此同时,行业上也开始探讨图云一体的模式是否值得大力推广。
从博世等一些Tier1的表现来看,这可能会成为一种新的行业趋势。
#HoloDrive
自动驾驶多模态场景生成一把搞定
工作旨在联合生成相机图像和LiDAR点云,填补2D-3D多模态联合生成在自动驾驶中的空白!方法在生成指标上显著优于现有最先进的方法(SOTA)。
题目:HoloDrive: Holistic 2D-3D Multi-Modal Street Scene Generation for Autonomous Driving
作者单位:商汤,上海AI Lab,北大,清华
生成模型在自动驾驶中显著提高了基于相机图像或LiDAR点云的生成和预测质量。然而,现实世界中的自动驾驶系统使用多种输入模态,通常是相机和LiDAR,它们在生成过程中包含互补信息,而现有的生成方法忽略了这一关键特征,导致生成的结果仅覆盖独立的2D或3D信息。为了填补2D-3D多模态联合生成在自动驾驶中的空白,本文提出了我们的框架HoloDrive,旨在联合生成相机图像和LiDAR点云。在异构生成模型之间采用了BEV-to-Camera和Camera-to-BEV转换模块,并在2D生成模型中引入了一个深度预测分支,以消除从图像空间到BEV空间的投影歧义,然后通过添加时间结构和精心设计的渐进式训练,将该方法扩展到未来预测。此外,在单帧生成和世界模型基准上进行了实验,结果表明,方法在生成指标上显著优于现有最先进的方法(SOTA)。
HoloDrive pipeline介绍
图2展示了所提出流程的概览,该流程联合预测多视图视频和未来LiDAR点云。除了基本的2D和3D生成模型外,还提出了两种新颖的跨模态结构:2D到3D结构和3D到2D结构,以实现两种模态之间的交互,并共同提升视频(或图像)和LiDAR生成的质量。对于多模态数据和模型,上标(c)表示相机,上标(l)表示LiDAR。
所提流程的概览:a). 我们流程所使用的条件。b). 整体的联合训练和推理流程。c). 用于图像生成模型的BEV(鸟瞰图)特征转换结构。d). 用于LiDAR生成模型的图像特征转换结构。
实验分析对比
数据集。实验是在NuScenes数据集上进行的,因为它包含了多视图图像、LiDAR点云、场景描述文本、关于边框和地图的注释。它包含700个训练视频和150个验证视频,每个视频大约20秒,包含约40个关键帧。每个关键帧由环绕视图相机捕获的6张相机图像和LiDAR捕获的点云组成。我们按照BEVFormer的方法,将nuScenes中10个常用的3D对象类别编码为不同的颜色,并投影到图像空间中。
基线方法。分别为多视图图像生成和LiDAR点云生成任务采用了基线方法。对于图像生成,我们将与自动驾驶场景中的现有多视图图像生成方法进行比较。对于LiDAR,我们复现了UltraLiDAR 并将其作为基线。
训练方案。训练分为三个阶段。第一阶段从SD 2.1开始训练一个跨视图相机生成模型,并新增了关于跨视图、图像条件和深度估计的模块。第二阶段从头开始训练一个LiDAR生成模型。第三阶段从前两个阶段开始训练联合生成模型。前两个阶段的实验在16个V100 (32G) GPU上进行,最后一个阶段在8个A800 (80GB) GPU上进行。图像被调整大小为448x256,同时基本保持纵横比不变。LiDAR点被限制在100m x 100m的范围内。对于预测模型,我们使用长度为8的片段,过去观测的数量为4。条件丢弃和联合丢弃的比率都设置为30%。
评估指标。生成的图像和视频通过Frechet Inception Distance (FID) 和Frechet Video Distance (FVD) 进行评估。通过比较生成结果的真实位置和检测位置,利用mAP(平均精度均值)指标来衡量生成的准确性,并根据基线方法的评估规则选择BEVFusion 或BEVFormer 作为检测模型。生成的LiDAR点根据4D-Occ的做法,通过Chamfer距离、L1误差(L1均值/中位数)和相对L1误差(AbsRel均值/中位数)进行评估。
#理想汽车大模型算法工程师面试
被摁在地上摩擦
最近面试了理想汽车大模型岗位,被面试官强度拉满了...不仅问到了很多大模型的基础,从通用大模型到大模型微调,再到自动驾驶多模态大模型全方面被拷打,尤其是对大模型如何落地自动驾驶进行了很长时间的讨论。毕竟理想的VLM是国内首个上车的,这块的经验积累还是比较丰富。
本文章主要记录了本小菜研找实习的坎坷历程,欢迎大佬们给建议!!!
1. 自我介绍
自我介绍环节主要是让双方进入快速面试状态,这块没什么特别注意的,别磕巴就好,主要聊聊个人基本信息、教育背景、工作经历和技能特长等等。
2. 项目面
因为我简历上面写一个RAG项目,所以面试官主要围绕RAG进行提问:
- 问聊一下RAG项目总体思路?
- 在做RAG项目过程中遇到哪些问题?怎么解决的?
- RAG项目里面有哪一些亮点?目前开源的RAG项目非常多,你的项目和他们有什么区别?
- ...
通用大模型是面试的重点,面试官比较关心有没有横向对比近一年开源的SOTA大模型,这些模型在不同任务上有什么优劣势,以及大模型微调比较细致的思考,这块涉及:
- 阿里的Qwen-VL的不同量级模型、任意模态算法X-InstructBLIP、统一视觉任务大模型的Florence2、GPT4o
- 微调涉及应用最广泛的LoRA、Adapter、经典的DPO等等
3. 技术问题回答
3.1 简单介绍一下大模型存在哪些问题?有什么好的解决方法?
- 大模型幻觉问题
- 外挂知识库
- 大模型微调
- 强化学习
- ...
3.2 大模型加速框架了解多少,知不知道原理 如何进行加速优化?
- vLLM
- vLLm 运行大模型非常快主要使用以下方法实现的
- 先进的服务吞吐量
- 通过PageAttention 对attention key & value 内存进行有效的管理
- 对于输入请求的连续批处理
- 高度优化的CUDA kernels
3.3 如何看待自动驾驶大模型?以及如何落地自动驾驶大模型?
这块聊了很多自动驾驶大模型的工作,像经典的DriveGPT4、OpenDriveLab的DriveLM,当然也离不开理想自己的工作DriveVLM,估计也是他们快慢双系统借鉴的核心算法。实战这块我自己跑过DriveLM,面试官还是比较感兴趣的。聊下来,面试官非常关心有没有私有数据集的搭建经历,如何收集数据、设计prompt模板,毕竟业务模型最核心的还是数据。
#SplatAD
首个实现Lidar & 视觉重建大一统框架,仿真闭环再下一城~
在实际部署之前,大规模测试对于确保自动驾驶汽车 (SDV) 等自主机器人的安全至关重要。从收集的日志中生成数字孪生的数据驱动方法提供了一种可扩展的方式来构建多样化、逼真的测试仿真环境。与成本高昂、耗时且受物理约束限制的实际测试不同,模拟可以快速、低成本地探索多种场景,有助于优化自动驾驶车辆的安全性、舒适性和效率。受此启发,出现了多种基于NeRF和3DGS的方法。
最近基于 NeRF 的方法为摄像头和激光雷达联合提供了高保真传感器仿真,与流行的自动驾驶数据集中最常见的传感器装置相匹配。然而,基于 NeRF 的方法渲染速度慢,使得它们成本高昂,难以用于大规模测试。3DGS 为 NeRF 提供了一种有吸引力的替代方案,因为它的加速渲染实现了相当的图像真实感,同时将推理速度提高了一个数量级。然而,基于 3DGS 的自动驾驶设置方法继承了只能渲染相机传感器数据的限制,而忽略了激光雷达的模式。激光雷达能够直接感知 3D 环境,这使其成为现代自动驾驶模块中的不可或缺的工具,因此也是一种重要的仿真模式。
基于上述提到的NeRF和3DGS的相关缺点和不足,在本文中,我们旨在使用 3DGS 来解决相机和激光雷达数据的高效、可区分和逼真的渲染问题。由于激光雷达传感器的独特特性,将3DGS应用于激光雷达面临着独特的挑战。
- 与捕捉密集、规则间距的像素信息的相机传感器不同,激光雷达传感器记录的是稀疏、非线性的点云数据信息,其中存在来自非返回射线的较大空隙
- 大多数激光雷达可以捕捉 360° 的场景全景,而现有方法通常将数据投射到多个深度图像中,这是一种忽略激光雷达稀疏结构的低效方法
- 激光雷达受到滚动快门效应的影响,每次扫描需要长达 100 毫秒的时间,在此期间,自我车辆可能会移动几米,这违反了 3DGS 的单一来源假设
考虑到上述提到的诸多挑战,我们提出了一种新颖的视图合成方法,它统一了摄像头和激光雷达渲染,专为实时渲染大规模动态交通场景而设计,称之为SplatAD。此外,我们在多个流行的自动驾驶数据集上进行了大量的实验验证,相关的实验结果均表明我们提出的SplatAD算法模型的有效性和通用性,并且在所有数据集上取得了SOTA的性能表现。
论文链接:https://arxiv.org/pdf/2411.16816
算法模型网络结构&技术细节梳理
在详细介绍本文提出的算法模型SplatAD之前,下图展示了我们算法模型的整体网络结构。
Scene representation(场景表达)
我们的场景表示建立在 3DGS 的基础上,但进行了关键更改以处理自动驾驶场景的具体情况,并允许从同一表示中进行摄像头和激光雷达渲染。与 3DGS 一样,每个场景都由一组具有可学习占用率的半透明 3D 高斯表示。我们为每个高斯分配一个可学习的基色和特征向量。最后,我们的表示包含每个传感器的可学习嵌入,以模拟它们特定的外观特征。
为了处理动态,我们遵循常用的场景图分解,将场景分为静态背景和一组动态参与者。每个动态参与者都由一个 3D 边界框和一系列位姿描述,这些位姿可以从现成的目标检测器和跟踪器或标注中获得。
每个高斯函数都有一个不可学习的 ID,表示它是否被分配给静态世界,或者它属于哪个参与者。对于分配给参与者的高斯函数,它们的均值和协方差在相应轴对齐边界框的局部坐标系中表示。为了在给定时间构建整个场景,分配给边界框的高斯函数会根据参与者的位姿转换为世界坐标。由于参与者的位姿估计可能不准确,我们使用可学习的偏移量对其进行调整。此外,每个位姿都有一个根据位姿差异初始化的速度和一个可学习的速度偏移量。
Camera rendering(相机渲染)
给定一个摆好位置的相机,我们在相应的捕获时间处组成一组高斯函数,并使用3DGS中高效的基于图块的渲染来渲染图像。虽然我们保留了 3DGS 的高阶步骤,但我们引入了关键的调整,以更好地模拟自动驾驶数据的独特特征。
Projection, tiling, and sorting
每个均值和协方差都从世界坐标转换为相机坐标。然后使用透视投影将均值转换为图像空间,而协方差则使用投影的雅可比矩阵的上两行进行转换。视锥体外的高斯函数会被剔除,为了提高效率,3DGS 使用覆盖 99% 置信度的方形轴对齐边界框来近似高斯函数的范围。此外,3DGS将图像划分为图块,每个图块的尺寸为16×16像素,并将高斯函数分配给它们相交的所有图块,在某些必要情况下,可以复制这些图块。这样,每个像素在光栅化过程中只需处理所有高斯函数的一个子集。最后,根据高斯函数平均值的深度对高斯函数进行排序。
Rolling shutter
许多相机使用滚动快门,其中图像的捕获不是即时的,而是逐行进行的,从而允许相机在曝光期间移动。先前的研究工作强调了由于自动驾驶数据中存在高传感器速度而对滚动快门效应进行建模的重要性,他们基于光线追踪的方法可以通过移动每条光线的原点轻松解释这一点。对于 3DGS,等效方法需要将所有 3D 高斯投影到曝光期间遇到的所有相机姿势,因为高斯相对于相机的位置会随时间而变化。
具体来说,每个高斯相对于相机的速度被投射到图像空间,并且它们的像素均值在光栅化过程中根据像素的捕获时间进行调整。然而,由于只考虑静态场景,因此我们调整公式以考虑动态。对于每个高斯,其像素速度近似为如下的公式。
我们通过增加近似高斯范围来考虑剔除高斯函数和检查高斯函数与图块之间的交点时的像素速度。我们使用覆盖三个标准差的矩形,而不是 3DGS 使用的正方形。范围的增加对应于滚动快门时间内高斯均值覆盖的区域,假设传感器时间戳处于曝光的中间。由于情况并非总是如此,我们还包括一个可学习的时间偏移,描述传感器时间戳和曝光中间之间的差异。
Rasterization(光栅化)
3DGS 通过为每个图块启动一个线程块并将每个线程分配给图块内的像素来并行光栅化像素。对于每个像素,其坐标都是从块和线程索引推断出来的。由此,我们发现像素的捕获时间与图像中间行之间的时间差为如下的形式。
为了栅格化一个像素,我们将 RGB 值和与当前图块相交的深度排序高斯特征混合在一起。
我们使用小型CNN算法模型建模视图相关效果。给定特征图、相应的射线方向和特定于相机的学习embedding,它可以预测逐像素的仿射映射。此外,我们发现,使用小型 CNN 代替多层感知机对于高效纹理建模至关重要。
Lidar rendering(激光雷达渲染)
激光雷达传感器使自动驾驶汽车能够测量一组离散点的距离和反射率(强度)。它们通过发射激光束脉冲并测量飞行时间来确定距离和反射率的返回功率。
大多数 AD 数据集部署的激光雷达使用多个激光二极管安装在垂直阵列中,其中二极管阵列旋转以捕获 360° 数据,并且单次扫描通常需要 100 毫秒才能捕获。因此,我们专注于这种类型的激光雷达。但是,我们注意到,通过相应地修改投影,我们的方法可以轻松地对其他类型的激光雷达(例如固态激光雷达)进行建模。我们提出的激光雷达渲染遵循图像渲染,但我们修改了每个组件以准确模拟激光雷达特性。.
Projection
对于一个在捕获时刻构成的姿态激光雷达和高斯分布,我们将每个均值和协方差从世界坐标转换为激光雷达坐标。原始激光雷达数据通常以球面坐标方位角、仰角和距离捕获。因此,我们将高斯均值从激光雷达坐标转换为球面坐标
与相机相同,我们通过近似其在传感器空间中的影响来解释滚动快门效应。
Tiling and sorting
3DGS 效率的核心在于其基于图块的栅格化。虽然激光雷达通常具有固定的方位角分辨率,但许多激光雷达使用二极管之间的非等距间距来获得感兴趣的区域的更高分辨率,从而产生非线性高程分辨率,如下图所示。
Rasterization
使用我们提出的可微分的基于图块的栅格化器渲染激光雷达数据。同样,每个图块启动一个线程块,其中每个线程负责栅格化一个激光雷达点。每个线程都提供方位角、仰角和捕获时间以供栅格化。这些要么根据激光雷达规格确定要么在训练时根据现有点云计算。原因在于,对于训练,不能期望数据完全遵循直线扫描线。因此,我们不能遵循图像策略并依靠块和线程索引来直接推断像素坐标。此外,激光雷达射线的方位角和仰角不一定决定其与激光雷达扫描中心的时间偏移。为了渲染某个点的预期范围,我们将滚动快门校正范围与每个高斯混合。
实验结果&评价指标
为了验证我们提出的SplatAD算法模型的鲁棒性和泛化性,我们使用同一组超参数在多个流行的自动驾驶数据集PandaSet、Argoverse2以及nuScenes上对其进行了评估。对于每个数据集,我们将 SplatAD 与针对自动驾驶数据集上最佳的基于NeRF 和基于 3DGS 的方法进行比较,以对相机和激光雷达数据进行新颖的视图合成。我们使用标准 NVS 指标 PSNR、SSIM 和 LPIPSon 来评估图像的渲染质量,相关的实验结果如下表所示。
在图像质量方面,SplatAD 始终优于现有的 3DGS 方法,并且对于三个考虑的数据集有很大的差距。此外,我们的方法在所有 NVS 指标中都比 NeuRAD 的 SOTA 结果有所改进,同时将图像渲染速度提高了一个数量级。我们提供定性比较的可视化结果,如下表所示。
此外,为了衡量方法建模能力的上限,我们在PandaSet数据集上总结了重建指标,如下表所示。
在这里,方法按顺序对所有数据进行训练,并在相同的视图上进行评估。此外,我们为所有方法启用传感器位姿优化,以解决任何位姿不准确的问题。与 NVS 设置相比,除 UniSim 之外的所有方法都显示出使用额外训练数据的改进。SplatAD 实现了 SOTA 结果,同时渲染速度比以前的最佳方法快 10 倍。此外,我们注意到 SplatAD 在验证图像上的表现与之前的 3DGS方法的重建结果相当。
我们研究了 SplatAD 推广到与训练期间遇到的视图有很大不同的视图的能力。我们使用在每隔一帧上训练的模型,并使用了三种设置:水平移动自车、垂直移动自车,并对所有动态参与者应用移位和旋转。我们使用 DINOv2 特征输出Frechet 距离,因为这些特征已被证明比使用 Inception-v3 更符合人类感知。但是,我们注意到,使用 Inception-v3 特征不会改变模型性能或我们的结论。下表展示了 SplatAD 学习有意义的表示以进行泛化的能力,明显优于其他 3DGS 方法。
结论
在这项工作中,我们提出了SplatAD算法框架,这是首个从3D高斯模型渲染相机和激光雷达数据的方法。我们将精确的传感器建模与高效的算法相结合,实现了SOTA的新型视图合成结果,并进一步提升了算法模型的渲染速度。
#DroidSplat
相机标定已成过去式!无需内外参的SLAM新SOTA
导读:
随着新视角合成技术的发展,SLAM技术与NeRF等视角合成技术的结合产物--神经隐式SLAM在近期得到了充分的研究。然而,单纯依赖这些方法的SLAM系统在跟踪性能上仍落后于传统SLAM和端到端的SLAM系统。此外,这些方法还对相机的参数标定提出了很高的要求,往往需要进行额外的标定工作确保算法能够稳定运行。
论文标题:DROID-Splat Combining end-to-end SLAM with 3D Gaussian Splatting
论文作者:Christian Homeyer, Leon Begiristain, Christoph Schnörr
论文地址:https://arxiv.org/pdf/2411.17660
为了弥补这一不足,本文提出了一种基于端到端跟踪器的SLAM系统,并结合了基于最新3D Gaussian Splatting(3DGS)的渲染器。该框架名为DroidSplat,能够在常见的SLAM基准测试中实现先进的跟踪和渲染效果。通过在现代SLAM系统中实现多个模块并行运行,该方法可以在普通消费级GPU上进行快速推理。
该研究的重要意义在于,结合单目深度预测和相机标定的新进展,DroidSplat能够在没有已知相机内参的情况下,从而减少了对于标定的需求,在工程化的场景中能够节约大量的人力成本。这为在复杂环境下实现高效、精准的SLAM系统提供了新的可能,并推动了SLAM技术在实际工程应用中的发展。
▲图1|效果初览(DROID-Splat能够在已知或未知内参的情况下,实现照片级真实感的重建。)
同时定位与建图(SLAM)一直是计算机视觉中的一个长期难题,广泛应用于机器人技术、自动驾驶和增强现实等领域。传统的SLAM系统主要依靠手工设计的特征来重建准确的里程计和几何结构,但通常只能生成稀疏或半稠密的环境表示。而端到端的SLAM系统通过使用学习到的特征和稠密重建目标,提升了系统的鲁棒性和精度,但它们往往无法优化出照片级真实感的场景。
最近的场景合成技术的进展使得独立的SLAM系统能够增加渲染模块,从而实现对于场景观测的实时渲染。然而,尽管这些系统在某些方面有所进展,其跟踪性能仍然不如传统SLAM系统和端到端SLAM系统。为了解决这一问题,本文提出了一种名为DROID-Splat的SLAM系统,结合了密集端到端光流和使用3DGS技术的密集渲染目标。本的系统在保留其SLAM系统灵活性的基础上,通过支持单目和RGBD推理,能够在消费级GPU上实现快速的跟踪推理,并能迅速优化出照片级真实感的场景重建。
DROID-Splat框架由三个主要部分组成:i) 端到端追踪 ii) 回环检测 iii) 可微分渲染 。作者还进一步结合了单目深度预测的最新进展,集成了当前的相机标定目标,展示了在未知相机内参的情况下,如何稳健地处理实际数据。该研究展示了通过结合密集端到端跟踪器与密集3DGS重建的方法,可以有效地重建视频中的场景,为SLAM技术的发展提供了新的视角。
▲图2|全文方法总览
本文旨在实现照片级真实感的密集场景重建。为此,作者采用了一个密集的端到端跟踪器,该跟踪器为每个像素提供可靠的深度(或视差)。通过对深度图进行滤波,仅保留共视点或高置信度区域,作者将处理后的数据输入渲染模块,该模块针对每个像素优化高斯超原型,并基于渲染目标对场景进行密集化。由于3DGS的轻量级特性,作者能够实时将该渲染目标与跟踪系统并行运行。该系统的整体框架通过整合常见的SLAM组件系统地构建,最终在统一的框架下实现了最先进的在线照片级真实感重建。
该系统结合了基于光流的目标进行端到端跟踪,并重建里程计和密集的初始地图。跟踪目标的灵活性使得系统能够根据需要优化相机内参或先验尺度与偏移。同时,采用最先进的3DGS技术,基于渲染目标学习照片级真实感的重建。由于所有组件都是可微分且能够并行运行,系统能够实现各部分的灵活互动。接下来,笔者将从端到端跟踪、闭环检测和可微分渲染三个方向,详细介绍具体的方法实现。
■2.1 端到端跟踪
该系统基于在线端到端系统DROIDSLAM构建。通过从有序的图像流构建一个帧图(V,E)。该结构实际上是一个关键帧缓冲区,存储着跟踪状态变量,如视差图和相机姿态。密集的光流通过递归神经网络估算。给定场景中足够的运动,将一个关键帧插入图中。边表示帧和帧 之间的共视性。随着图的动态构建和维护,系统对图进行可微分的束调整。通过当前的姿态和视差状态,可以计算对应关系。特征、图像上下文和隐藏状态被输入到卷积GRU中以生成更新。GRU生成残差场和关联的置信度。残差指导当前的对应关系,即。结合学习到的姿态估计置信度,这为可微分的束调整优化提供动力。跟踪基于重投影损失进行优化:
其中,。该通用损失函数可以灵活地用于监督视差和姿态,也可以优化相机参数θ:
这部分的内容涵盖比较多的数学公式,理解起来比较困难,笔者在这里进行通俗的讲解,简单来说,该系统中首先结合常见的视觉SLAM中的模块(关键帧提取,共视图构建)的方式,对输入的图像进行一次相机位姿追踪,通过做视觉SLAM的形式还原相机的位姿,并生成对应的深度信息,两个优化的函数分别是利用重投影误差以及深度作为监督,只是这里作者为了提升计算速度,直接将视差作为优化项代入了,减少了一步从视差到深度的换算。
■2.2 闭环检测
视觉里程计的准确性和鲁棒性不仅依赖于优化本身,特别依赖于前后端图结构。通过对潜在闭环候选点的长期连接运行更新操作,可以补偿累积的漂移。与基于递归流网络检测低明显运动的候选点的方法不同,本文通过直接的视觉相似性取得了更好的效果。该方法使用最新的端到端特征进行位置识别任务。对于每个到来的关键帧,计算其视觉特征并将其插入FAISS数据库。然后检查所有历史帧的最近邻。如果找到候选对,且满足特征距离、相机朝向距离和帧间距要求,则将其视为闭环候选,并通过向后端添加双向边来增强图结构。此过程在CPU上并行运行,附加的成本较低。
■2.3 可微分渲染
本文利用3DGS定义一组三维点 ,并将其与密集跟踪地图关联。每个高斯点具有旋转、缩放、密度和球面谐波系数。高斯点通过下采样后初始化,并通过反向传播在密集渲染损失上进行优化。渲染过程定义为:
其中,表示从球面谐波转换得到的颜色,。这使得能够在给定关键帧时渲染地图,并生成图像和深度图。3DGS利用混合渲染损失进行优化:
通过与参考图像和深度图的比较,进行反向传播。每次更新渲染器时,都通过优化一批相机来提高场景重建质量。由于每个组件都是可微分的,理论上可以通过渲染目标优化关键帧姿态,并将其反馈给跟踪器。研究表明,可以通过结合密集渲染目标进一步优化系统的性能。
这部分的内容也涉及到比较复杂的数学知识,笔者在这里也进行通俗的解释,可微分渲染的目的则是使用3DGS在渲染上的优势,实现实时的照片级渲染,而渲染过程中需要的两个重要参数,第一个是相机的位姿信息,这部分已经由端到端追踪模块通过做VSLAM获得了,第二个则是3DGS的内在属性,这会在算法运行的过程中不断优化更新,由于整个过程都是可微的,因此梯度可以很顺利的沿着网络进行回传,从而进一步提升整个算法框架的运行速度。
实验部分,作者主要对该研究定位精度,渲染质量以及深度估计这三个方面的性能进行了定性和定量的实验,充分说明了本问方法的可行性和有效性。
▲图3|消融实验
▲图4|渲染质量量化实验
图3和图4分别是消融实验以及渲染质量的量化实验,作者上来就进行消融实验的目的是在于本文中引入了诸多区别于传统方法的特色模块,这些特色模块在方法中的具体贡献则主要通过消融实验体现,从图3能够看出,通过模块的消融,很好的体现了每个特色模块(如回环检测,优化)对于本方法在精度,误差控制各个方向的贡献程度。图4则体现了本文在渲染过程中的高质量,在PSNR,LPIPS等各项指标上都能够取得不错的数值。
▲图5|公开数据集追踪精度实验
▲图6|对比实验
图5与图6则是在公开数据集上的追踪实验以及对比实验,图5可以看出在公开数据集上,本文方法能够取得非常不错的成绩,而对比实验则能够击败最近的一众SOTA方法,并且本文还有一个优势,就是可以免除相机参数标定的过程,这是其他方法都不具备的,这些实验不仅能够体现本文庞大的工作量,也能够体现本文方法出色的性能以及作者对于此工作的信心。
▲图7|深度可视化渲染
▲图8|深度恢复可视化实验
图7与图8则为主要是围绕着深度恢复展开的实验,3DGS和NeRF等方法在渲染时虽然能够恢复很好的物体表面RGB和纹理,但是对于深度的估计可谓是一团糟,毕竟缺少直接针对深度的监督手段,而SLAM的加入则很大程度上改进了这一缺陷,因此从图7可以看出,即便是渲染的新视角场景,深度的恢复也相当不错,而图8则能够进一步通过Ground Truth作为参考,非常清晰的体现了本文方法在深度恢复方面具备的突出优势。
该研究将密集的端到端SLAM系统与照片级真实感渲染器相结合,并系统地分析了常见的设计选择。在常见的基准测试中,作者的框架达到了最先进的结果。通过集成最新的单目深度先验,成功地缩小了单目和RGBD SLAM之间的差距,无论是在里程计还是渲染方面。实验表明,在这一层次上,照片级真实感渲染和精确几何重建可以作为互补目标进行优化,其中提升渲染性能会以几何精度的下降为代价。同时,基于渲染目标的优化并未在自然场景中显著提升跟踪器的性能。该框架具有灵活性,能够无缝地重建具有未知内参的实际视频。
展望未来,研究者希望该Python框架能够促进神经网络与SLAM结合的快速实验和进一步研究。近期的基础模型允许直接从图像推断三维场景,而无需测试时优化。集成这类模型为未来的研究提供了一个令人兴奋的方向。此外,将系统扩展到更大、更复杂的场景也是一个有趣的方向。
#哪吒CEO张勇确认下岗
实控人走到台前,全员持股,出海求生
哪吒汽车的波折动荡,有了新进展。
CEO张勇的确下课,但不是以官宣方式,而是出人意料的一封全员信。
全文没提张勇、离职、卸任等字样,但落款署名,已经是新任CEO。
何许人也?
能帮哪吒走出低谷吗?
苦苦追寻的IPO,是会更波折还是云开见月?
哪吒新CEO,随全员信曝光
汽车维基最早爆料了张勇离职哪吒CEO的消息,激起热议甚至超过哪吒历史上任何一次新车、新技术发布。
有人说张勇是“被下课”,还有人说他换了赛道,也有消息说他已经亲自辟谣…
直到这封哪吒全员信发出。
内容主要回顾了哪吒创业10年历程,有大量情感向的表达,但总结重点有这么几个:
1)哪吒汽车的确遭遇困难,“今后只能天天向好,蒸蒸日上”。
2)还留在公司的员工,参与全员持股计划
3)今后经营战略转向海外,国内“适度竞争”
4)继续推动IPO
当然也立了FLAG:
未来 2-3年内能实现销量一半在内、一半在外,2025年内整体毛利率转正,2026年公司整体盈利。
还谈了对公司的改革,包括优化组织、尊重人才、重塑企业文化等等,不过仅限口号,没谈具体措施和方向。
全员信内容就是这些,结合哪吒近半年的动荡波折和业绩表现,并不意外。
真正的关键点,是信的落款署名——哪吒汽车董事长兼CEO 方运舟。
这说明,张勇确实已经“下课”,接替CEO职位的,是方运舟。
与张勇频繁为哪吒站台不同,方运舟之前公开露面不多,但他却是哪吒汽车真正的创始人、背后母公司合众新能源的董事长。
方运舟1975年生人,和张勇同岁,两人还是合肥工业大学拖拉机专业的同学,不过职业经历却大不相同。
1998年方运舟大学毕业后,直接加入了校友老大哥尹同跃建立不久、一辆车都还没造出来的奇瑞汽车,此后一干就是16年。
进入奇瑞工作三年后,方运舟转入了成立不久的“清洁能源汽车专项组”,负责混合动力汽车、替代燃料汽车、电动轿车等清洁能源汽车前沿技术与研发,并且在2003年下线了奇瑞自主研发的第一辆新能源汽车。
方运舟2013年离开奇瑞,到清华大学读博、做博后。后来的头衔是清华大学节能与新能源汽车中心副主任,而该中心的主任,就是他的博士导师——欧阳明高。
2014年方运舟在浙江桐乡创立了浙江合众新能源汽车有限公司,最初计划成为新能源汽车的供应商,后来随着清华资源进入、新能源政策及市场风口起飞,这才顺势转为整车制造商。
此时,张勇还在老东家北汽新能源担任销售总经理。
直到2018年,张勇才加入合众新能源,担任联合创始人、CEO。
张勇加入后,除了行业论坛会议,方运舟就很少再以哪吒“创始人”身份公开露面,直到最近公司陷入困境频繁热搜,他才罕见现身。
张勇离职哪吒CEO
张勇被曝离职的消息一出,瞬间引起热议,并且几经反转。
曝料的重点有这么几条:
1)张勇已经离职哪吒CEO
2)张勇现在加入了物流商用车品牌大力牛魔王
3)哪吒汽车,目前已经由背后大股东委接管
其实,张勇的微博上一次更新还停留自10月14号,进一个多月没动静早就引起了外界的怀疑。
另外几位近期离职的前哪吒员工透露:“10月份张勇就没再露面了。”
甚至就在几天前,哪吒官方对于张勇离职传言仍然不予回应或者未置可否。
于是各种传言出现,有人说张勇下课,是因为接手哪吒的大股东对他不甚满意。
但也有媒体称他们第一时间向张勇本人求证,得到的回复是“纯属扯淡”。
还有一张流出的哪吒媒体群截图显示,张勇卸任CEO转顾问…
直到方运舟全员信发出,证实了CEO一职,张勇的确下课了。
张勇在哪吒汽车一共六年时间,其实也是合众新能源造车真正出成果的6年。
张勇长期在销售一线打拼,曾用4年的时间把北汽新能源的年产销量从0做到了15万台。让北汽新能源成为了国内首家销量突破10万的纯电动车企。
2018年接手合众CEO时,张勇力劝老同学方运舟取一个有记忆点的品牌名称,于是“哪吒汽车”就此诞生。
张勇加入时,团队只有600人,产品也只有一个哪吒N01。2020年3月,张勇带领哪吒汽车发布哪吒U车型,同年10月又推出哪吒V车型。
这两款小型电动车,成了哪吒前期积累销量资本,打响名声的关键车型。
2021年,张勇带领哪吒汽车获得了奇虎360的投资。周鸿祎成为了哪吒汽车的投资人。直到现在,周鸿祎还持有哪吒汽车约9.12%的股份。
此外哪吒汽车还曾获得过宁德时代、海瑞投资、中车集团、深创投、建银国际、北汽产业投资、真为投资基金、华鼎资本、桐乡国投等机构的投资。
2022年1月,张勇带领哪吒汽车实现累计销量10万辆,同年10月,累计销量达到20万辆,整个2022年,也是哪吒汽车的高光时刻,以年销15.21万辆的成绩力压蔚小理成为新势力销冠。
不过随后哪吒从销冠位置快速滑落,2023年,该公司的交付量为12.4万辆。2024年,哪吒汽车的销量继续下滑,前10个月的销量为8.59万辆,同比下滑了12.13%。
哪吒早在2020年就曾计划冲刺科创板,但碰上科创板新政而被迫中止,此后虽相继传出港交所IPO的消息但均无下文,直至今年6月才正式递表港交所。
这3年中,老牌车企如比亚迪、长安、吉利等进入10万元级别的电动车市场,以及小鹏、零跑等新势力要么在技术、要么在车型定位取得关键优势,使得哪吒汽车较为单一的低价竞争力被不断削弱。
而张勇带领的哪吒汽车,试图通过推出高端车型哪吒S和哪吒GT来提升品牌形象和市场地位,但无论是定价还是定位,市场都反应平淡,未能达到预期效果。
IPO招股书透露,哪吒汽车在2021年、2022年、2023年的营收分别是50.869亿元、130.497亿元、135.547亿元,营收增长有放缓迹象。同期该公司的亏损分别是48.4亿元、66.66亿元和68.67亿元,3年累计亏损约184亿元。
到了2024年4月30日,哪吒汽车的现金及现金等价物进一步降至4.03亿元(未经审计),同时短期借款为37.71亿元,贸易应付款项及应付票据为52.8亿元,形成巨大的资金缺口。
哪吒的经营状况也最终“爆雷”,下半年不断传出裁员、欠薪消息。
这一次哪吒IPO,无论是自身经营情况表现、与同行销量表现的对比,还是行业的竞争与格局,与四年前早已是今非昔比。
不过哪吒本身和之前倒下的高合有根本不同,本身还具备资质、工厂、新能源平台、专利等等优质资产,最重要的事还维持着10万左右的年销量,不至于快速倒下。
张勇的退出,一方面当然给哪吒的IPO之路增加不确定性,而从另一方面看,可能也是哪吒汽车全面重置、重启的一个开始。
One more thing
张勇卸任哪吒CEO,实际上是“离职不离开”,他加入的大力牛魔王,是老同学、老战友方运舟实际控制的另一家公司。
以及有短视频平台网友曝光,大力牛魔王的低速物流车,已经出现在了哪吒展厅。
此番腾挪,也被解读为换一种故事讲,实现“曲线”IPO的方法。
但无论如何,早期押注站台哪吒的周鸿祎都巨亏。
#地平线成智驾平权密码
2024财报“三高”成绩亮眼
3月21日,地平线上市后首份财报发布,不出所料成绩十分亮眼。
公告显示,截至2024年12月31日止,地平线全年营收23.84亿元,同比增长53.6%;毛利润18.41亿元,同比增长68.3%。
截至2024年年底,地平线在中国OEM高级辅助驾驶市场占据的市场份额超过40%,在独立第三方高阶自动驾驶解决方案提供商中排名第二,领先位置进一步巩固。
2024年中国乘用车的智能驾驶装配率达到了65%以上,而2024年度新能源汽车渗透率为47.6%,意味着在中国无论是油车还是电车,都在加速向智能化转型。
中国电动汽车百人会《汽车智能化发展报告(2024)智驾篇》报告指出,高阶智驾已经迈过“尝鲜期”,高速NOA、城市NOA等功能,正向10万-20万元的主流价格区间普及。《报告》预计,到2025年年底乘用车NOA渗透率将达到20%,与2024年上半年相比提升近一倍。
2025年被视为智能驾驶技术商业化落地的关键转折点,智驾平权趋势愈发凸显。
地平线创始人兼CEO余凯
可以说,凭借这份财报,地平线已经向行业宣告,要实现智驾平权,地平线已是不可或缺的重要推动力。
用地平线创始人兼CEO余凯的话说,地平线已经成为智驾平权的“最大公约数”。
此外,余凯还表示,地平线的ADAS和AD解决方案,配合征程6系列处理硬件,今年将实现高速NOA级智能驾驶在10万元价格带的普及,同时随着智驾平权的不断演进,未来能看到更高阶的城区NOA级别的智能驾驶在20万元售价的车型的价格带落地。
01
高增长、高毛利、高交付,成绩亮眼
除了营收增长稳定,地平线的毛利和毛利率增长也很稳定。
地平线财报成绩亮眼
地平线的毛利由2021年的人民币3.31亿元增至2022年的6.28亿元,并进一步增至2023年的10.94亿,2024年已经达到18.41亿元,毛利率分别达到70.9%、69.3%、70.5%,以及77.3%,维持较高水平,使得地平线调整后的经营亏损缩窄了1.9亿元。
具体分业务来看,地平线汽车解决方案仍然是绝对大头,营收占比为97%,总收入23.12亿元,同比增长57.2%。其中,产品解决方案业务收入6.64亿元,同比增长31.2%;授权及服务业务收入16.47亿元,同比增长70.9%;非汽车业务收入7185万元,占比3%。
地平线各项业务营收情况
这样的营收得益于市场交付量的持续增长:2024年,地平线商业化量产规模加速扩大,产品解决方案交付量刷新纪录,全年约290万套,累计交付约770万套,增量迅猛;全年定点超100款车型,累计定点超310款车型。
根据高工智能汽车监测数据,2024年1-12月中国市场自主品牌乘用车智驾计算方案市场中,地平线凭借低、中、高全阶计算方案的产品布局以33.97%的市场份额稳居市场第一。根据粗略估计,当前市场“每三台智驾车就有一台使用地平线”。
这样的成绩必然得到投资机构及产业资本的认可。
2025年3月10日,地平线正式被纳入恒生综合指数与恒生科技指数成分股,预计到今年5月底,地平线将成为港股通可投资标的,这无疑将进一步吸引投资者的目光,有望显著提升公司股票的估值与流动性。
值得一提的是,在此次调整后,地平线成为恒生科技指数成分股里,唯一专注智驾科技研发的投资标的。恒生科技旨在反映香港市场中市值最大、成交最活跃的科技上市公司表现。地平线被纳入其中,显然标志着资本市场对其技术实力、市场地位及未来发展潜力的高度认可。
去年10月地平线登陆港股
这一独特地位也得到了顶级投行们的广泛关注和认可。
高盛表示,地平线获纳入恒生科技指数,预计有助于进一步估值重评,因此将目标价由7.9港元上调至11.77港元,并给予“买入”评级。花旗则上调了地平线今明两年的销售量预测25%,目标价由6港元升至12.3港元,并开启90日上行催化观察。
02
凭借软硬一体“护城河”,满足车企全需求
之所以在短时间内取得如此多成绩,主要得益于地平线的技术优势。这不仅体现在单一技术突破上,更是通过软硬结合的全栈能力、量产工程化经验、开放生态模式,构建起支撑智驾平权落地的核心壁垒。
作为中国首个提出并践行软硬结合技术路径的智驾科技公司,其软硬结合的技术理念使得地平线能够提供从芯片硬件到软件算法的全栈解决方案。
同时,地平线从硬到软的全栈自助服务且可提供白盒,对于主机厂而言既能得到功能落地的兜底又能通过白盒进行自主研发,完美匹配大部分主机厂的核心需求,可以更好地满足车企对于智能驾驶系统高性能和高性价比的需求,也是地平线构建差异化竞争的关键所在。
地平线征程6系列具有多重优势
硬件层面,以征程6系列芯片为代表,地平线构建起“硬”实力。
该系列芯片覆盖从10TOPS到560TOPS的全算力范围,能够满足从基础的高级辅助驾驶到高阶智能驾驶的多样化需求。征程6系列还具备高集成度,将CPU、BPU、MCU和GPU四芯合一,能够完成全栈计算任务,以此有效降低系统成本。此外,征程6系列芯片的灵活性使其能够支持不同车企的定制化需求,进一步推动智驾技术的普及。
截至目前,征程6系列已经帮助比亚迪、长安、吉利、奇瑞、广汽车企实现高速NOA级别的智驾技术以及以上的技术。同时,和大众、博世等海外巨头深度合作,后续放量空间很大。
余凯透露,今年地平线在中国OEM高级辅助驾驶市场占据的市场份额有望超过50%。今年一半甚至以上的出货量都是征程6。
算法和软件方面,地平线也具备深厚的技术积累。其推出的Horizon SuperDrive(HSD)全场景智能驾驶解决方案,基于领先的软硬结合技术,能够实现无图架构下的全天候全域零接管能力,突破了地理围栏限制。
此外,地平线还提供了包括算法开发工具链“地平线天工开物”、高阶自动驾驶嵌入式中间件“地平线踏歌”等在内的技术栈,支持客户快速开发和迭代智能驾驶应用。
地平线高阶智驾方案将于今年3季度量产
据地平线透露,HSD将于2025年第三季度实现首款量产合作车型交付。
为了能在技术上持续保持领先,地平线对技术方面极为重视,每年以数十亿元的研发投入,构筑技术护城河。
截至2024年12月31日止年度,地平线的研发开支为人民币31.56亿元,同比增加33.4%,但研发支出占总收入的比重逐步收窄,已形成“技术研发-产品量产-收益反哺”的良性循环。目前地平线研发人员占总员工70%以上,核心成员曾20多次在各项国际竞赛中获得全球第一。
03
落地超300款车型,智驾赛道“幕后英雄”
2024年成绩斐然,2025年地平线还在寻求继续突破。
目前,地平线与超40家车企合作超300款车型,已有170+款量产上市车型,服务超500万位车主的智慧出行体验。
地平线已经牵手超40家车企
随着征程6系列在2025年量产交付,地平线智驾方案累积出货量也将在2025年正式跨越1000万量产大关,将成为国内首个突破千万级量产的智驾科技品牌。
自今年起,已经可以统计的是:
比亚迪预计销量规模最大的“天神之眼C”高阶智驾系统搭载地平线征程6系列,将在第二代元Plus、秦L EV、海豹05 DM-i等爆款车型落地;
吉利“千里浩瀚”智驾系统中主推的H3档,也将搭载地平线征程6M;
奇瑞最新发布的猎鹰智驾系统中的主力猎鹰500,也将采用地平线征程6E和征程6M;
理想新一代AD Pro智驾系统将从征程5升级至征程6M;
长安天枢智驾计划及深蓝自主研发的DEEPAL AD Pro采用地平线征程3,未来也将采用地平线征程6;
广汽此前已宣布首发合作征程6,其发布的“星灵智行”未来也将采用征程6方案。
地平线征程6系列量产落地比亚迪天神之眼
能在短时间内拿下如此多订单,除了产品、技术过硬,地平线的高度灵活、可拓展的量产合作模式,也是赢得客户青睐的重要原因。
从IP开放授权到智驾解决方案交付,地平线能够为客户提供全链路的量产开发支持与平台化服务。
地平线的产品包含全栈方案以及其中的算法、软件、开发工具和处理硬件,且任何一部分都可以独立实现商业化,车企可“按需取用”,有效降低了车企研发成本与周期。
目前,博世、大陆、四维图新、福瑞泰克、轻舟智航、鉴智机器人、易航智能等多家行业头部软硬件合作伙伴已基于征程6系列开发差异化的智驾解决方案,并斩获多家头部主机厂客户的量产定点。
在国际合作方面,余凯表示,目前地平线和德国大陆集团成立了一家合资公司;也与德国博世也达成了深度合作的伙伴关系。“作为中国车企的首选合作伙伴也一定会随着中国车企的产品出海。”
可以说,地平线凭借其软硬结合的全栈技术能力、高性能且灵活的芯片解决方案、先进的算法与软件平台、成本控制与量产能力、广泛的合作伙伴与市场认可、持续的技术创新与前瞻性布局以及推动智驾平权的商业模式,在智驾平权趋势中展现出强大的技术优势。
地平线有望从“中国第一”迈向“全球标杆”,成为智能汽车时代的核心赋能者。
#NuGrounding
多模态大模型加持,首个面向自动驾驶的环视3D视觉定位~
多视角3D视觉定位对于自动驾驶车辆理解自然语言并定位复杂环境中的目标物体至关重要。然而,现有的数据集和方法受限于粗粒度的语言指令,且未能充分集成3D几何推理与语言理解能力。为此,我们提出了NuGrounding,这是首个面向自动驾驶的多视角3D视觉定位大规模基准数据集。为了构建NuGrounding,我们提出了一种层次化构建(HoG)方法,生成分层的多级指令,确保覆盖人类语言模式。为了解决这一挑战性数据集,我们提出了一种新颖的范式,巧妙地将多模态大语言模型的指令理解能力与专有检测模型的精确定位能力结合起来。我们的方法引入了两个解耦的任务token和一个上下文query,用以聚合3D几何信息和语义指令,随后通过融合解码器精炼空间-语义特征,从而实现精确定位。实验表明我们的方法在精度和召回率上分别达到了0.59和0.64,相较于适配后的主流3D场景理解模型,分别提高了50.8%和54.7%。
领域介绍
多视角3D视觉定位在自动驾驶车辆通过自然语言指令理解驾驶环境方面发挥着重要的作用。这一过程涉及将多视角图像和文本指令分析集成到统一的3D物体定位框架中,架起了人类意图与机器感知之间的桥梁。通过促进以人为中心的场景理解,它为更安全、更直观的人车交互开辟了道路。
尽管基于语言的自动驾驶系统已经取得了显著进展,现有的数据集由于指令过于简化、规模有限以及任务粗粒度,无法满足多视角3D视觉定位的需求。如表1所示,先前的视觉定位数据集仅关注2D像素级的物体定位,缺乏3D几何表示;而其他数据集则集中于单视角图像,忽视了整体的多视角场景理解。此外,这些数据集在指令的多样性和数量上也存在不足,无法涵盖广泛的场景。最近的研究主要解决了场景级任务(如视觉问答)或单物体描述任务(如稠密标注),但无法应对实例级的多物体定位任务。
为填补这些空白,我们引入了NuGrounding数据集,这是首个面向自动驾驶的多视角3D视觉定位大规模基准数据集。与先前的工作不同,NuGrounding支持多物体、实例级定位,并在文本指令的复杂性和数量上达到平衡。为构建该数据集,我们通过自动标注和少量人工验证,从NuScenes中收集了物体属性。接着,我们提出了层次化构建(HoG)方法,用以生成分层的多级文本指令。
多视角3D视觉定位任务需要同时具备复杂的人类指令理解和精细的场景理解。如图1(a)所示,先前的研究通常将多视角图像编码为BEV特征,并将3D空间推理能力集成到多模态大语言模型中。然而,这些方法主要关注于生成文本,限制了其在精准定位物体的效果。如图1(b)所示,最近的方法尝试通过3Dquery将LLM的隐藏层向量解码为3D框回归任务。然而,这些3Dquery位于语义向量空间中,缺乏细粒度的3D几何细节,从而阻碍了精确的3D定位。
为此,我们提出了一种多视角3D视觉定位框架,这是一种新颖的范式,巧妙地将多模态大模型的指令理解能力与专有检测模型的精准物体定位能力结合起来,如图1(c)所示。具体来说,我们首先采用基于BEV的检测器提取稠密的BEV特征,并生成带有3D几何先验的实例级物体query。其次,我们将单一任务token解耦为文本提示token和下游嵌入token,帮助我们预定义的上下文query聚合3D几何信息和语义指令。最后,我们引入了融合解码器,将语义信息与3D空间细节进行整合,从而预测物体边界框。该框架实现了复杂人类指令理解与多视角场景感知来进行精确的物体定位。
总体而言,我们的贡献可以总结为以下几点:
- 我们引入了NuGrounding数据集,这是首个面向自动驾驶的多视角3D视觉定位大规模数据集。为确保数据集的多样性、可扩展性和泛化能力,我们提出了层次化构建(HoG)方法来构建NuGrounding。
- 我们提出了多视角3D视觉定位框架,这是一种新颖的范式,巧妙地将多模态大模型的指令理解能力与专有检测模型的精确物体定位能力结合起来。
- 我们将现有的主流方法适配到NuGrounding数据集上并进行了评估,建立了一个全面的基准。实验结果表明,我们的方法显著超越了改编的基线,精度提高了50.8%,召回率提高了54.7%。
NuGrounding数据集
现有的驾驶视觉理解数据集由于提示过于简化、规模有限以及任务粗粒度,不适合用于多视角3D视觉定位。为了解决这些问题,我们提出了首个多视角3D视觉定位数据集NuGrounding,该数据集基于NuScenes构建。此外,我们还提出了层次化构建(HoG)方法,用于生成分层的多级文本提示。具体如图2所示,我们首先为每个物体注释多种的常见属性。然后,将这些属性填入HoG方法中,以获得文本指令。
物体属性采集
在用自然语言描述特定物体时,人们通常关注物体的固有属性:类别、外观、运动状态和相对于自车的空间关系。因此,我们对这四种属性类型进行了实例级标注。类别:我们采用了NuScenes中十个常见的物体类别。外观:NuPrompt手动注释了视频序列中的颜色信息,TOD3Cap则使用预训练的标注模型进行自动化的颜色提取。我们将这两个数据集中的颜色标注合并,并对不一致的标注进行细致的人工验证。运动属性:我们通过计算帧间位移来估计物体的速度,并使用0.3 m/s的阈值将运动状态分为移动和静止。空间关系:我们遵循NuScenesQA的做法,定义了六种关系,分别对应六个相机视角。每种关系在鸟瞰图平面内涵盖一个60°的视场角,以确保唯一性。
文本分层构建
在采集了实例级属性之后,我们结合这些属性,通过提出的层次化构建方法(HoG)生成场景级文本提示。HoG方法不仅能够涵盖各种人类指令,还能有效防止归纳偏差,如下两点所述。
首先,人们往往通过共享属性描述一组物体(我周围的行人),但通过独特的属性组合来定位特定物体(我左前方正在移动的红色轿车)。属性组合的数量与指示的特定性和提示的复杂性相关。这启发了我们采用分层提示生成策略,通过控制堆叠属性的数量,生成多个难度级别的提示,从而更全面地覆盖人类描述模式。
其次,若没有层次结构地结合所有四种属性类型,可能会导致归纳偏差。例如,在只有一辆车的场景中,“我左前方正在移动的红色轿车”和“那辆车”指的是同一物体。如果在大量此类样本上进行训练,可能会引导模型只关注类别属性,而忽视其他属性,从而导致偏差学习。这强调了属性解耦和多层次层次化构建的重要性。
具体而言,我们通过选择不同的属性组合生成了 种模板。选择个属性类型的模板称为-级提示。然后,我们遍历当前场景中物体的所有选择属性,并将它们填入模板中,生成语义表达,如图2所示。
数据统计
NuGrounding从NuScenes中的850个视频中提取了34,149个关键帧,生成了220万个文本提示(每帧63.7个提示)。数据集分为180万个用于训练的提示和40万个用于测试的提示。值得注意的是,NuGrounding通过分层生成具有不同属性组合的提示,以平衡难度级别。如图3(b)所示,每个层的子集保持大致相等的比例,提高泛化能力并防止模型采用文本捷径。此外,NuGrounding支持每个提示多物体引用,每个提示平均引用3.7个物体,如图3(c)所示。
方法论
在自动驾驶场景中的3D视觉定位任务要求具备以下综合能力:多视角场景感知、复杂人类指令理解、精确的3D物体定位。然而,现有的3D检测模型缺乏理解人类指令的能力,而多模态大语言模型在物体定位的精度上存在不足。为此,本文提出了一种新颖的框架,将多模态大模型的指令理解能力与专业检测模型的精确物体定位能力相结合。该框架能够同时实现复杂的人类指令理解和准确的物体定位。
整体结构
我们方法的架构如图4所示。首先,在基于BEV的检测器中,采用了专用的检测编码器,从多视角图像中提取稠密的BEV特征,随后通过基于query的检测解码器,利用提取的特征生成稀疏的实例级物体query。其次,在上下文query聚合器中,物体query作为稀疏的场景表示,连同文本指令一起输入到多模态大语言模型中。此外,我们引入了两个独立的任务token与一个可学习的上下文query。在生成文本响应时,MLLM依据任务token将3D场景信息和文本指令聚合到该上下文query中。最后,在融合解码器中,物体query根据其与上下文query的相关性进行过滤,以消除语义无关的实例级噪声。选定的query通过与所有物体query交互增强其空间信息,并通过与上下文query交互整合语义信息,最终生成融合后的query。最终,这些融合query通过专用目标解码器进行解码。
基于BEV的检测器
根据多视角三维检测方法,基于BEV的检测器通过构建BEV特征提取多视角图像信息,并将其转化为实例级的物体query。
检测编码器。 首先,将多视角图像输入到图像主干网络 中,以提取图像特征。随后,根据相机的投影矩阵,将图像特征转换到网格状的BEV平面,从而构建BEV特征。
检测解码器。 我们初始化一组可学习的三维锚点作为物体query ,其中 是预定义的物体query数量。将这些稀疏的 输入到Transformer架构中,以聚合有用的稠密BEV信息。
上下文query聚合器
在获取到物体query后,我们将其视为稀疏场景信息,并与人类指令一起输入到多模态大语言模型中。随后,上下文query无缝地插入到MLLM推理过程中,以聚合三维场景信息和文本指令信息。最终,MLLM输出文本响应和聚合后的上下文query。
多模态输入。 当前的多模态大模型和基于LLM的自动驾驶模型使用从图像中提取的二维特征作为视觉输入,而没有结合三维几何先验。与之不同,我们将稀疏物体query 作为三维场景的表示输入到MLLM中。为了弥合三维场景信息与广泛预训练的二维MLLM之间的固有差距,我们采用了一个两层MLP 来对齐三维特征与LLM。对齐后的三维特征与token化的文本特征结合,形成完整的多模态输入。
此外,与使用稠密的BEV特征的方法不同,稀疏物体query在直观上与LLM输入模式更加兼容。物体query集中的每个token表示3D场景中一个感兴趣物体的独立表示,并且这些token之间具有内在的空间关联性。
上下文query。 该步骤旨在聚合多模态输入并提炼其有效信息。大多数基于LLM的模型引入任务token机制进行多模态输入的聚合。然而,这些方法中的单一任务token既负责下游任务解码,也负责文本答案的生成。这种权衡可能会阻碍多模态信息的聚合。因此,我们将单一任务token解耦为一个任务符号token,用于标示下一个token将用于聚合;以及一个下游占位符token,其词嵌入将被预定义的上下文query所替代,用于聚合多模态信息。
具体而言,我们首先初始化一个可学习的参数作为上下文query ,其中为LLM最后一层隐藏层的维度。接下来,我们向原有的LLM词汇表中添加两个新token,[DET]和[EMB]。在LLM响应生成过程中,[EMB]总是紧随[DET]之后。 [DET]作为任务符号,标示随后的token将用于多模态信息的聚合。随后生成的[EMB]被排除在计算文本生成交叉熵损失之外,并且其对应的词嵌入被预定义的上下文query所替代,进入接下来的自回归过程。因此,上下文query在自回归机制中发挥作用,有效地聚合三维场景和文本语义信息。该过程公式如下:
文本引导推理。 在上下文query聚合多模态信息的同时,MLLM同时生成文本响应。大多数基于LLM的方法设计了非常简单的响应格式。然而,这些方法忽略了文本响应在引导上下文query进行多模态输入思考和理解方面的潜力。实际上,在LLM的自回归过程中,上下文query不仅与多模态输入交互,还与所有在[DET]之前生成的响应token交互。我们发现,文本响应中的场景和目标物体描述显著影响聚合效果。我们认为,详细的文本响应使得MLLM在推理过程中有更多时间和更多响应token进行合理的思考。这种思考过程增加了模型的复杂性和表示能力,使得上下文query能够理解整个多模态信息,并聚合更多有用的信息。因此,我们在响应中提供了详细的目标物体描述。
融合解码器
在自回归过程期间,上下文query被映射到语义嵌入空间,作为大语言模型最后一层的输出。因此,聚合后的上下文query 在语义和场景理解方面非常丰富,但缺乏三维空间信息和细粒度的几何细节。相反,从基于鸟瞰图的检测器中提取的物体query 拥有丰富的三维几何先验,但缺乏语义指令引导。因此,设计了一个融合解码器,用于将来自 的语义信息与来自 的三维几何信息融合,从而生成融合query ,并随后解码以预测三维边界框。
query筛选器。 query筛选器的目的是筛选出最具语义相关性的物体query ,从而消除不相关的物体噪声。大多数选择方法使用多个离散的文本token来计算token级别的相似度,这可能导致集中于语义无关的文本token,从而选择语义上模糊的物体。相比之下,我们将整个语义信息整合为一个单一的上下文query,以计算语义级别的相似度。这种方法在选择过程中集中关注全局语义信息,从而避免了选择过程中可能出现的语义不一致,确保了深层次的语义一致性。
具体而言,我们首先对上下文query和物体query分别应用两个多层MLP,将它们对齐到一个统一的空间。然后,我们计算它们之间的余弦相似度,得到一个相似度矩阵 ,用以衡量语义相关性。最后,基于语义相似度,我们选择前k个物体query。该过程公式如下:
query融合器。 query融合模块采用变换器架构进行跨模态query融合。具体而言,选定的物体query 会依次输入到自注意力层、物体跨注意力层和语义跨注意力层。在物体跨注意力层中,与原始稀疏场景表示 进行交互,以增强它们的相对空间位置。在语义跨注意力层中, 从 中增强其语义信息。最后,融合后的query用于预测三维边界框。
试验阶段
主流方法比较
由于目前尚无针对多视角三维视觉定位任务和数据集的现有方法,我们将基于MLLM的三维场景理解方法进行适配,即ELM、NuPrompt和OmniDrive,并在我们提出的NuGrounding数据集上进行实验。如表2所示,采用小型骨干网络V2-99的我们提出的方法在性能上超过了所有先前的主流方法。此外,为了提高效率,我们采用了ViT-B,而非更大规模的ViT-L作为骨干网络,尽管如此,我们的方法在四个级别的平均精度上仍达到了0.59的精度、0.64的召回率、0.40的mAP和0.48的NDS,分别领先于NuPrompt的0.30、0.35、0.29和0.26。综上所述,得益于我们提出的三维视觉定位框架和精心设计的模块,我们的方法优于其他同类方法。
消融实验
范式设计。 为了评估框架各组件的影响,我们采用文本推理方法,包括数字、类别和关系作为基线方法。如表3(a)所示,该方法奠定了坚实的基础,达到了0.387 mAP和0.445 NDS。在引入上下文query后,mAP和NDS指标分别提高了0.056和0.042,这表明解耦的任务token和上下文token能够更有效地聚合多模态信息。此外,我们的query选择器也取得了一些效果。
场景表示。 为了与我们的物体query输入进行对比,我们采用了盲输入和bev特征作为视觉输入。表3(b)中的结果清晰地显示了物体query输入的优势。这是因为物体query能够从3D检测器中捕获3D几何先验信息。显然,盲输入结果表明视觉嵌入与LLM token之间的交互是必要的。
文本推理。 我们进行了消融研究,以评估文本推理的影响。如表3(c)所示,随着token长度和细节信息的增加,效果不断改善。这些结果表明,详细的文本响应使得MLLM能够花费更多时间并使用更多响应token进行推理,从而提高了模型的复杂性和表示能力。
query选择器。 我们将物体query的数量从32个变动到900个,以研究其对性能的影响。如表3(d)所示,256个query优于900个query,这表明我们选择了最具语义相关性的物体query,并减少了无关的目标噪声。然而,32个和64个query的结果表明,合理的query数量至关重要。
可视化比较
如图5所示,本文提供了与现有相关工作的可视化对比。这些模型在处理显示的车辆时存在假阳性和假阴性的问题。特别是,NuPrompt错过了红车后面的银色车辆,而OmniDrive未能检测到红车前方的黑色车辆。值得注意的是,我们的方法不仅生成了准确的文本响应,还产生了精确且高质量的3D定位结果。
参考
[1] NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving.
#Chameleon
在自动驾驶技术中,车道拓扑提取是实现无地图导航的核心任务之一。它要求系统不仅能检测出车道和交通元素(如交通灯、标志),还要理解它们之间的复杂关系。例如,判断车辆是否可以左转进入某条车道,就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。然而,现有的解决方案存在明显局限性。一方面,密集视觉提示方法虽然准确,但计算成本高昂,且在实时处理中效率低下,难以应用于实际场景。另一方面,神经符号推理方法虽然效率较高,但在处理复杂场景(如交叉路口)时,常常因为缺乏视觉信息而无法做出准确判断。
为了解决这一难题,清华大学与博世中央研究院RIX联合提出了一个创新的解决方案——Chameleon。它通过一种快慢系统交替的神经符号方法,成功平衡了效率与性能,为自动驾驶领域带来了新的突破。
- 论文链接:https://arxiv.org/pdf/2503.07485
- 开源地址:https:///XR-Lee/neural-symbolic
#GaussianCity
60倍加速,让3D城市瞬间生成
想象一下,一座生机勃勃的 3D 城市在你眼前瞬间成型 —— 没有漫长的计算,没有庞大的存储需求,只有极速的生成和惊人的细节。
然而,现实却远非如此。现有的 3D 城市生成方法,如基于 NeRF 的 CityDreamer [1],虽然能够生成逼真的城市场景,但渲染速度较慢,难以满足游戏、虚拟现实和自动驾驶模拟对实时性的需求。而自动驾驶的 World Models [2],本应在虚拟城市中训练 AI 驾驶员,却因无法保持多视角一致性而步履维艰。
现在,新加坡南洋理工大学 S-Lab 的研究者们提出了 GaussianCity,该工作重新定义了无界 3D 城市生成,让它变得 60 倍更快。过去,你需要数小时才能渲染一片城区,现在,仅需一次前向传播,一座完整的 3D 城市便跃然眼前。无论是游戏开发者、电影制作者,还是自动驾驶研究者,GaussianCity 都能让他们以秒级的速度构建世界。
城市不该等待生成,未来应该即刻抵达。
🎥观看Demo,发现GaussianCity与其他方法的显著差异!
,时长00:25
📄阅读论文,深入了解GaussianCity的技术细节。
- Paper:https://arxiv.org/abs/2406.06526
- Code:https:///hzxie/GaussianCity
- Project Page:https://haozhexie.com/project/gaussian-city
- Live Demo: https://huggingface.co/spaces/hzxie/gaussian-city
引言
3D 城市生成的探索正面临着一个关键挑战:如何在无限扩展的城市场景中实现高效渲染与逼真细节的兼得?现有基于 NeRF 的方法虽能生成细腻的城市景观,但其计算成本极高,难以满足大规模、实时生成的需求。近年来,3D Gaussian Splatting(3D-GS)[3] 凭借其极高的渲染速度和优异的细节表现,成为对象级 3D 生成的新宠。然而,当尝试将 3D-GS 扩展至无界 3D 城市时,面临了存储瓶颈和内存爆炸的问题:数十亿个高斯点的计算需求轻易耗尽上百 GB 的显存,使得城市级别的 3D-GS 生成几乎无法实现。
为了解决这一难题,GaussianCity 应运而生,首个用于无边界 3D 城市生成的生成式 3D Gaussian Splatting 框架。它的贡献可以被归纳为:
- 通过创新性的 BEV-Point 表示,它将 3D 城市的复杂信息高度压缩,使得显存占用不再随场景规模增长,从而避免了 3D-GS 中的内存瓶颈。
- 借助空间感知 BEV-Point 解码器,它能够精准推测 3D 高斯属性,高效生成复杂城市结构。
- 实验表明,GaussianCity 不仅在街景视角和无人机视角下实现了更高质量的 3D 城市生成,还在推理速度上比 CityDreamer 快 60 倍,大幅提高了生成效率。
具体来说,得益于 BEV-Point 的紧凑表示,GaussianCity 可以在生成无界 3D 城市时保持显存占用的恒定,而传统 3D-GS 方法在点数增加时显存使用大幅上升(如下图(b)所示)。同时,BEV-Point 在文件存储增长上也远远低于传统方法(如下图(c)所示)。不仅如此,GaussianCity 在生成质量和效率上都优于现有的 3D 城市生成方法,展现了其在大规模 3D 城市合成中的巨大潜力(如下图(d)所示)。
方法
如上图所示,GaussianCity 将 3D 城市生成过程分为三个主要阶段:BEV-Point的初始化、特征生成和解码。
BEV-Point 初始化
在 3D-GS 中,所有 3D 高斯点在优化过程中都会使用一组预定义的参数进行初始化。然而,随着场景规模的增加,显存需求急剧上升,导致生成大规模场景变得不可行。为此,GaussianCity 采用 BEV-Point 进行优化,以缓解这一问题。
BEV 图 是生成 BEV-Point 的基础,包含三个核心图像:高度图(Height Map)、语义图(Semantic Map)和 密度图(Density Map)。从 BEV 图 中,BEV-Point 被生成:
- 高度图 决定每个点在空间中的 3D 坐标。
- 语义图 提供每个点的语义标签,如建筑、道路等。
- 密度图 调整采样密度,根据不同区域的特征决定是否增加或减少采样点。
BEV-Point 通过只保留可见点大幅减少计算量。由于相机视角固定,场景中不可见的点不影响渲染结果,因而不占用显存。这样,随着场景扩展,显存使用量保持恒定。
为了优化计算,二值密度图根据语义类别调整采样密度。对于简单纹理(如道路、水域)减少密度,复杂纹理(如建筑物)则增加密度。
通过射线交点(Ray Intersection)方法筛选出可见的 BEV-Point,确保仅这些点参与后续渲染和优化,进一步提升计算效率。
BEV-Point 特征生成
在 BEV-Point 表示中,特征可分为三大类:实例属性、BEV-Point 属性和样式查找表。
1.实例属性
实例属性包括每个实例的基本信息,如实例标签、大小和中心坐标等。语义图提供了每个 BEV 点的语义标签。为了处理城市环境中建筑物和车辆的多样性,引入了实例图来区分不同的实例。通过检测连接组件(Connected Components)的方式,将语义图进行实例化,从而得到每个实例的标签、大小和边界框的中心坐标。
2.BEV-Point 属性
在 BEV-Point 初始化时,生成了每个点的绝对坐标,并设定其原点在世界坐标系的中心。为了更精确地描述每个实例的相对位置,相对坐标系被引入。其原点设置在每个实例的中心,并通过标准化的方式来计算相对坐标。
为了融入更多的上下文信息,场景特征
从 BEV 图中提取,并通过点的绝对坐标进行索引,进一步为每个 BEV 点提供更丰富的上下文信息。
3.样式查找表(Style Look-up Table)
在 3D-GS 中,每个 3D 高斯点的外观都由其自身的属性决定,导致存储开销随着高斯点数量的增加而显著增长,使得大规模场景的生成变得不可行。为了解决这一问题,BEV-Point 采用隐向量(Latent Vector)来编码实例的外观,使得相同的实例共享同一个隐向量,并通过样式查找表
为不同实例分配样式,从而减少计算与存储开销。
BEV-Point 解码
BEV-Point 解码器用于从 BEV-Point 特征生成高斯点属性,主要包括五个模块:位置编码器、点序列化器、Point Transformer、Modulated MLPs、以及高斯光栅化器。
1.位置编码器(Positional Encoder)
为了更好地表达空间信息,BEV-Point 坐标和特征不会直接输入网络,而是经过位置编码转换为高维嵌入,从而提供更丰富的表征能力。
2.点序列化器(Point Serializer)
BEV-Point 是无序点云,直接用 MLP 可能无法充分利用其结构信息。因此,我们引入点序列化方法,将点坐标转换为整数索引,使相邻点在数据结构中更具空间连续性,优化信息组织方式。
3.Point Transformer
序列化后的点特征经过 Point Transformer V3 [10] 进一步提取上下文信息,增强 BEV-Point 的全局和局部关系建模能力。
4.Modulated MLPs
在生成 3D 高斯点属性时,MLP 结合 BEV-Point 特征、Point Transformer 提取的特征、实例的样式编码及标签,以确保生成的高斯点具有一致的外观和风格。
5.高斯光栅化器(Gaussian Rasterizer)
最终,结合相机参数,BEV-Point 生成的 3D 高斯点属性通过高斯光栅化器进行渲染。对于未生成的某些属性,如尺度、旋转、透明度,则使用默认值填充。
实验
下图展示了 GaussianCity 和其他 SOTA 方法的对比,这些方法包括 PersistentNature [4]、SceneDreamer [5] 、InfiniCity [6] 和 CityDreamer [1]。实验结果表明,GaussianCity 的效果明显优于其他方法,相比于 CityDreamer 更是取得了 60 倍的加速。
在街景图生成上,GaussianCity 在 KITTI-360 [7] 数据集上进行训练,其生成效果超越了 GSN [8] 和 UrbanGIRAFFE [9] 等多种方法。
总结
本研究提出了 GaussianCity,首个针对无边界 3D 城市生成的生成式 3D Gaussian Splatting 框架。通过引入创新性的 BEV-Point 表示,GaussianCity 在保证高效生成的同时,克服了传统 3D-GS 方法在大规模场景生成中面临的显存瓶颈和存储挑战。该方法不仅实现了在街景和无人机视角下的高质量城市生成,还在推理速度上相比 CityDreamer 提升了 60 倍,显著提高了生成效率。实验结果表明,GaussianCity 能够在确保细节还原的同时,高效处理无边界 3D 城市生成,为大规模虚拟城市的实时合成开辟了新路径。
参考文献
[1] CityDreamer: Compositional Generative Model of Unbounded 3D Cities. CVPR 2024.
[2] A Survey of World Models for Autonomous Driving. arXiv 2501.11260.
[3] 3D Gaussian Splatting for Real-Time Radiance Field Rendering. SIGGRAPH 2023.
[4] Persistent Nature: A Generative Model of Unbounded 3D Worlds. CVPR 2023.
[5] SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections. TPAMI 2023.
[6] InfiniCity: Infinite-Scale City Synthesis. ICCV 2023.
[7] KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding in 2D and 3D. TPAMI 2023.
[8] Unconstrained Scene Generation with Locally Conditioned Radiance Fields. ICCV 2021.
[9] UrbanGIRAFFE: Representing Urban Scenes as Compositional Generative Neural Feature Fields. ICCV 2023.
[10] Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024.
#WoTE
- 论文标题:End-to-End Driving with Online Trajectory Evaluation via BEV World Model
- 项目主页:https:///liyingyanUCAS/WoTE
- 星球链接:https://t.zsxq.com/hOT8Z
核心创新点:
1. BEV空间世界模型架构
- 提出首个基于鸟瞰图(BEV)特征的端到端轨迹评估框架(WoTE),通过单步前馈预测未来BEV状态,相比传统图像级世界模型(如扩散模型)显著降低延迟。利用BEV语义地图的紧凑性,实现高效动态场景建模。
2. 多模态轨迹联合优化机制
- 设计基于K-Means聚类的轨迹锚点生成策略,结合交叉注意力机制实现多模态轨迹联合优化。通过轨迹编码器与BEV特征图的交互,同步完成多轨迹候选生成与场景动态预测。
3. 双模态奖励评估体系
创新性融合模仿奖励(imitation reward)与仿真奖励(simulation reward):
- 模仿奖励通过轨迹锚点与专家轨迹的L2距离计算
- 仿真奖励整合nuPlan模拟器的NC(无责碰撞)、DAC(可驾驶区域合规)、TTC(碰撞时间)、EP(自车进度)、Comfort五维度评估指标
采用加权策略实现安全与效率的动态平衡。
4. 闭环仿真监督范式
提出基于BEV语义地图的监督方案:
- 利用nuPlan等BEV空间交通模拟器生成未来状态真值
- 通过Focal Loss约束BEV语义地图预测
- 结合规则评估器实现奖励信号的端到端可微建模
有效解决多未来状态监督信号缺失的挑战。