2024-12-15,由纽约大学计算机科学助理教授谢赛宁团队联合斯坦福大学的杰出教授李飞飞和耶鲁大学计算机科学与经济学本科生 Rilyn Han 等共同创建了VSI-Bench(Visual-Spatial Intelligence Benchmark)数据集,目的是评估多模态大型语言(MLLMs)在空间认知和理解方面的能力。这个包含超过5000个问题-答案对的数据集覆盖了近290个真实室内场景视频,为AI领域提供了宝贵的资源,推动了视觉空间智能的发展。
一、研究背景:
在人工智能领域,视觉空间智能(VSI)是指机器或系统理解、解释和操作视觉信息的能力,尤其在三维空间中的感知与推理。这一领域的研究对于实现机器人自主导航、增强现实和自动驾驶等技术至关重要。
目前遇到的困难和挑战:
1、多模态大语言模型(MLLMs)在视频理解、文本理解和空间推理方面存在挑战,这些是提高VSI-Bench基准性能的关键瓶颈。
2、目前流行的语言推理技术,如思维链、自洽性和思维树,无法提高空间推理能力,表明需要新的方法来增强MLLMs的空间推理能力。
3、MLLMs在构建全局空间模型方面的能力有限,影响了它们在空间距离估计等任务上的表现。
数据集地址:VSI-Bench|多模态数据集|空间智能数据集
二、让我们一起看一下VSI-Bench数据集
VSI-Bench是一个视觉空间智能基准测试集,包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。
数据集构建:
数据集的构建包括数据收集、统一格式处理、问答对生成和人工审核。通过标准化不同数据集的元信息结构,确保了数据集的一致性,同时利用现有3D重建和理解数据集的物体级注释来生成问题。
数据集特点:
1、真实性和多样性:VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。这种多样化的数据结构有助于训练更加鲁棒的模型,并为开发者提供了丰富的资源用于算法验证和优化。
2、任务多样性:数据集任务分为配置型任务(如物体计数、相对距离等)、测量估计(如物体尺寸、房间大小等)和时空任务(如物体出现顺序),全面覆盖视觉空间智能的多个方面。
3、视频理解:基于视频输入,VSI-Bench测试MLLMs对连续、时间性输入的理解,这种方式比静态图像更接近人类观察世界的方式。
4、数据质量和控制:VSI-Bench基于人工审核确保数据质量,消除歧义和错误标注,提高测试结果的可靠性。
5、技术原理先进:数据集构建基于多个公共室内3D场景重建数据集(如ScanNet、ScanNet++和ARKitScenes),提供高保真度的视频扫描和对象级别的3D注释。
6、问题-答案对生成:基于数据集中的元信息和问题模板自动生成问题-答案对,同时对路线规划任务进行人工标注,确保了问题的清晰性和准确性。
7、模型评估:在零样本设置下评估多种视频支持的MLLMs,采用精确匹配和模糊匹配作为主要评价指标。
8、性能指标:对于多项选择题(MCA)任务使用准确度(ACC),对于数值答案(NA)任务引入新的度量标准——平均相对准确度(MRA)。
9、认知图生成:提示MLLMs预测视频中对象的中心位置,生成认知图,评估模型的内部空间表示和记忆能力。
基准测试 :
VSI-Bench提供了多种任务类型和相应的评估指标,如准确率和平均相对准确率(MRA),用于基准测试和比较不同MLLMs在视觉空间任务上的性能。
无论是在家中、工作场所还是其他地方,感知空间、记住其布局并检索这些空间信息以按需回答问题的能力是视觉空间智能的一个关键方面。最近的 Multimodal LLMs 可以理解一般视频,但是当看到环境的视频记录时,他们能否“空间思考”?他们能否构建一个准确、隐含的“认知地图”,让他们能够回答有关空间的问题?使用 MLLM 增强空间智能的优势和局限性是什么?我们通过设置供 MLLM 观看的视频数据、构建 VQA 基准来检查他们的召回情况以及检查 MLLM 实际记住和理解的内容来深入研究这些问题。
视觉空间智能关键的组成部分:
一、Visual Perception(视觉感知)
指个体对视觉信息的接收和初步处理能力,包括识别物体、形状、颜色和纹理等。
二、Spatial Reasoning(空间推理)
涉及对空间关系的理解和推理,包括如何在三维空间中定位物体、理解物体之间的相对位置等。
1、Egocentric-allocentric Transformation(自我中心-环境中心转换):
指在自我中心视角(从个体的视角看世界)和环境中心视角(从环境的视角看个体)之间转换的能力。这是空间推理的一个重要方面,因为它涉及到视角的转换和空间布局的理解。
- Visuospatial Working Memory(视觉空间工作记忆)
指在短期内保持和操作视觉空间信息的能力,这对于解决需要多个步骤或在一段时间内跟踪空间信息的问题至关重要。
- Perspective Visualization(透视可视化)
指在脑海中从不同角度可视化物体或场景的能力,这有助于理解空间结构和物体的三维布局。
2、Relational Reasoning(关系推理):
涉及理解和推理物体之间的关系,包括距离(Distance)、方向(Direction)和视觉空间常识(Visuospatial Common Sense)。
- 距离(Distance)
指对空间中物体间距离的感知和理解。
- 方向(Direction)
指对空间中方向的感知和理解。
- 视觉空间常识(Visuospatial Common Sense)
涉及对日常视觉空间情境的理解和推理。
三、Temporal Processing(时间处理)
指对时间序列信息的处理能力,如理解事件的先后顺序、持续时间等。
四、Linguistic Intelligence(语言智能)
涉及语言理解和表达能力,这在视觉空间智能中可能与描述空间关系、理解空间相关的语言指令有关。
VSI-Bench 的任务演示。注意:为清晰和简洁,上述问题略作简化。
基准测试管理管道。管道首先将不同的数据集统一为标准化格式和语义空间,以实现一致的处理。然后,通过人工注释和问题模板生成 QA 对。为了确保质量,在所有关键阶段都实施了人工验证,以过滤低质量的视频、注释和模棱两可的 QA 对。
基准测试统计数据。顶部:任务在三个主要类别中的分布。Bottom:视频长度统计信息。
VSI-Bench 上的评估左:深灰色表示所有模型中的最佳结果,浅灰色表示开源模型中的最佳结果。 † 表示 VSI-Bench (tiny) 集的结果。右:包括前 3 个开源模型的结果。
Vision Enabled(带视频)、Vision Disabled(无视频)和 Chance Level(频率)之间的性能比较。Enabled − Disabled 表示 Vision Enabled 和 Vision Disabled 之间的差距,Disabled − Chance 表示 Vision Disabled 和 Chance Level (Freq.) 之间的差距。任务按 Enable − Disable 排序,以便更好地理。
三、让我们一起展望VSI-Bench数据集应用
比如,你最近在翻新你的客厅,想要买个新橱柜来放你的收藏品和书籍。你在网上看中了一个设计感十足的橱柜,但是问题来了:这个橱柜放到你家里会不会太大或者太小?会不会挡住电视或者影响到客厅的布局?
这时候,如果你有一个用VSI-Bench数据集训练过的多模态大型语言模型(MLLM),就能帮你解决这个头疼的问题。这个模型就像是你的私人室内设计师,它能理解视频和图片,还能跟你的语言交流。
首先,你得拍一段你家客厅的视频,或者找一些客厅的照片。然后,你把这些视频和照片上传到模型中,告诉它:“嘿,我想买个新橱柜,你帮我看看这个橱柜放到我家客厅合不合适?”
模型就开始工作了。它通过VSI-Bench数据集学习过如何理解和分析空间,所以它能“看”到你的客厅布局,知道沙发在哪儿,窗户有多大,地毯占了多大面积。它甚至能估算出每个家具的尺寸和它们之间的距离。
然后,模型会在你的视频或图片上模拟那个心仪橱柜的样子。它会告诉你:“根据我对你客厅的分析,这个橱柜的高度是180厘米,宽度是120厘米。你客厅的沙发距离电视墙大概有250厘米,所以橱柜放过去之后,还会剩下70厘米左右的空间。这样看来,橱柜不会挡住你的电视,也不会让客厅显得太拥挤。”
你还可以进一步问模型:“那这个橱柜的颜色和风格跟我家客厅搭不搭?”模型会根据它对颜色和纹理的理解,给你一些建议:“你的客厅主要是现代简约风格,以白色和灰色为主。这个橱柜的颜色是深棕色,可能会让空间显得有点暗,不过它的现代设计元素应该能和你的客厅风格相融合。”
就这样,你不仅能确定橱柜的尺寸是否合适,还能得到一些关于风格搭配的建议。这个模型就像是你的装修小助手,让你在购买家具时更有信心,它让虚拟的模型和真实的空间无缝对接,让家居布置变得更加简单和直观。
更多免费的数据集,请打开:遇见数据集
https://www.selectdataset.com/