2024-10-08,由尼泊尔应用数学与信息学研究所机构创建了TuneVLSeg基准测试框架,这个框架使得Prompt调优在视觉-语言分割模型(VLSMs)的应用变得可行,并推动了对显著领域偏移下模型性能的理解。

一、研究背景:

视觉-语言模型(VLMs)在视觉任务中表现出色,但适应新领域通常需要昂贵的微调。 现有的微调方法对于医学图像分割等任务来说计算成本高昂,并且缺乏泛化能力。

目前遇到困难和挑战:

1、: VLMs在显著领域偏移下的性能不佳,尤其是从自然领域图像到医学数据。

2、缺乏对视觉-语言分割模型(VLSMs)的Prompt调优技术的研究和评估。

3、 需要一种有效的方法来整合各种单模态和多模态Prompt调优技术到VLSMs中。

数据集地址:TuneVLSeg|医学图像分割数据集|视觉-语言模型数据集

二、让我们一起来看一下TuneVLSeg

TuneVLSeg:一个用于评估不同Prompt调优策略在VLSMs上的性能的开源基准测试框架。

TuneVLSeg将各种单模态和多模态提示调整技术整合到VLSMs中,使得提示调整可用于下游具有任意类别数量的分割数据集。TuneVLSeg包括在2个VLSMs中使用的6个不同提示深度的提示调整策略,总共有8种不同的组合。我们在8个不同的医学数据集上测试了各种提示调整,包括3个放射学数据集(乳腺肿瘤、超声心动图、胸部X线病理)和5个非放射学数据集(息肉、溃疡、皮肤癌),以及两个自然领域的分割数据集。

TuneVLSeg:一个开源的基准测试框架,用于将各种单模态和多模态的提示调优技术集成到视觉-语言分割模型(VLSMs)中,以便在不同领域和类别数量的下游分割数据集上进行有效的调优。_机器学习数据集

各种提示调整方法的概述。第一行展示了单模态提示调整方法,第二行显示了多模态提示调整方法。这里仅展示了对第一层的提示调整,相同的概念适用于对多个Transformer块进行提示调整时。

TuneVLSeg:一个开源的基准测试框架,用于将各种单模态和多模态的提示调优技术集成到视觉-语言分割模型(VLSMs)中,以便在不同领域和类别数量的下游分割数据集上进行有效的调优。_调优_02

多模态提示调整架构。为简化起见,这里没有展示从一个模式到另一个模式的条件提示的投影层。同样地,在单模态技术中,只有其中一种提示模态被输入到模型中。

TuneVLSeg:一个开源的基准测试框架,用于将各种单模态和多模态的提示调优技术集成到视觉-语言分割模型(VLSMs)中,以便在不同领域和类别数量的下游分割数据集上进行有效的调优。_AI大模型应用_03

对我们的数据集进行了比较,比较的维度包括类别、类型或模态、器官(针对医学数据集)、前景类别以及它们的划分。

三、让我们一起展望TuneVLSeg应用

以前啊,作为一名放射科医生,我的工作就是每天对着一堆黑白的X光片、CT、MRI图像,用肉眼去分辨哪些是正常的组织,哪些是病变。比如说,要确定一个肿瘤的位置和大小,我得一点点地看,一点点地标记。这活儿不仅费眼睛,还费脑子,更费时间。有时候,不同的医生看同一张片子,得出的结论还不一样。

现在好了,有了TuneVLSeg测试过的智能系统,对我的工作带来了很大的帮助。

这不,有个病人因为咳嗽老不好来检查,我给他做了个胸部CT。拿到片子后,我让智能系统帮我看看,“这里面有没有肺癌的迹象?”结果它很快就在图像上标出了几个小结节,还给出了大小和边缘特征。我一看,这些结节边缘毛糙,形状不规则,感觉很可能是恶性的。

有了这些信息,我就能更快地做出诊断,安排病人做进一步的检查和治疗。而且,我还能告诉病人,这个肿瘤现在还不大,及时手术的话,预后应该会很不错。这样的沟通,让病人也能更放心。同时让我的工作更高效,更准确,也更有成就感。

免费数据集下载网站:遇见数据集https://www.selectdataset.com/