NeurIPS 2024 | HEALNet:异构生物医学数据的多模态融合_ai

今天介绍的是被NeurIPS 2024接收的论文HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data,该论文提出了一种灵活的多模态融合架构用于多模态生物医学建模。

1 摘要

医疗数据收集方面的技术进步,如高通量基因组测序和数字高分辨率组织病理学,促使对多模态生物医学建模的需求不断增加,特别是对图像、表格和图形数据的需求。大多数多模态深度学习方法使用特定于模态的架构,这些架构通常是单独训练的,无法捕获激发不同数据源集成的关键跨模态信息。该论文提出了混合早期融合注意学习网络(HEALNet)——一种灵活的多模态融合架构,它:a)保留特定于模态的结构信息,b)捕获共享潜在空间中的跨模态交互和结构信息,c)可以在训练和推理期间有效处理缺失的模态,d)通过学习原始数据输入而不是不透明的嵌入来实现直观的模型设计。作者对来自癌症基因组图谱(TCGA)的四个癌症数据集的全幻灯片图像和多组学数据进行了多模态生存分析。与其他端到端训练融合模型相比,HEALNet实现了最先进的性能,大大改善了单模态和多模态基线,同时在缺少模态的情况下保持了鲁棒性。

2 引文

多模态机器学习的一个关键挑战是多模态融合,即将结构异构的数据集成到一个共同的表示中,从而降低数据的维数,同时保留显著的生物信号。然而,医疗数据通常由2D或3D图像(组织病理学和放射学)、图形(分子数据)和表格数据(多组学、电子健康记录)组成,其中跨模态关系通常不透明和复杂,模态通常不共享语义,并且对常见表示的探索较少。融合阶段描述了多模态表示从原始(单模态)数据中去除的程度,通常分为早期、中期和晚期融合。

早期的融合方法将原始数据结合在一起,从而允许同时从所有数据模态中训练单个模型。然而,这些方法中的大多数都使用简单的操作,例如串联,它会删除结构信息,或者采用Kronecker积,当应用于多模态和大型矩阵时,可能导致维度爆炸。另一方面,后期融合为每个模态训练单独的模型,这允许捕获显著的结构信息,但阻止模型学习模态之间的相互作用。中间融合方法试图通过在组合每种模态之前学习低级表示(嵌入)来克服这种权衡。这可以在利用每个模态的内部数据结构的同时发现跨模态交互。然而许多中间融合方法的问题是,学习到的潜在表示对人类专家来说是不可解释的,并且处理缺失的模态通常是嘈杂的。为了克服这些问题,作者假设需要更复杂的早期融合方法,称之为混合早期融合,即:a)保留结构信息;b)学习跨模态相互作用;c)处理原始数据,从而允许模型内可解释性。

在本文中,作者提出了混合早期融合注意学习网络(HEALNet),这是一种新型的混合早期融合方法,它利用了早期和中期融合方法的优点,并可扩展到任何数量的模态。HEALNet背后的主要思想是在迭代注意力体系结构中并行使用共享和特定于模态的参数空间。具体来说,一个共享的潜在瓶颈阵列通过网络并迭代更新,从而捕获共享信息并学习数据模态之间的隐性交互。同时,学习每个模态的注意权值,并在各层之间共享以学习特定于模态的结构信息。作者展示了HEALNet对来自癌症基因组图谱(TCGA)数据的四个癌症位点的生存分析任务的多模态效用,结合了多组学(表格)和组织病理学幻灯片(成像)数据。研究结果表明,与其他融合模型相比,HEALNet在所有四种癌症数据集上实现了最先进的一致性指数(c-Index),用于多模态患者生存预测。更具体地说,与最佳单模态基准相比,HEALNet平均提高了7%,与最佳早期、中期和晚期融合基准相比,平均提高了4.5%,作者认为这是对混合早期融合范式的有希望的验证。总之,作者的贡献包括:

  • 保留特定模态的结构:HEALNet优于单模态表格(组学)和成像(组织病理学)基线,而无需专用的特定模态网络拓扑结构。
  • 学习跨模态交互:HEALNet有效捕获跨模态信息,与现有的早期、中期和晚期融合基线相比,实现了显著更高的多模态提升。
  • 处理缺失模态:作者表明HEALNet在推理时有效地处理缺失模态,而不会向模型引入进一步的噪声,这是临床使用多模态模型的常见问题。
  • 模型设计:HEALNet是可以解释的,因为特定于模态的关注权重可以提供关于模型已经学习的内容的见解,而不需要单独的解释方法。作者相信它们对于模型调试和验证以及领域专家都很有用

3 方法

NeurIPS 2024 | HEALNet:异构生物医学数据的多模态融合_AI大模型_02


图1

NeurIPS 2024 | HEALNet:异构生物医学数据的多模态融合_ai_03

3.1 Preliminaries

NeurIPS 2024 | HEALNet:异构生物医学数据的多模态融合_大模型_04

3.2 模型架构

NeurIPS 2024 | HEALNet:异构生物医学数据的多模态融合_人工智能_05

图1描述了该方法的高级可视化表示,显示了:(a)混合早期融合注意学习网络及其关键组件(b)早期融合层(如式3所示)。HEALNet使用注意层是因为它们:a)对输入数据做出更少的假设(例如,与卷积网络相比),b)它们能够通过交叉注意机制为原始模态提供上下文。HEALNet首先初始化一个潜在嵌入变量,该变量迭代地用作对每个融合层的查询,并在每一层通过时使用来自不同模态的信息进行更新。HEALNet之所以选择迭代注意力范式,是因为它在一系列单模态任务上具有很强的竞争力。通过共享潜数组传递模态有助于显著降低维数,同时通过交叉注意层学习重要的结构信息。

3.3 保留结构信息

NeurIPS 2024 | HEALNet:异构生物医学数据的多模态融合_人工智能_06

3.4 高维生物医学数据

基于注意力的架构通常是在庞大的数据集上训练的(这些数据集通常用于视觉和语言任务)。然而,处理生物医学数据的挑战是它们的高维数,而通常只有相对较少的样本(即患者)。例如,一个数据集(如TCGA-BLCA)包含最高分辨率约为64亿像素(80k × 80k像素)的整张幻灯片图像,包括数千个多组学特征,但总共只有几百名患者。这导致了数字病理学中的两个常见问题——过拟合和高计算复杂度。首先,为了抵消过拟合,HEALNet实现了L1和L2正则化。考虑到注意力层需要相对大量的参数,作者发现L1正则化很重要。除此之外,由于其经过验证的鲁棒性和正则化特性,作者选择了自归一化神经网络(SNN)块。其次,在计算限制下处理整个幻灯片图像(wsi)的极高分辨率也是一个挑战。作者通过在下采样2倍和4倍的整张幻灯片图像上提取不重叠的256x256像素补丁来解决这个问题(每像素分别为~0.5和1.0µm)。为了与其他工作的可比性,作者使用在ather100k数据集上预训练的标准ResNet50为每个贴片提取2048维特征向量,该数据集由健康组织和结直肠癌组织的100k组织病理学图像组成。虽然HEALNet在原始补丁数据上也取得了有竞争力的结果,但这需要更大的降采样才能在计算上大规模可行。

3.5 处理缺失模态

NeurIPS 2024 | HEALNet:异构生物医学数据的多模态融合_AI大模型_07

4 实验

4.1 数据集

作者对来自癌症基因组图谱(TCGA)的四个癌症数据集的生存分析任务进行了实证评估。具体地说,作者使用结构异构的模态,例如在表格或图像数据集中形式化的模态。表格数据结构由三个来源组成:大量基因表达(RNAseq)、突变(全基因组测序)和拷贝数变化。HEALNet将它们视为三种独立的模态,而对于只支持两种模态的基线,必须将它们连接起来——在本文的延续中,作者将其称为组态模态。WSI模态包括h&e染色的全切片组织图像,与组学模态相同。也就是说,作者纳入的四个癌症数据集是肌肉浸润性膀胱癌(BLCA, n=436)、乳腺浸润性癌(BRCA, n=1021)、宫颈肾乳头状细胞癌(KIRP, n=284)和子宫肌体子宫内膜癌(UCEC, n=538)。这些特定位点的选择是基于它们的样本量(BRCA、BLCA和UCEC是一些最大的TCGA数据集)、之前单峰研究报告的性能指标(例如KIRP在组学上最高,UCEC在WSI上最高)和其他组学特性(例如,BLCA和UCEC以其非常高的基因突变率而知名)。

4.2 结果

NeurIPS 2024 | HEALNet:异构生物医学数据的多模态融合_LLM_08

NeurIPS 2024 | HEALNet:异构生物医学数据的多模态融合_大模型_09

表1总结了生存分析的结果,显示了c指数在五个交叉验证fold中的平均值和标准差。在所有测试的癌症部位,HEALNet优于所有多模态基线。这相当于在BLCA、BRCA、KIRP和UCEC任务的多模态基线上分别提高了约7%、1%、3%和6%。与多模态基线相比,HEALNet也表现出更稳定的行为。表1所示的单模态基线对应于训练的单模态基线中表现最好的模型。与两种单模态基线中较好的模型相比,HEALNet在BLCA和BRCA上的c-Index高出约10%,在KIRP上的c-Index高出4%,在UCEC上的表现几乎相当。作者将其称为多模态优势,如图2所示,在图2中,作者比较了不同多模态模型和融合策略对最佳单模态模型的改进。请注意,UCEC数据集是模态优势的一个例子,其中所有信息信号都来自一种模态(在本例中为WSI),而来自另一种模态的信号可能是非信息的或有噪声的。在这种情况下,直接结合模态的中期和晚期融合入路不太稳健。例如,在Porpoise和MCAT的情况下,这甚至会导致性能下降。由于HEALNet对此类噪声具有更强的鲁棒性,因此其性能可与单模态变体相媲美。

为了进一步评估HEALNet的鲁棒性,作者评估了它在缺少模态的情况下的性能。具体来说,使用在四种模态(WSI + 3×Omics)上训练的HEALNet,作者研究了在推理过程中模态缺失时的性能。请注意,一半的测试样本只包括WSI模态,而另一半是随机选择的组学模态。单模态基线对应于可用模态的预测,其方式与后期融合模型使用两个单模态模型,然后使用异或门控机制进行预测的方式相同。为了完整性,文章还报告了整个测试集由具有组学或WSI模态的样本组成的结果,而不是两者的组合。请注意,单模态基线是基于单一模态训练的HealNet模型。表2所示的分析结果表明,提出的HEALNet在两种模态上进行了预训练,比后期融合基线(在实践中通常采用)稳定且总体性能更好。

NeurIPS 2024 | HEALNet:异构生物医学数据的多模态融合_ai_10

5 总结

该文介绍了HEALNet,一种灵活的混合早期融合方法,用于多模态学习。HEALNet有几个独特而有益的特性,适合于生物医学领域的应用:1)它通过模态特定的关注来保留每个模态的结构信号,2)由于其迭代架构,它可以学习跨模态的相互作用,3)它有效地处理缺失的模态,4)它可以轻松地进行模型检查。实验评估强调了在模型管道中早期融合数据以捕获跨模态信号的重要性,从而获得更好的整体模型性能。虽然在这项工作中,作者只关注使用数字病理学和基因组数据模态的生存分析,但该框架也可以扩展到其他领域(和模态),如放射学或精确肿瘤学,以及其他任务,如诊断或预测治疗反应。

6 论文与代码

论文:https://arxiv.org/abs/2311.09115
代码:https:///konst-int-i/healnet