文章目录

  • 1 概述
  • 1.1 题目
  • 1.2 动机
  • 1.3 代码
  • 1.4 附件
  • 1.5 引用
  • 2 方法
  • 2.1 相关多示例
  • 2.2 Transformer应用到相关MIL
  • 2.3 TransMIL用于弱监督WSI分类
  • 2.3.1 使用TPT对长实例序列建模
  • 2.3.2 PPEG位置编码
  • 3 实验及结果
  • 3.1 数据集
  • 3.2 实验设置和度量指标
  • 3.3 实现细节
  • 3.4 基准线
  • 3.5 结果


1 概述

1.1 题目

2021:用于WSI分类的Transformer相关多示例 (TransMIL: Transformer based correlated multiple instance learning for whole slide image classification)

1.2 动机

WSI–MIL方法通常基于独立同分布假设,这忽略了不同实例之间的相关性。为了处理这个问题,提出了一个称为相关多示例的新框架。基于该框架,部署了一个基于Transformer的MIL (TransMIL),其能够同时探索形态和空间信息。

TransMIL可视化效果好、可解释性强,能够高效处理不平衡/平滑和二/多分类问题。实验验证了其性能及展示了收敛速度。

transformr语言_transformr语言


图1:决策过程:(a) 独立同分布假设下的注意力机制;(b) 相关多示例框架下的自注意力机制

1.3 代码

Torch:https://github.com/szc19990412/TransMIL

1.4 附件

https://proceedings.neurips.cc/paper/2021/file/10c272d06794d3e5785d5e7c5356e9ff-Supplemental.pdf

1.5 引用

@article{Shao:2021:21362147,
author		={Zhu Chen Shao and Hao Bian and Yang Chen and Yi Feng Wang and Jian Zhang and Xiang Yang Ji and Yong Bing Zhang},
title		={{TransMIL}: {T}ransformer based correlated multiple instance learning for whole slide image classification},
journal		={Advances in Neural Information Processing Systems},
volume		={34},
pages		={2136--2147},
year		={2021}
}

2 方法

2.1 相关多示例

问题定义:以二分类MIL为例,给定包transformr语言_论文阅读_02,对于transformr语言_论文阅读_03,这样的定义表明包类实例相互依赖且有一定顺序。实例标签transformr语言_深度学习_04是未知的,包标签transformr语言_论文阅读_05是已知的。一个MIL二分类器可以被定义为:
transformr语言_transformer_06transformr语言_论文阅读_07其中transformr语言_transformer_08评分函数transformr语言_WSI_09表示预测、transformr语言_transformer_10是包的总数、transformr语言_transformer_11是包中的实例数,其对不同的包是可变的。

与Attention-net相比,进一步引入实例之间的相关性。定理1和推理给出了transformr语言_transformr语言_12的任意形式,定理2说明了相关多示例的一些优势。

定理1 假设transformr语言_WSI_13是一个关于Hausdirff距离transformr语言_WSI_14的连续集合函数,对于任意的可逆图transformr语言_transformer_15,存在函数transformr语言_WSI_16transformr语言_WSI_17,使得对于任意的transformr语言_论文阅读_18有:
transformr语言_transformr语言_19即一个Hausdorff连续函数transformr语言_transformr语言_12能够被transformr语言_论文阅读_21中的一个函数任意近似。

推理 基于定理1,对于任意的transformr语言_深度学习_22有:
transformr语言_transformr语言_23

定理2:包中的实例可以通过随机变量transformr语言_transformer_24表示,在相关假设下包的信息熵可以被表示为transformr语言_transformr语言_25,包在独立同分布 (i.i.d.) 假设下的信息熵可以被表示为transformr语言_论文阅读_26,则有:

transformr语言_深度学习_27定理2证明了相关假设下有更小的信息熵,其可以减少不确定性和引入更多有用的信息。基于此,算法1展示了相关算法。图2展示了TransMIL与已有方法的主要区别。

transformr语言_transformer_28


transformr语言_深度学习_29


  图2:池化矩阵transformr语言_transformer_30的差异:(a) 假设一个WSI中有5个实例,transformr语言_transformr语言_31是相应的池化矩阵,对角线表示和自己的注意力权重,其余的为与其他实例的;(b-d) 均忽略了相关信息,因此transformr语言_transformer_30是对角矩阵;(b) 第一个实例通过最大池化选择,因此只有一个非零值;© 平均池化下对角线的值相等;(d) 注意力的引入使得对角线上的值出现变化;(e) 得益于相关假设,非对角线上的值表明了实例之间的相关性

2.2 Transformer应用到相关MIL

Transformer使用自注意力机制来建模一个序列中的所有token的相关性,并添加位置信息来增加序列顺序信息的有用性。因此,使用函数transformr语言_深度学习_33来编码所有实例的空间信息,以及transformr语言_transformer_30使用自注意力来汇聚信息的Transformer是很有用的。

Transformer MIL 给定一个包的集合transformr语言_深度学习_35及相应标签transformr语言_深度学习_36,目的是习得一种映射transformr语言_WSI_37,其中transformr语言_transformer_38是包空间、transformr语言_WSI_39是Transformer空间。以及transformr语言_论文阅读_40是标签空间。

transformr语言_深度学习_41被定义为:
transformr语言_WSI_42transformr语言_WSI_43transformr语言_WSI_44transformr语言_transformr语言_45transformr语言_WSI_46其中SA表示自注意力、transformr语言_论文阅读_47是MSA的数量、transformr语言_深度学习_33是每个MSK中头的数量,以及transformr语言_transformer_49是标准化层。

transformr语言_深度学习_50被定义为:
transformr语言_深度学习_51其中transformr语言_transformr语言_52表示类别token。transformr语言_深度学习_50可以通过类别token或者全局池化完成。然而,目前直接在WSI中使用Transformer相对困难,因此包中的实例数量很多且变化巨大。因此接下来注重如何高效地部署Transformer。

2.3 TransMIL用于弱监督WSI分类

为了更好地描述transformr语言_深度学习_41,设计了包含两个Transformer层的TPT模块和一个位置编码层,其中Transformer层用于汇聚形态信息,金字塔位置编码生成器 (Pyramid position encoding generator, PPEG) 用于编码空间信息。TransMIL的总体架构如图3。

transformr语言_transformer_55


  图3:TransMIL架构。每个WSI被裁剪为多个区块 (背景被抛弃),并通过ResNet50嵌入为特征向量,然后传递给TPT处理:1) 序列平方;2) 序列的相关性建模;3) 条件位置编码和信息融合;4)深度特征汇聚;5) transformr语言_深度学习_50映射

2.3.1 使用TPT对长实例序列建模

序列来自于WSI的特征向量。TPT的的处理过程如算法2。

transformr语言_WSI_57


大多数情况下,用于视觉任务的Transformer中的softmax是按行处理的。而标准的自注意力机制需要计算每一对toekn之间的相似性得分,太慢太耗内存。为了处理WSI中的长实例序列问题,TPT中的softmax使用Nystrom方法。近似自注意力机制transformr语言_深度学习_58被定义为:

transformr语言_深度学习_59其中transformr语言_transformr语言_60transformr语言_深度学习_61是从transformr语言_论文阅读_62transformr语言_论文阅读_63中的transformr语言_transformer_11维序列中选择的transformr语言_WSI_65个landmark,以及transformr语言_WSI_66transformr语言_transformr语言_67的Moore-Penrose伪逆。最终的时间复杂度将从transformr语言_transformr语言_68降为transformr语言_深度学习_69。由此,TPT可以满足包中实例很多的情况。

2.3.2 PPEG位置编码

在 WSI 中,由于载玻片和组织的可变大小,相应序列中的标记数量通常会有所不同。有研究表明,添加零填充可以为卷积提供绝对位置信息。受此启发设计了PPEG模块,相应的伪代码如算法3。

transformr语言_论文阅读_70


PPEG模块有以下优势

  1. 同一层使用了不同大小的卷积核,可以编码不同粒度的位置信息,以扩展PPEG的能力;
  2. 可以获取序列中token的全局信息和上下文信息,这能够丰富每个token的特征。

3 实验及结果

3.1 数据集

  • CAMELYON16:用于乳腺癌转移检测的公开数据集,包含270个训练集和130个测试集。预处理后有大约350万个区块,量级为transformr语言_transformr语言_71每个包平均有8800个
  • TCGA-NSCLC:包含两个子类,TGCA-LUSC和TCGA-LUAD,共993个诊断WSI,包含444种情形的507个LUAD和452种情况的486个LUSC。预处理后,每个包量级在transformr语言_transformr语言_71的区块平均为15371。
  • TCGA-RCC:包含三个子类,THCA-KICH、TCGA-KIRC,以及TCGA-KIRP,共884个WSI,三个子类的情形数分别为99、483,以及264,幻灯片数则111、489,以及284.预处理后平均为14627。

3.2 实验设置和度量指标

  1. 每个WSI的裁剪为transformr语言_WSI_73的无交叠区块,饱和度transformr语言_论文阅读_74的背景将被抛弃
  2. CAMELYON16的训练集划分10%作为验证集;
  3. TCGA划分时,首先确保训练和测试集中不存在来自一名患者的不同幻灯片,然后训练:验证:测试=transformr语言_transformr语言_75
  4. 准确率和AUC作为评估指标,其中准确率附加计算阈值transformr语言_论文阅读_76
  5. CAMELYON16使用测试AUC;
  6. TCGA-NSCLC使用平均AUC;
  7. TCGA-RCC使用macro-averaged AUC;
  8. TCGA使用4折交叉验证。

3.3 实现细节

  1. 交叉熵损失;
  2. Lookahead优化器,学习率transformr语言_transformer_77,权重衰减transformr语言_深度学习_78
  3. 批次大小transformr语言_深度学习_79
  4. 每个区块通过ResNet50嵌入为1024维向量,在训练时通过全连接层降维到transformr语言_WSI_80
  5. 包的最终嵌入为transformr语言_深度学习_81
  6. softmax用于标准化每个类别的预测得分。

3.4 基准线

  1. 注意力网络ABMIL和PT-MTA;
  2. 非定位注意力DSMIL;
  3. 单注意力CLAM-SB;
  4. 多头CLAM-MB;
  5. 循环神经网络MIL-RNN。

3.5 结果

分类

transformr语言_WSI_82


transformr语言_深度学习_83


消融实验

transformr语言_transformer_84


可视化

transformr语言_深度学习_85


收敛性

transformr语言_论文阅读_86