介绍

英文题目:EHR Coding with Multi-scale Feature Attention and Structured Knowledge Graph Propagation
中文题目:基于多尺度特征关注和结构化知识图传播的EHR编码
论文地址:https://sci-hubtw.hkvisa.net/10.1145/3357384.3357897
领域:自然语言处理,生物医疗,ICD编码
发表时间:2019
作者:Xiancheng Xie等,复旦大学
出处:ACM CIKM
被引量:25
阅读时间:2022.06.16

读后感

很好地结合了现有的资源和方法:利用编码的内在关系,结合了注意力机制,知识图谱密连接网络等方法。

泛读

  • 针对问题:ICD自动编码
  • 核心方法:
  • 通过对每个词上下文邻居的n-gram,选择多尺度特征
  • 利用ICD标签的语义:编码越相近,含义越相近,利用图卷积网络捕捉ICD编码的层次关系和语义
  • 基于ICD标签的注意力;结合多尺度特征,用注意力选择信息量最大的n-gram特征
  • 理解程度:
  • 一个半小时精读,又花了约两小时整理成文。

方法

概览

论文将问题定义为多标签分类问题。方法由三部分组成:

  • 提取多尺度特征 (图上)
  • 两层注意力机制更好地计算输入文本的表征(图中)
  • 用知识图谱迭代计算ICD表征(图下)
  • 论文阅读_ICD编码_MSATT-KG_卷积

符号定义

论文阅读_ICD编码_MSATT-KG_知识图谱_02

其它符号:m表示医生输入串的长度,n表示ICD编码描述文本的长度,d表示维度。

嵌入层

用X表示词嵌入,利用word2vec的连续词袋(CBOW)对训练集中的所有文本进行预训练,词嵌入大小为100,窗口为5,5次迭代。

密连接卷积层

CNN由K个卷积块通过密连接堆叠而成,用Xk表示第k个卷积块的输出,Xk计算方法如下:

论文阅读_ICD编码_MSATT-KG_知识图谱_03

其中中括号表示串联,Xk由前k-1层输出串联(图中红线)后,与参数W通过函数F计算出Xk,W是卷积核。为了保持字符串的长度一致,使用zero-padding填充。由于使用了卷积,Xk可被视为n-gram特征,通过卷积逐层抽象;再用concat将各层抽象连接起来,生成了多尺度特征。

注意力层

多尺度特征注意力

如图-3所示,对于每个位置i,注意力机制根据其k个层的特征(k个尺度/k-gram)计算权重分布。步骤包括聚合和筛选。
聚合:用s作为xi在第k层的表示,它聚合了各个维度:

论文阅读_ICD编码_MSATT-KG_深度学习_04

然后,计算注意力权重,用于选择携带信息最多的尺度:

论文阅读_ICD编码_MSATT-KG_知识图谱_05

函数F是一个多层感知机,上式计算了每一层(1~k)的权重。
再用各种权重给各层的输出加权:

论文阅读_ICD编码_MSATT-KG_人工智能_06

最终通过串联,产生了所有位置加权后的Xscale:

论文阅读_ICD编码_MSATT-KG_卷积_07

它将被传入下一个attention层。

ICD标签注意力

在文本分类任务中,一般使用平均池化或最大池化处理各维度。针对多标签任务,不同ICD编码可能关注不同局部文本,因此,使用基于ICD标签的注意力来选择最相关的短语。对于每个标签,使用了线性池化:

论文阅读_ICD编码_MSATT-KG_深度学习_08

不同的标签记作 l,vl是标签的向量表示,这里的注意力a用于计算基于标签的输入文本的向量表示:

论文阅读_ICD编码_MSATT-KG_深度学习_09

知识图迭代

加入知识图是为了引入ICD编码之间的层级关系和相关性。如果只使用ICD编码,对于每种编码都需要一些实例参与训练,论文使用了ICD编码ID对应的描述文本,句中各词记作{w1,w2,…wn}。

标签向量v的计算方法如下:

论文阅读_ICD编码_MSATT-KG_权重_10

先计算标签描述文本中的每个位置 i,结合其自身self,其父类p和子类c,在上一次迭代时的表示,分别加权计算当前的表示,F为激活函数。各个节点的初值是通过训练数据训练出来的自然语言模型得到的。

输出层

输出层结合了X和V,利用sigmod计算出对应各个ICD编码的概率。

论文阅读_ICD编码_MSATT-KG_人工智能_11

计算出的 Pl 是概率值,常见的方法是使用阈值 0.5 来判别类别标签的是与否。而训练集中的每个类别,负例明显多于正例,使其结果偏向负例。为了优化阈值,使用了回归方法:

论文阅读_ICD编码_MSATT-KG_卷积_12

使用该方法后,阈值也是拟合出来的。其中g为最大池化,用于生成文本的全局表征,W是回归参数。

最终的损失函数结合了(8)和(9)的误差:

论文阅读_ICD编码_MSATT-KG_深度学习_13

其中λ是权重,用于调整二者的比例。