我们对世界的体验是多模态的——我们看到物体,听到声音,感受质地,闻到气味,然后做出决定。多模态学习表明,当我们的许多感官——视觉、听觉、动觉——参与信息处理时,我们理解和记忆更多。通过组合这些模态,学习者可以组合来自不同来源的信息。
多模态深度学习
当涉及到深度学习时,仅以图像、文本、音频、视频为信息源的训练模式是很常见的。但是也有一种方法可以建立同时包含两种数据类型的模型,比如文本和图像。使用多模态数据不仅改进了神经网络,而且还包括从所有数据源中更好地提取特征,从而有助于在更大范围内进行预测。
1 多模态数据的好处
模态本质上是信息的通道。这些来自多个来源的数据在语义上是相互关联的,有时还相互提供补充信息,从而反映出在单独处理单个模态时不可见的模式。这样的系统整合了来自不同传感器的异构、断开连接的数据,从而有助于产生更可靠的预测。例如,在情绪检测器中,我们可以将从脑电图收集的信息和眼动信号结合起来,对某人当前的情绪进行组合和分类,从而将两个不同的数据源结合起来,完成一项深度学习任务。
多模态学习例子
2 多模态学习的工作原理
深度神经网络已成功应用于文本、图像或音频等单一模式的无监督特征学习。在这里,我们的目标是从不同的模态进行信息融合,以提高我们网络的预测能力。整个任务主要分为三个阶段:个体特征学习、信息融合和测试。
多模态学习工作原理
我们需要以下东西:至少两个信息源、每个源的信息处理模型、组合信息的学习模型鉴于这些先决条件,让我们更详细地了解多模式学习中涉及的步骤。
3 多模态表示
第一个基本步骤是学习如何表示输入,并以表达多种模态的方式总结数据。多模态数据的异质性使得构造这种表示具有挑战性。例如,文本通常是符号的,而音频和视频模态将被表示为信号。详见文章:多模态深度学习。
4 多模态翻译
第二步是解决如何将数据从一种模态转换(映射)到另一种模态。不仅数据是异质的,而且模态之间的关系往往是开放的或主观的。两种或两种以上不同形式的(子)要素之间必须有直接关系。例如,我们可能希望将菜谱中的步骤与显示正在制作的菜肴的视频对齐。为了应对这一挑战,我们需要衡量不同模态之间的相似性,并处理可能的长期依赖性和模糊性。
5 多模态特征提取
构建最适合数据类型的模型,从单个信息源中提取特征。从一个源中提取的特征是独立于另一个源的。例如,在图像到文本的翻译中,从图像中提取的特征是更精细的细节形式,如边缘和环境环境,而从文本中提取的相应特征是符号形式。从两个数据源中提取出所有对预测有重要意义的特征之后,是时候将不同的特征组合成一个共享的表示了。
6 多模态融合与协同学习
下一步是结合来自两个或多个模态的信息执行预测。例如,对于视听语音识别,嘴唇动作的视觉描述与音频输入相融合以预测口语单词。来自这些不同模态的信息可能具有不同的预测能力和噪声拓扑,其中至少一个模态中可能丢失数据。在这里,我们可以采用子网络的加权组合,以便每个输入模态可以对输出预测具有学习贡献。与其他源相比,这使得包含来自不同源的有用特征的功能更多。可以根据需要选择不同模态的模型架构,例如文本数据的LSTM或图像的CNN。然后我们可以组合特征并通过聚合模型将其传递给最终的分类器。
7 结论
在处理多模态数据集时,首先要记住的是特征的聚合。从单个数据源中提取特征之前的所有工作都遵循相同的规则和步骤,并且独立于其他数据源。考虑到每种数据类型的权重,信息融合是研究的主要领域。