CLIP(Contrastive Language-Image Pretraining)
旨在通过对比学习同时理解图像和文本。其核心思想是将图像和文本编码到同一个向量空间中,从而能够进行文本与图像的跨模态检索。具体来说,CLIP模型由两个子模块组成:一个文本编码器和一个图像编码器。这两个编码器通过对比学习将图像和文本的特征对齐,使得模型能够在没有明确标注的情况下理解和关联不同模态的数据。
- 无监督学习: CLIP不需要传统的类别标签,而是直接使用图像和文本的配对数据进行训练
- 跨模态检索: CLIP可以用于图像搜索、图像分类等任务,通过文本描述来检索相关图像,或者通过图像内容来生成相关的文本描述
MMLM(Multimodal Large Language Models)基本结构
https://www.researchgate.net/publication/371855457_A_Survey_on_Multimodal_Large_Language_Models
预训练的多模态编码器
EVA-CLIP 编码器
在性能上优于标准的 CLIP,同时所需的训练成本更低。 这主要归功于以下三个改进:
- 使用 EVA 模型的预训练权重来初始化图像编码器,提升了起始性能;
- 使用了 LAMB 优化器,这种优化器特别适用于大批量训练,能够通过自适应元素级更新和层级学习率来提高训练效率并加速模型的收敛;
- 采用了 FLIP 技术,在训练过程中随机遮蔽 50%的图像标记,从而大幅度减少了时间复杂度,使得批量大小可以增加一倍而无需额外的内存开销。
此外,EVA 模型还通过一种名为 Mask Image Modeling 的任务在更大数据集上进行了训练,它将遮蔽部分的图像与 CLIP 模型对应位置的输出进行比对,从而在保持语义学习的同时,也能让模型学习到几何结构。EVA 的这种训练方式证明了其能够有效扩展模型参数至十亿量级,并在广泛的下游任务中展现出色的性能。
基于卷积的 ConvNext-L 编码器
能够利用更高分辨率和多层次特征,特别是在开放词汇分割任务中展现了较高的效率。基于像素级别的任务,如果直接使用 ViT 模型作为编码器,会受到计算负担的限制,图片大小通常只支持 224 或 336。而基于 CNN 的编码器能够在支持高分辨率的同时保持较高的训练效率和推理速度,而不会牺牲性能。
无编码器的架构
纯解码器转换器,图像块被线性投影到转换器的第一层,绕过了嵌入查找的过程,将普通 Transformer 解码器视为图像转换器。这样的设计使得 Fuyu-8b 对灵活输入的分辨率具有强大的适应性。
模态接口
由于多模态模型的端到端训练难度和成本较高,目前大多数模型都采用了基于模态对齐的两种常用方法:一是构造可学习的连接器(Learnable Connector),二是利用专家模型将图像信息转换为语言形式,再输入到 LLM 中。这两种方法都旨在缩小不同模态之间的差距,使得模型能够更好地理解和处理多模态输入。 —————————
Token 级融合
通过将编码器输出的特征转换为 token,并在发送给 LLM 之前与文本 token 连接在一起
特征级融合
特征级融合则在文本和视觉特征之间引入了更深度的交互。例如,Flamingo 通过在 LLM 的 Transformer 层之间插入额外的交叉注意力层,从而用外部视觉线索增强语言特征。类似地,CogVLM 通过在每个 Transformer 层中插入视觉专家模块,实现了视觉和语言特征的双向交互与融合。
有关连接器设计的研究表明,token 级融合中,模态适配器的类型不如视觉 token 的数量和输入分辨率重要。在视觉问答(VQA)任务中,token 级融合通常表现优于特征级融合。尽管交叉注意力模型可能需要更复杂的超参数搜索过程才能达到相似的性能,但 token 级融合的简洁性和高效性使其成为许多 MLLM 模型的首选。
使用专家模型(Expert Models)融合
在多模态模型中,专家模型被广泛应用于模态对齐的任务中,特别是当需要将图像或其他非语言模态的输入转换为语言形式时。这类方法的核心思想是利用现有的强大模型进行模态转换,从而避免重新训练一个复杂的多模态对齐模块。
例如,Woodpecker、ChatCaptioner、Caption Anything 和 Img2LLM 等模型都依赖于专家模型来完成从图像到语言的转换。这些模型通常通过预训练的图像描述生成器,如 BLIP-2,将视觉输入转换为文本描述,再将其传递给 LLM 进行进一步的处理和生成。这种方法的优势在于可以快速集成和应用现有的模型能力,而不需要进行额外的训练或微调。
然而,尽管这种方法有效且简便,但在信息传递的过程中存在信息损失的风险。这是因为每次转换都会不可避免地丢失部分细节和上下文,导致最终生成的结果可能偏离原始的多模态输入。未来的研究方向很可能会集中在如何减少这种信息损失,特别是在提高模态对齐的精度和可靠性方面。
举例来说,VideoChat-Text 使用了一个预训练的视觉模型来获取图像中的信息(如动作),然后通过一个语音识别模型丰富对图像的描述。这种方法虽然能够快速实现多模态的对齐,但在多次转换和传递过程中,信息的精确度可能会受到影响。因此,尽管专家模型的方法在当前阶段非常有效,但在高精度和高复杂度任务中,仍然有改进的空间。
混合专家模型(Mixture of Experts, MoE)
基本组成部分
- 专家模型(Experts)
- 独立模型,专注于特定领域。
- 可有不同的架构和参数。
- 门控网络(Gating Network)
- 负责输入数据分配。
- 使用路由机制(如softmax)。
- 组合机制(Combination Mechanism)
- 合并专家模型输出。
- 可用加权平均或其他函数。
工作原理
- 输入数据通过门控网络: 分析输入,决定适合的专家模型
- 专家模型的激活: 选中的专家模型处理输入
- 输出组合: 合并专家模型输出,生成最终结果
优势
- 提高效率: 只激活相关专家模型,减少资源浪费
- 增强模型能力: 结合多专家,处理广泛数据和任务
- 提高可解释性: 专家模型功能明确,行为可解释