目录
💗💗1.影像融合机制
💗💗2.上下文聚合模块
💗💗3.adapter即插即用模块
💗💗1.影像融合机制
参考【多源特征自适应融合网络的高分遥感影像语义分割】文章中的“多源特征自适应融合网络”的思想。
ps:可以用此模块替换变化检测的影像融合机制,再送入分割网络。
💗💗2.上下文聚合模块
全局上下文聚合模块可以抽象为 3 个部分:1) 利用非局部块的思想建模全局上下文信息。 在 SE (Hu 等,2020) 的工作中利用全局平均池化的方式 来对全局上下文信息进行建模,这种方式对于像素 点之间的远程依赖性建模不足。 本文的全局上下文 聚合模块利用非局部块的思想,通过将全局上下文 信息添加到所有位置来捕获远程依赖。 2) 利用轻 量化的瓶颈变换模块来进行特征变换。 非局部块中 的变换模块是一个 1 × 1 卷积层,通常高层特征的通 道数数目庞大,这使得变换模块具有大量的参数。为了获得轻量化特性,本文利用 SE(Hu 等,2020)中 的瓶颈变换模块来代替 1 × 1 卷积。 首先通过一个 1 × 1 卷积将通道数降为 C / r ,然后采用了 layer normalization,极大地简化了两层瓶颈转换结构的优化, 最后再通过一个 1 × 1 卷积将通道数升为 C。 最终 该模块将参数数目从 C × C 显著减少到2 × C × C / r, 其中 r 是瓶颈比率, C / r 表示瓶颈的隐藏维数。 Sigmoid 函数的主要目的是计算每个通道之间的重要 程度。 3)利用融合模块(按元素相乘) 重新校准通 道特征。
ps:用两个1*1卷积来替换普通1*1卷积。减少计算量。
💗💗3.adapter即插即用模块
可以使得在大模型预训练时,只学习少量参数即可达到很好的效果,比如给VIT-base中的12个block分别做joint adapter模块,只学习adapter模块的参数即可,上图是做视频理解的AIM模型,在时间和空间维度分别做adapter,语义分割可以在空间和维度上做。