[论文阅读]面向全局:用于高分辨率遥感图像语义分割的宽上下transforms
文章目录
- [论文阅读]面向全局:用于高分辨率遥感图像语义分割的宽上下transforms
- 一、总体介绍
- 二、具体作用
- 3.1 总体框架
- 3.3 特征提取网络:M1
- 3.4 特征提取网络:M2
- 四、数据及相应结果
一、总体介绍
Looking Outside the Window: Wide-Context Transformer for the Semantic Segmentation of High-Resolution Remote Sensing Images
远程上下文信息是高分辨率遥感图像语义分割的关键。
我们提出了一种宽上下文网络(WiCoNet)用于HR RSIs的语义分割,上下文转换器扩展了视觉转换器这一新兴神经网络,用于双分支语义关联的建模。
提出了一个新的北京土地利用(BLU)数据集。
二、具体作用
在本研究中,目标是同时利用CNN和对transforms HR RSIs进行语义分割,作用在于:
- cnn善于保存空间信息
- Transformer则能够更好地建模远程依赖关系
WiCoNet包括两个cnn,分别从本地和全局图像级别提取特征。这使WiCoNet能够同时考虑本地细节和广域上下文。
SE块将全局信息聚合并嵌入到特征中,学习不同图像场景中的偏焦点,这在后来的文献中通常被称为通道注意,通道注意和非局部注意块依次用于增强空中rsi中的远程依赖性
Transformer的演变介绍:
- Transformer最初是为自然语言处理任务引入的,在那里它实现了最先进的性能
- Pure Transformer可以取代CNN进行图像识别任务
- Transformer进行密集分类任务,提出了一种用于泛视分割的双路径转换器,其中包括用于分割的像素路径和用于类预测的存储路径
## 三、WiCoNet模型构建
3.1 总体框架
我们提出了一种WiCoNet,它利用了rsi中更大图像范围中的远程依赖关系
地分支M1是wiiconet的主要分支,它利用ResNet提取本地特征。WiCoNet中的新设计是一个上下文分支M2,它被引入来显式地对RSIs中的大范围上下文信息建模。它使用一个简单的CNN编码器粗略地学习上下文信息
并通过context Transformer嵌入到M1中。然后由上下文丰富的M1生成WiCoNet的最终结果
### 3.2 Context Transformer
我们引入了一个上下文转换器来将远程上下文信息投射到局部特征上,它是在vit的基础上开发的。典型的ViT采用扁平和投影的图像补丁作为输入。它由多层注意块组成,每层注意块有一个多头自注意单元(MSA)和一个MLP单元
设计的上下文转换器T的目标是将信息从M2传递到主编码分支M1。我们的目标不是直接添加值,而是投射一个有偏向的焦点来增强M1中的特征。
3.3 特征提取网络:M1
M1中我们选择ResNet50作为特征提取网络,该网络在利用局部特征[37]方面具有很强的能力。ResNet的下采样步幅为×1/8,以更好地保存空间信息。
它由11个顺序连接的层组成,包括8个卷积层和3个最大池化层。按照UNet的编码器设计,将每个池化层置于两个卷积层之后
3.4 特征提取网络:M2
输入到M2的下采样尺度为×1/4,而上下文编码器的下采样步幅与ResNet (×1/8)相同。上下文窗口的大小被设置为本地窗口大小的9倍.
四、数据及相应结果
我们提出了一个新的基准数据集——BLU数据集
我们基于背景/贫瘠、建成区、植被、水、农田和道路六个LU类在采集的图像上构建了细粒度的人类注释
每张大图被进一步裁剪成64张图像(49张用于训练,7张用于验证,8张用于测试),每张图像都有2048 × 2048像素(图4)。训练、验证和测试区域不重叠,而每个区域内的裁剪窗口有小的重叠。用于训练、验证和测试的图像总数为196张,
训练参数:
- 训练周期固定为50
- 批处理大小固定为32
- 初始学习率固定为0.1。学习率lr在每次迭代时动态计算为:0.1 ∗(1 − iterations/total_iterations)^1.5
- 优化算法为动量为0.9的随机梯度下降算法。