Remote Sensing Image Scene Classification Method Based on Multi-Scale Cyclic Attention Network
-
摘要: 高分辨率遥感影像场景分类一直是遥感领域的研究热点.针对遥感场景对尺度的需求具有多样性的问题,提出了一种基于多尺度循环注意力网络的遥感影像场景分类方法.首先,通过Resnet50提取遥感影像多个尺度的特征,采用注意力机制得到影像不同尺度下的关注区域,对关注区域进行裁剪和缩放并输入到网络.然后,融合原始影像不同尺度的特征及其关注区域的影像特征,输入到全连接层完成分类预测.此分类方法在UC Merced Land-Use和NWPU-RESISC45公开数据集上进行了验证,平均分类精度较基础模型Resnet50分别提升了1.89%和2.70%.结果表明,多尺度循环注意力网络可以进一步提升遥感影像场景分类的精度.Abstract: Scene classification of high-resolution remote sensing images has always been a research hotspot in the field of remote sensing. In view of the diversity of scale requirements of remote sensing scenes, in this paper it proposes a remote sensing image scene classification method based on multi-scale cyclic attention network. Firstly, the features of multiple scales of remote sensing scene image are extracted by Resnet50 network, the attention mechanism is used to obtain the region of interest of the image, and the region of interest is clipped and scaled. Then, the features of different scales of the original image and the features of different scale cropped images are fused, input to the full connection layer for classification prediction. The proposed method is validated in UC Merced Land-Use and NWPU-RESISC45, the average classification accuracy is improved by 1.89% and 2.70% respectively compared with Resnet50.The results show that the multi-scale cyclic attention network can further improve the accuracy of remote sensing image scene classification.
-
Key words:
- remote sensing /
- scene classification /
- multi-scale /
- convolutional neural network /
- attention mechanism
-
0. 引言
近年来,遥感影像的空间分辨率随着遥感卫星传感器技术的不断提高,遥感影像的空间分辨率已逐渐进入“亚米”级别(李冠东等,2019).遥感影像中蕴含的丰富的地表信息能够为提取地表高层次语义信息提供可靠的数据源,高分辨率遥感影像的解译对于国家经济、军事情报、环境监测和居民生活有着重要的意义(陈启浩等,2010;Cheng et al., 2017;余姝辰等,2019;李文凯等,2020).但是,高分辨率遥感影像中类间差异小、类内差异大等现象(Gómez-Chova et al., 2015),为高分辨率遥感影像的识别与分类带来了困难,遥感影像场景分类的研究工作难以在大规模范围内精确高效地开展.
基于底层特征、中层特征和高层特征的场景分类方法在高分辨率遥感影像上的应用比较广泛.基于底层特征的场景分类方法主要基于结构、颜色、纹理等底层特征直接描述场景并使用分类器分类(Oliva and Torralba, 2001;Yang and Newsam, 2013),这种方法难以描述空间分布复杂的地物目标,因此分类结果较差.基于中层特征的场景分类方法通过挖掘遥感影像的局部特征,将底层特征映射到字典空间或参数空间中获得描述能力更高的中层语义特征,典型的方法是基于视觉词袋模型和主题模型的场景分类方法(Lienou et al., 2009;Luo et al., 2011;Chen and Tian, 2014).这种方法虽然解决了“语义鸿沟”的问题,但对于图像深层特征的提取和场景尺度变化的适应效果较差,导致分类精度不高.基于高层特征的场景分类方法能够自动学习高分辨率遥感影像的本质特征,实现了底层特征和高层特征的信息互补.随着人工智能的快速发展,深度学习方法在图像分类任务中取得了众多出色的表现,卷积神经网络作为特征提取的基本模型被广泛使用,如CaffeNet(Jia et al., 2014)、VGG(Simonyan and Zisserman, 2014)、GoogleNet(Szegedy et al., 2015).深度学习对于样本量的要求比较高,但是遥感影像缺乏大规模数据集,Pan and Yang(2009)提出迁移学习的方法,将在大规模数据集上预先训练好的深度卷积神经网络模型经过参数微调后应用在遥感场景影像中,可以在一定程度上缓解遥感影像训练数据不足的问题,迅速在遥感影像场景分类问题上得到应用并且取得了良好的效果(Castelluccio et al., 2015;He et al., 2018;余东行等,2020).
但是,在对遥感影像场景进行分类时,对我们有用的信息通常集中在个别区域,传统的卷积神经网络更加注重对图像全局信息的处理,容易丢失图像的局部细节信息.注意力机制的提出源于人类对获取信息机制的研究(Bahdanau et al., 2014),当我们观察外界环境时,往往会重点关注某个局部区域的细节,从而更加高效地获取对我们有用的信息.Fu et al.(2017)在细粒度图像分类任务中引入注意力机制,提出循环注意力卷积神经网络,采用边框回归机制在3种不同的层次上,回归出图像最具区分性的特征区域,最后融合从3个层次上提取出的图像特征完成分类,进一步提升了细粒度图像的分类性能.但该研究是基于图像单一尺度的深度特征,只包含固定的尺度信息,目前遥感影像在目标类别、地物类别、地物尺度等方面逐渐趋于多样性,导致遥感场景的尺度变化较大,因此不能直接将该方法引入遥感影像场景分类.
为了进一步提高遥感影像场景分类的效果,本文充分考虑了遥感场景对尺度的多样性需求,提出了一种基于多尺度循环注意力网络的遥感影像场景分类方法.该方法采用对一张图像重采样成多种尺度输入到网络的方式获得场景的多尺度特征,同时引入注意力机制实现多尺度场景局部关注区域信息的提取,最后进行多尺度特征的融合与分类,在UC Merced Land-Use数据集和NWPU-RESISC45数据集上的实验结果表明,本文提出的方法能够在一定程度上提高遥感影像场景分类的准确率.
1. 研究方法
1.1 基于多尺度循环注意力网络的场景分类模型
本文提出的基于多尺度循环注意力网络的场景分类模型主要包括3个部分,分别是多尺度特征提取、注意力关注区域提取、特征融合与分类,分类流程如图 1所示.首先,输入模型的不同尺度图像利用基于ImageNet数据集预训练的Resnet50提取特征;然后,基于提取的多尺度特征采用注意力机制得到对应影像的关注区域;最后,融合原始影像和关注区域的多尺度特征,得到场景影像最终分类结果.
本文选用基于ImageNet数据集预训练的ResNet50(He et al., 2016)作为分类子网络提取场景影像的多尺度特征,研究表明,大型、复杂的ImageNet数据集可以帮助获得一个训练良好的网络模型架构,而训练良好的网络参数对于初始化网络模型和随后的分类是重要的(Cheng et al., 2016;Han et al., 2017).另外,平视的图像和俯视的图像具有底层特征相似性、类别兼容性和光谱一致性,因此将基于自然图像数据集预训练的模型迁移至遥感场景分类是可行的.Resnet50引入了残差结构,通过跨层连接形成的残差块以减轻网络的训练负担(程国轩等,2018).Resnet50是由多个残差模块堆叠在一起构成,这种结构的设计将残差设置为学习目标,将网络的输入跳跃式传输至输出,对存在多尺度目标和背景信息复杂的遥感影像,其特征提取能力更强,在保证了信息完整和结果精度的同时,节约了训练网络的时间成本.Resnet50的网络配置如表 1所示,其中Conv(Convolution Layer)表示卷积层,Max Pool(Max Pooling Layer)表示最大池化层,GAP(Global Average Pooling)表示全局平均池化,k-d FC(Fully Connected Layer)表示具有k个神经元的全连接层.输入网络的场景影像首先经过一次卷积,然后经过16个残差块,每个残差块由3个卷积核大小分别为1×1、3×3、1×1的卷积层构成,再进行全局平均池化,最后经过全连接层由softmax分类器输出所属类别的概率.
表 1 Resnet50网络配置Table Supplementary Table Resnet50 network configurationlayer name 50-layer Conv1 7×7, 64, stride 2 Conv2_x 3×3 Max Pool, stride 2 $ \left[\begin{array}{c}1\times \mathrm{1, 64}\\ 3\times \mathrm{3, 64}\\ 1\times \mathrm{1, 256}\end{array}\right] $ × 3 Conv3_x $ \left[\begin{array}{c}1\times \mathrm{1, 128}\\ 3\times \mathrm{3, 128}\\ 1\times \mathrm{1, 512}\end{array}\right] $× 4 Conv4_x $ \left[\begin{array}{c}1\times \mathrm{1, 256}\\ 3\times \mathrm{3, 256}\\ 1\times \mathrm{1, 1}\mathrm{ }024\end{array}\right] $ × 6 Conv5_x $ \left[\begin{array}{c}1\times \mathrm{1, 512}\\ 3\times \mathrm{3, 512}\\ 1\times \mathrm{1, 2}\mathrm{ }048\end{array}\right] $ × 3 GAP, k-d FC, softmax 图 2为本文提出的多尺度循环注意力网络结构图,算法的具体步骤如下:
(1)输入的多尺度影像经过第1层分类子网络进行分类,得到第1层分类子网络预测正确标签的概率$ {p}_{t}^{1} $;
(2)第1层分类子网络提取的特征通过注意力推荐网络得到关注区域,将关注区域剪裁放大后,输入第2层分类子网络,得到第2层分类子网络预测正确标签的概率$ {p}_{t}^{2} $;
(3)实验通过设定注意力推荐网络的损失函数为$ {p}_{t}^{2} $大于$ {p}_{t}^{1} $,从而保证注意力推荐网络提取的关注区域更加准确;
(4)通过融合第1层分类子网络与第2层分类子网络提取到的特征,完成场景分类任务.
1.2 注意力推荐网络
本文将注意力推荐网络(Attention Proposal Network,APN)(Fu et al., 2017)引入遥感影像场景分类,利用注意力推荐网络实现对遥感场景注意力关注区域的提取,如图 3所示,APN相当于一个能够根据图像的响应修改正方形候选框大小和位置的网络,APN由两个全连接层组成,输出的通道为候选框中心点的坐标$ ({t}_{a}, {t}_{b}) $及候选框边长的一半$ {t}_{h} $,{$ {t}_{a} $,$ {t}_{b} $,$ {t}_{h} $}表示APN选定的关注区域.
确定图像关注区域的APN算法如下:
$$ {X}^{\mathrm{A}\mathrm{P}\mathrm{N}}=X\odot M\left({t}_{a}, {t}_{b}, {t}_{h}\right), $$ (1) $$ M\left(\cdot \right)=\left[\partial \left(a-\left({t}_{a}-{t}_{h}\right)\right)-\partial \left(a- \left({t}_{a}+{t}_{h}\right)\right)\right]\bullet \left[\partial \left(b-\\ \left({t}_{b}-{t}_{h}\right)\right)-\partial \left(b- \left({t}_{b}+{t}_{h}\right)\right)\right], $$ (2) $$ \partial \left(x\right)=\frac{1}{1+\mathrm{e}\mathrm{x}{\mathrm{p}}^{-kx}}, $$ (3) 式中:$ X $表示输入APN的图像,$ {X}^{\mathrm{A}\mathrm{P}\mathrm{N}} $表示APN选定的关注区域;$ \partial \left(x\right) $相当于sigmoid函数,输出的结果是0至1的开区间,本文将$ k $设为10.$ M\left(\cdot \right) $的输出同样在0至1的范围内,当中心点$ \left(a, b\right) $在APN选定的区域内时,$ M\left(\cdot \right) $趋于1;当中心点$ \left(a, b\right) $不在APN选定的区域内时,$ M\left(\cdot \right) $趋于0. APN算法可以解释为:当关注区域在右上角时,中心点会向右上角移动(其余位置同理);当候选框边缘有大量关注区域时,则候选框边长增大;当侯选框边缘没有关注区域时,则候选框边长减小.得到关注区域后,用双线性插值的方法将区域放大至与输入尺寸相同.
1.3 损失函数和模型训练
模型的损失函数$ L\left(x\right) $为
$$ L\left(x\right)={\sum }_{s=1}^{2}\left\{{L}_{\mathrm{c}\mathrm{l}\mathrm{s}}\left({Y}^{s}, {Y}^{*}\right)+{L}_{\mathrm{r}\mathrm{a}\mathrm{n}\mathrm{k}}\left({p}_{t}^{s}, {p}_{t}^{s+1}\right)\right\}, $$ (4) $$ {L}_{\mathrm{r}\mathrm{a}\mathrm{n}\mathrm{k}}\left({p}_{t}^{s}, {p}_{t}^{s+1}\right)=\mathrm{m}\mathrm{a}\mathrm{x}\left\{0, {p}_{t}^{s}-{p}_{t}^{s+1}+\mathrm{m}\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{i}\mathrm{n}\right\}, $$ (5) 式中:$ {Y}^{s} $表示模型预测的类别,$ {Y}^{*} $表示图像真实的类别,$ s $表示网络的两个层次,$ {p}_{t}^{s} $表示层次为$ s $的网络预测正确标签$ t $的概率值,$ {p}_{t}^{s+1} $同理.本文将$ \mathrm{m}\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{i}\mathrm{n} $设为0.05,即当高层次网络预测的概率比低层次网络预测的概率至少要高0.05时,损失函数收敛,这样的设定可以让网络逐步判定出图像中最具区分性的区域,以获得更加准确的关注区域以及遥感场景影像更加精细的多尺度特征.
本文采用ResNet50与APN循环交替训练的方式,模型具体的训练过程如下:
(1)利用预训练ResNet50网络的参数实现多尺度遥感影像场景的特征提取与分类的子网络的初始化.利用Resnet50最后一层卷积层中响应值最高的区域初始化APN的参数{$ {t}_{a} $,$ {t}_{b} $,$ {t}_{h} $};
(2)固定APN的参数,训练Resnet50网络直至其损失函数$ {L}_{\mathrm{c}\mathrm{l}\mathrm{s}} $收敛;
(3)固定Resnet50的参数,训练APN直至其损失函数$ {L}_{\mathrm{r}\mathrm{a}\mathrm{n}\mathrm{k}} $收敛;
(4)循环交替训练APN与Resnet50,直至$ {L}_{\mathrm{c}\mathrm{l}\mathrm{s}} $与$ {L}_{\mathrm{r}\mathrm{a}\mathrm{n}\mathrm{k}} $都收敛,固定此时模型的参数,得到最终用于分类的模型;
(5)用所得的模型进行分类预测.
2. 实验结果与分析
2.1 数据集与实验配置
为了验证本文方法的有效性,实验选取UC Merced Land-Use数据集和NWPU-RESISC45数据集.UC Merced Land-Use数据集(Yang and Newsam, 2010)由加州大学通过对美国地质调查局国家地图下载的数据进行人工提取获得,该数据集于2010年发布,现已成为遥感影像场景分类研究使用最为广泛的数据集.UC Merced Land-Use数据集中共有2 100张遥感影像,包含21类土地利用遥感场景,每个类别有100张影像,每张影像的分辨率均为256×256.图 4为UC Merced Land-Use数据集部分样本示例.NWPU-RESISC45数据集(Cheng et al., 2017)由西北工业大学从Google Earth的遥感数据中人工截取获得,于2017年发布,该数据集是目前包含遥感场景种类和数目最多的公开数据集,可作为遥感影像场景分类的基准.NWPU-RESISC45数据集中共有31 500张遥感影像,包含45类遥感场景,每个类别有700张图像,每张影像的分辨率与UC Merced Land-Use数据集相同,均为256×256.图 5为NWPU-RESISC45数据集部分样本示例.
对于UC Merced Land-Use数据集,本文将训练比率设置为80%,训练样本划分为80%的训练数据集和20%的验证数据集.对于NWPU-RESISC45数据集,本文将训练比率设置为10%,训练样本划分为80%的训练数据集和20%的验证数据集.表 2为两个数据集的相关信息.
表 2 两个数据集的相关信息Table Supplementary Table Information about two datasetsDatasets Scene Images per class Total images Sizes Training rate UC Merced Land-Use 21 100 2 100 256×256 80% NWPU-RESISC45 45 700 31 500 256×256 10% 在场景图像尺度的选择上,根据感受野的原理,尺度大的图像能更好地表达局部细节特征,尺度小的图像包含的信息较少但能提供更多的全局特征.本文以两个数据集原始的图像尺度256×256为基准,将图像重采样设置为原始尺度的0.5~1.5倍,每次改变32个像素,探究合适的尺度与原始尺度进行组合.经过多次实验,最终选定图像尺度变换的区间是[128,288],共计6种尺度组合,即图像大小为128×128、160×160、192×192、224×224、256×256、288×288.
实验平台是64位Windows 10操作系统,GPU为NVIDIA GeForce GTX 1080Ti,CPU为Inter(R)Core(TM)i7-7700K CPU@ 4.20 GHz,RAM为32.0 GB.开发环境是python 3.6及其第三方库、Pytorch框架(Ketkar,2017).训练阶段和测试阶段均设置相同的超参数,仅改变输入模型的图像尺度.
2.2 基于不同尺度特征的分类精度对比
由于模型具有一定的不稳定性,输出的分类精度存在偶然性,故不能以一次实验的结果评估不同模型的分类性能,每一种模型都需要进行多次实验才能得出正确结论.本文实验选取总体精度(OA)、总体精度的平均值(A-OA)、标准差(Std)、各类分类准确率(AA)和混淆矩阵作为评价指标.总体精度(OA)和各类分类准确率(AA)的求取公式如下:
$$ OA=\frac{\mathrm{所}\mathrm{有}\mathrm{正}\mathrm{确}\mathrm{分}\mathrm{类}\mathrm{的}\mathrm{样}\mathrm{本}\mathrm{数}\mathrm{量}}{\mathrm{所}\mathrm{有}\mathrm{测}\mathrm{试}\mathrm{样}\mathrm{本}\mathrm{的}\mathrm{数}\mathrm{量}} \text{,} $$ (6) $$ AA=\frac{\mathrm{该}\mathrm{类}\mathrm{正}\mathrm{确}\mathrm{分}\mathrm{类}\mathrm{的}\mathrm{样}\mathrm{本}\mathrm{数}\mathrm{量}}{\mathrm{该}\mathrm{类}\mathrm{样}\mathrm{本}\mathrm{的}\mathrm{总}\mathrm{数}} . $$ (7) 为了验证场景图像多尺度特征的融合能够提高网络的分类精度,本文的实验包含多种不同尺度的组合.表 3和图 6为在UC Merced Land-Use数据集上的实验结果.其中,S_128_256表示用尺度分别为128和256的图像同时训练网络,其余同理.从实验结果可以看出,尺度组合由序号1至6时,网络的分类精度在97.85%到98.51%之间变化;尺度组合由序号1至3时,分类精度逐渐提高,但尺度持续增大时分类精度开始降低(表 3,图 6).因此,3号是最优的尺度组合,该组合取得的分类效果最好.出现这种结果可能是由于持续缩小遥感影像的尺度时,影像的细节部分被削弱,从而导致丢失的信息相对较多,因此尺度组合1和2的分类准确率较低.持续增大遥感影像的尺度会使得其与原始图像的尺度接近,从而导致影像多尺度特征融合的效果减弱,因此尺度组合4的分类精度有所下降.
表 3 基于UC Merced Land-Use不同尺度特征的分类精度Table Supplementary Table Classification accuracy of different scale features on UCM datasetnumber scale A-OA (%) 1 S_128_256 97.85$ \pm $0.67 2 S_160_256 98.10$ \pm $0.39 3 S_192_256 98.51$ \pm $0.11 4 S_224_256 98.33$ \pm $00.14 5 S_256 98.18$ \pm $00.09 6 S_288_256 98.10$ \pm $00.39 表 4和图 7为在NWPU-RESISC45数据集上的实验结果.从实验结果可以看出,3号尺度组合依旧取得最高的分类精度,与UC Merced Land-Use数据集的实验结果相同,即图像尺度为192和256的组合能更好地获得遥感场景的多尺度特征.但是,图 6与图 7的曲线变化趋势有所不同,这可能是由于NWPU-RESISC45数据集包含的场景种类和图像变化丰富,因此目标尺度的变化也更大,而UC Merced Land-Use数据集包含的场景相对较少,目标尺度也相对简单,因此其分类精度变化的趋势比较明显.
表 4 基于NWPU-RESISC45不同尺度特征的分类精度Table Supplementary Table Classification accuracy of different scale features on NWPU-RESISC45 datasetnumber scale A-OA (%) 1 S_128_256 91.04$ \pm $0.03 2 S_160_256 90.86$ \pm $0.19 3 S_192_256 91.18$ \pm $0.02 4 S_224_256 90.19$ \pm $0.31 5 S_256 90.25$ \pm $0.20 6 S_288_256 90.85$ \pm $0.27 2.3 类别间的错分率对比
混淆矩阵可以直观地体现每一类的分类准确率和错分的类别,本文以最优尺度组合192和256为例,将基于单尺度与多尺度特征训练的网络在各类别的分类精度进行对比分析.从UC Merced Land-Use数据集基于单一尺度的场景影像训练网络和基于多尺度的场景影像训练网络的混淆矩阵可知,多尺度模型只有3个类别的分类准确率低于100%,21个场景类别的平均分类精度达到98.57%,如图 8所示.多尺度模型能够明显提升建筑、密集住宅、高速公路、网球场等4个类别场景的分类精度,但是对于高尔夫球场和中等密度住宅两种场景的分类效果较差,如图 9所示.多尺度模型易将高尔夫球场误分为河流,中等密度住宅误分为密集住宅和稀疏住宅,这可能是由于这些类别具有相似的颜色和纹理特征,高尔夫球场和河流都包含植被覆盖物,不同密度的住宅区包含的建筑物相似,多尺度的融合使提取到的细节信息减少,导致特征区分度降低.
从NWPU-RESISC45数据集基于单一尺度的场景影像训练网络和基于多尺度的场景影像训练网络的混淆矩阵可知,多尺度模型有38个场景类别的分类准确率都在90%以上,45个场景类别的平均分类精度达到91.18%,如图 10所示.多尺度模型对于教堂、交叉路口、船只3个类别的分类精度提升明显.和单尺度模型相比,多尺度模型易将长方形耕地误分为梯田,出现这种结果可能是由于长方形耕地与梯田的代表性地物目标具有相似的边界特征,并且在两个类别中农田都占据了大部分场景,进行尺度融合时丢失了部分细节信息,导致多尺度模型提取到的特征区分度不够.多尺度模型和单尺度模型对于宫殿的识别能力都较差,易将宫殿错分为与之具有相似结构特征的教堂,如图 11所示.
2.4 遥感影像分类方法对比
将本文方法与其他场景分类方法进行比较.本文提出的方法对UC Merced Land-Use数据集的分类精度达98.51%,与经典的基于单一尺度特征的深度卷积神经网络模型的最高准确率相比,分类准确率提升了1.89%,与现有的基于VGG和AlexNet改进的融合方法相比,分类准确率分别提升了0.15%和1.22%(表 5).对NWPU-RESISC45数据集的分类精度达91.18%,与经典的基于单一尺度特征的深度卷积神经网络模型的最高准确率相比,分类准确率提升了2.70%,与现有的基于VGG和AlexNet改进的融合方法相比,分类准确率分别提升了5.85%和9.48%(表 6).
表 5 不同方法对UC Merced Land-Use的分类精度Table Supplementary Table Classification accuracy of different methods for UC Merced Land-UseMethod OA (%) BoVW(Yang and Newsam, 2010) 76.80 GoogleNet(Nogueira et al., 2017) 92.80 CaffeNet(Xia et al., 2017) 95.02$ \pm $0.81 Resnet50(Zhang et al., 2019) 96.62$ \pm $0.26 GLM16(Yuan et al., 2019) 94.97$ \pm $1.16 VGG-VD16+MSCP(He et al., 2018) 98.36$ \pm $0.58 AlexNet + MSCP(He et al., 2018) 97.29$ \pm $0.63 The model of this paper 98.51$ \pm $0.11 表 6 不同方法对NWPU-RESISC45的分类精度Table Supplementary Table Classification accuracy of different methods for NWPU-RESISC45Method OA (%) BoVW(Cheng et al., 2017) 41.72$ \pm $0.21 Fine-tuned AlexNet(Cheng et al., 2017) 81.22$ \pm $0.19 Fine-tuned GoogleNet (Cheng et al., 2017) 82.57$ \pm $0.12 Fine-tuned VGGNet-16(Cheng et al., 2017) 87.15$ \pm $0.45 Resnet50(Zhao et al., 2020) 88.48$ \pm $0.21 VGG-VD16+MSCP(He et al., 2018) 85.33$ \pm $0.17 AlexNet + MSCP(He et al., 2018) 81.70$ \pm $0.23 The model of this paper 91.18$ \pm $0.02 3. 结语
遥感场景包含的目标尺度具有多样性,而传统的卷积神经网络更加注重对图像全局信息的处理,且以往的研究只基于图像单一尺度的深度特征.针对遥感场景对尺度的需求具有多样性的问题,本文提出了一种基于多尺度循环注意力网络的遥感影像场景分类方法,该方法在Resnet50网络的基础上加入了注意力推荐网络,将场景影像重采样为多种尺度输入网络,采用循环交替训练的方式获得遥感场景更加准确的关注区域以及更加精细的多尺度特征.通过在UC Merced Land-Use和NWPU-RESISC45两个公开数据集上进行实验,并与现有的方法进行对比,结果显示本文方法能够显著提升遥感影像场景的分类精度,证明了多尺度循环注意力网络对于遥感影像场景分类的可行性和有效性,也为该方向的进一步研究提供了思路.
本文选取应用较为广泛的、经典的ImageNet数据集作为Resnet50的预训练数据集,但是ImageNet数据集有些老旧,后续的工作中会尝试使用较新的Place365数据集预训练的模型,可能会取得更好的效果.另外,本文目前只做了两种图像尺度的拼接,导致模型对一些场景类别的特征区分度不够,分类效果有待提升.同时,注意力机制对于部分没有独立地物目标的场景的分类精度难以提升,并且模型对于内存的要求较高.因此,如何构建更好的融合方法从而进一步提高网络的特征提取能力以适应更为复杂的遥感影像是今后研究的主要任务.
-
表 1 Resnet50网络配置
Table 1. Resnet50 network configuration
layer name 50-layer Conv1 7×7, 64, stride 2 Conv2_x 3×3 Max Pool, stride 2 $ \left[\begin{array}{c}1\times \mathrm{1, 64}\\ 3\times \mathrm{3, 64}\\ 1\times \mathrm{1, 256}\end{array}\right] $ × 3 Conv3_x $ \left[\begin{array}{c}1\times \mathrm{1, 128}\\ 3\times \mathrm{3, 128}\\ 1\times \mathrm{1, 512}\end{array}\right] $× 4 Conv4_x $ \left[\begin{array}{c}1\times \mathrm{1, 256}\\ 3\times \mathrm{3, 256}\\ 1\times \mathrm{1, 1}\mathrm{ }024\end{array}\right] $ × 6 Conv5_x $ \left[\begin{array}{c}1\times \mathrm{1, 512}\\ 3\times \mathrm{3, 512}\\ 1\times \mathrm{1, 2}\mathrm{ }048\end{array}\right] $ × 3 GAP, k-d FC, softmax 表 2 两个数据集的相关信息
Table 2. Information about two datasets
Datasets Scene Images per class Total images Sizes Training rate UC Merced Land-Use 21 100 2 100 256×256 80% NWPU-RESISC45 45 700 31 500 256×256 10% 表 3 基于UC Merced Land-Use不同尺度特征的分类精度
Table 3. Classification accuracy of different scale features on UCM dataset
number scale A-OA (%) 1 S_128_256 97.85$ \pm $0.67 2 S_160_256 98.10$ \pm $0.39 3 S_192_256 98.51$ \pm $0.11 4 S_224_256 98.33$ \pm $00.14 5 S_256 98.18$ \pm $00.09 6 S_288_256 98.10$ \pm $00.39 表 4 基于NWPU-RESISC45不同尺度特征的分类精度
Table 4. Classification accuracy of different scale features on NWPU-RESISC45 dataset
number scale A-OA (%) 1 S_128_256 91.04$ \pm $0.03 2 S_160_256 90.86$ \pm $0.19 3 S_192_256 91.18$ \pm $0.02 4 S_224_256 90.19$ \pm $0.31 5 S_256 90.25$ \pm $0.20 6 S_288_256 90.85$ \pm $0.27 表 5 不同方法对UC Merced Land-Use的分类精度
Table 5. Classification accuracy of different methods for UC Merced Land-Use
Method OA (%) BoVW(Yang and Newsam, 2010) 76.80 GoogleNet(Nogueira et al., 2017) 92.80 CaffeNet(Xia et al., 2017) 95.02$ \pm $0.81 Resnet50(Zhang et al., 2019) 96.62$ \pm $0.26 GLM16(Yuan et al., 2019) 94.97$ \pm $1.16 VGG-VD16+MSCP(He et al., 2018) 98.36$ \pm $0.58 AlexNet + MSCP(He et al., 2018) 97.29$ \pm $0.63 The model of this paper 98.51$ \pm $0.11 表 6 不同方法对NWPU-RESISC45的分类精度
Table 6. Classification accuracy of different methods for NWPU-RESISC45
Method OA (%) BoVW(Cheng et al., 2017) 41.72$ \pm $0.21 Fine-tuned AlexNet(Cheng et al., 2017) 81.22$ \pm $0.19 Fine-tuned GoogleNet (Cheng et al., 2017) 82.57$ \pm $0.12 Fine-tuned VGGNet-16(Cheng et al., 2017) 87.15$ \pm $0.45 Resnet50(Zhao et al., 2020) 88.48$ \pm $0.21 VGG-VD16+MSCP(He et al., 2018) 85.33$ \pm $0.17 AlexNet + MSCP(He et al., 2018) 81.70$ \pm $0.23 The model of this paper 91.18$ \pm $0.02 -
[1] Bahdanau, D., Cho, K., Bengio, Y., 2014. Neural Machine Translation by Jointly Learning to Align and Translate. Computer Science, arXiv: 1409.0473. https://arxiv.org/abs/1409.0473 [2] Castelluccio, M., Poggi, G., Sansone, C., et al., 2015. Land Use Classification in Remote Sensing Images by Convolutional Neural Networks. Acta Ecologica Sinica, 28(2): 627-635. http://pdfs.semanticscholar.org/4191/fe93bfd883740a881e6a60e54b371c2f241d.pdf [3] Chen, Q.H., Liu, Z.M., Liu, X.G., et al., 2010. Element-Oriented Land-Use Classification of Mining Area by High Spatial Resolution Remote Sensing Image. Earth Science, 35(3): 453-458(in Chinese with English abstract). http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=5631116 [4] Chen, S.Z., Tian, Y.L., 2014. Pyramid of Spatial Relatons for Scene-Level Land Use Classification. IEEE Transactions on Geoscience and Remote Sensing, 53(4): 1947-1957. https://doi.org/10.1109/TGRS.2014.2351395 [5] Cheng, G., Han, J., Lu, X., 2017. Remote Sensing Image Scene Classification: Benchmark and State of the Art. Proceedings of the IEEE, 105(10): 1865-1883. https://doi.org/10.1109/JPROC.2017.2675998 [6] Cheng, G., Ma, C. C., Zhou, P. C., et al., 2016. Scene Classification of High Resolution Remote Sensing Images Using Convolutional Neural Networks. In Proceedings 2016 IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Beijing, 767-770. https://doi.org/10.1109/IGARSS.2016.7729193 [7] Cheng, G.X., Niu, R.Q., Zhang, K.X., et al., 2018. Opencast Mining Area Recognition in High-Resolution Remote Sensing Images Using Convolutional Neural Networks. Earth Science, 43(Suppl. 2): 256-262(in Chinese with English abstract). http://en.cnki.com.cn/Article_en/CJFDTotal-DQKX2018S2021.htm [8] Fu, J.L., Zheng, H.L., Mei, T., 2017. Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu Hawaii, 4476-4484. https://doi.org/10.1109/CVPR.2017.476 [9] Gómez-Chova, L., Tuia, D., Moser, G., et al., 2015. Multimodal Classification of Remote Sensing Images: A Review and Future Directions. Proceedings of the IEEE, 103(9): 1560-1584. https://doi.org/10.1109/JPROC.2015.2449668 [10] Han, X.B., Zhong, Y.F., Cao, L.Q., et al., 2017. Pre-Trained AlexNet Architecture with Pyramid Pooling and Supervision for High Spatial Resolution Remote Sensing Image Scene Classification. Remote Sensing, 9(8): 848. https://doi.org/10.3390/rs9080848 [11] He, K.M., Zhang, X.Y., Ren, S Q., et al., 2016. Deep Residual Learning for Image Recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas Nevada, 770-778. https://doi.org/10.1109/CVPR.2016.90 [12] He, N.J., Fang, L.Y., Li, S.T., et al., 2018. Remote Sensing Scene Classification Using Multilayer Stacked Covariance Pooling. IEEE Transactions on Geoscience and Remote Sensing, 56(12): 6899-6910. https://doi.org/10.1109/TGRS.2018.2845668 [13] Jia, Y.Q., Shelhamer, E., Donahue, J., et al., 2014. Caffe: Convolutional Architecture for Fast Feature Embedding. In Proceedings of the 22nd ACM International Conference on Multimedia, Orlando Florida USA, 675-678. https://doi.org/10.1145/2647868.2654889 [14] Ketkar, N., 2017. Introduction to PyTorch. Deep Learning with Python. Apress, Berkeley, CA, 195-208. https://doi.org/10.1007/978-1-4842-2766-4_12 [15] Li, G.D., Zhang, C.J., Wang, M.K., et al., 2019. Transfer Learning Using Convolutional Neural Network for Scene Classification within High Resolution Remote Sensing Image. Science of Surveying and Mapping, 44(4): 116-123, 174(in Chinese with English abstract). http://en.cnki.com.cn/Article_en/CJFDTotal-CHKD201904021.htm [16] Li, W.K., Zhang, W., Qin, J.H., et al., 2020. "Expansion-Fusion" Extraction of Surface Gully Area Based on DEM and High-Resolution Remote Sensing Images. Earth Science, 45(6): 1948-1955(in Chinese with English abstract). [17] Lienou, M., Maitre, H., Datcu, M., 2009. Semantic Annotation of Satellite Images Using Latent Dirichlet Allocation. IEEE Geoscience and Remote Sensing Letters, 7(1): 28-32. https://doi.org/10.1109/LGRS.2009.2023536 [18] Luo, W., Li, H. L., Liu, G. H., 2011. Automatic Annotation of Multispectral Satellite Images Using Author-Topic Model. IEEE Geoscience and Remote Sensing Letters, 9(4): 634-638. https://doi.org/10.1109/LGRS.2011.2177064 [19] Nogueira, K., Penatti, O. A. B., dos Santos, J.A., 2017. Towards Better Exploiting Convolutional Neural Networks for Remote Sensing Scene Classification. Pattern Recognition, 61: 539-556. https://doi.org/10.1016/j.patcog.2016.07.001 [20] Oliva, A., Torralba, A., 2001. Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope. International Journal of Computer Vision, 42(3): 145-175. https://doi.org/10.1023/A:1011139631724 [21] Pan, S. J., Yang, Q., 2009. A Survey on Transfer Learning. IEEE Transactions on Knowledge and Data Engineering, 22(10): 1345-1359. https://doi.org/10.1109/TKDE.2009.191 [22] Simonyan, K., Zisserman, A., 2014. Very Deep Convolutional Networks for Large-Scale Image Recognition. CoRR. Computer Science, arXiv: 1409.1556. [23] Szegedy, C., Liu, W., Jia, Y.Q., et al., 2015. Going Deeper with Convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, IEEE, 1-9. https://doi.org/10.1109/CVPR.2015.7298594 [24] Xia, G. S., Hu, J. W., Hu, F., et al., 2017. AID: A Benchmark Data Set for Performance Evaluation of Aerial Scene Classification. IEEE Transactions on Geoscience and Remote Sensing, 55(7): 3965-3981. https://doi.org/10.1109/TGRS.2017.2685945 [25] Yang, Y., Newsam, S., 2010. Bag-of-Visual-Words and Spatial Extensions for Land-Use Classification. In Proceedings of the ACM International Symposium on Advances in Geographic Information Systems, San Jose California, 270-279. https://doi.org/10.1145/1869790.1869829 [26] Yang, Y., Newsam, S., 2013. Geographic Image Retrieval Using Local Invariant Features. IEEE Transactions on Geoscience and Remote Sensing, 51(2): 818-832. https://doi.org/10.1109/TGRS.2012.2205158 [27] Yu, D.H., Zhang, B.M., Zhao, C., et al., 2020. Scene Classification of Remote Sensing Image Using Ensemble Convolutional Neural Network. Journal of Remote Sensing, 24(6): 717-727(in Chinese with English abstract). [28] Yu, S.C., Yu, D.Q., Wang, L.C., et al., 2019. Remote Sensing Study of Dongting Lake Beach Changes before and after Operation of Three Gorges Reservoir. Earth Science, 44(12): 4275-4283(in Chinese with English abstract). http://en.cnki.com.cn/Article_en/CJFDTotal-DQKX201912037.htm [29] Yuan, Y., Fang, J., Lu, X.Q., et al., 2019. Remote Sensing Image Scene Classification Using Rearranged Local Features. IEEE Transactions on Geoscience and Remote Sensing, 57(3): 1779-1792. https://doi.org/10.1109/TGRS.2018.2869101 [30] Zhang, D., Li, N., Ye, Q.L., 2019. Positional Context Aggregation Network for Remote Sensing Scene Classification. IEEE Geoscience and Remote Sensing Letters, 17(6): 943-947. https://doi.org/10.1109/LGRS.2019.2937811 [31] Zhao, Z.C., Li, J.Q., Luo, Z., et al., 2020. Remote Sensing Image Scene Classification Based on an Enhanced Attention Module. IEEE Geoscience and Remote Sensing Letters, (99): 1-5. https://doi.org/10.1109/LGRS.2020.3011405 [32] 陈启浩, 刘志敏, 刘修国, 等, 2010. 面向基元的高空间分辨率矿区遥感影像土地利用分类. 地球科学, 35(3): 453-458. doi: 10.3799/dqkx.2010.055 [33] 程国轩, 牛瑞卿, 张凯翔, 等, 2018. 基于卷积神经网络的高分遥感影像露天采矿场识别. 地球科学, 43(增刊2): 256-262. doi: 10.3799/dqkx.2018.987 [34] 李冠东, 张春菊, 王铭恺, 等, 2019. 卷积神经网络迁移的高分影像场景分类学习. 测绘科学, 444): 116-123, 174. https://www.cnki.com.cn/Article/CJFDTOTAL-CHKD201904021.htm [35] 李文凯, 张唯, 秦家豪, 等, 2020. 基于DEM和高分辨率遥感影像的"膨胀-融合"式地表沟壑提取. 地球科学, 45(6): 1948-1955. doi: 10.3799/dqkx.2020.004 [36] 余东行, 张保明, 赵传, 等, 2020. 联合卷积神经网络与集成学习的遥感影像场景分类. 遥感学报, 24(6): 717-727. https://www.cnki.com.cn/Article/CJFDTOTAL-YGXB202006006.htm [37] 余姝辰, 余德清, 王伦澈, 等, 2019. 三峡水库运行前后洞庭湖洲滩面积变化遥感认识. 地球科学, 44(12): 4275-4283. doi: 10.3799/dqkx.2019.182 期刊类型引用(8)
1. 于刘. 基于自编码神经网络的航空物探遥感数据分类方法研究. 计算机测量与控制. 2024(03): 253-258 . 百度学术
2. 郭子正,杨玉飞,何俊,黄达. 考虑注意力机制的新型深度学习模型预测滑坡位移. 地球科学. 2024(05): 1665-1678 . 本站查看
3. 赵全意,郑福建,夏波,李政英,黄鸿. 基于深度流形蒸馏网络的高光谱遥感图像场景分类方法. 测绘学报. 2024(12): 2404-2415 . 百度学术
4. 余东行,徐青,赵传,郭海涛,卢俊,林雨准,刘相云. 注意力引导特征融合与联合学习的遥感影像场景分类. 测绘学报. 2023(04): 624-637 . 百度学术
5. 王梨名,祁昆仑,杨超,吴华意. 弱监督尺度自适应增强的高分辨率遥感影像场景分类. 遥感学报. 2023(12): 2815-2830 . 百度学术
6. 冯权泷,牛博文,朱德海,陈泊安,张超,杨建宇. 土地利用/覆被深度学习遥感分类研究综述. 农业机械学报. 2022(03): 1-17 . 百度学术
7. 苏赋,于海鹏,朱威西. 标签聚类损失在遥感影像分类中的应用. 自然资源遥感. 2022(02): 144-151 . 百度学术
8. 刘瑞航,张佳瑜,马彩虹. OIF辅助BP神经网络模式识别的土地覆盖分类. 北京测绘. 2022(09): 1145-1150 . 百度学术
其他类型引用(3)
-