多尺度注意力融合的图像超分辨率重建.pdf

资源描述

1、文章编号2097-1842（2023）05-1034-11多尺度注意力融合的图像超分辨率重建陈纯毅*，吴欣怡，胡小娟，于海洋（长春理工大学计算机科学技术学院,吉林长春130022）摘要：光学成像分辨率受衍射极限、探测器尺寸等诸多因素限制。为了获得细节更丰富、纹理更清晰的超分辨率图像，本文提出了一种多尺度特征注意力融合残差网络。首先，使用一层卷积提取图像的浅层特征，之后，通过级联的多尺度特征提取单元提取多尺度特征，多尺度特征提取单元中引入通道注意力模块自适应地校正特征通道的权重，以提高对高频信息的关注度。将网络中的浅层特征和每个多尺度特征提取单元的输出作为全局特征融合重建的层次特征。最后，利用残

2、差分支引入浅层特征和多级图像特征，重建出高分辨率图像。算法使用 Charbonnier 损失函数使训练更加稳定，收敛速度更快。在国际基准数据集上的对比实验表明：该模型的客观指标优于大多数最先进的方法。尤其在 Set5 数据集上，4 倍重建结果的 PSNR 指标提升了 0.39dB，SSIM 指标提升至 0.8992，且算法主观视觉效果更好。关键词：卷积神经网络；超分辨率重建；多尺度特征提取；残差学习；通道注意力机制中图分类号：TP391文献标志码：Adoi：10.37188/CO.2023-0020Imagesuper-resolutionreconstructionwithmulti-sca

3、leattentionfusionCHENChun-yi*，WUXin-yi，HUXiao-juan，YUHai-yang（School of Computer Science and Technology,Changchun University of Science and Technology,Changchun 130022,China）*Corresponding author，E-mail:Abstract:Theresolutionofopticalimagingislimitedbythediffractionlimit,systemdetectorsizeandmanyoth

4、erfactors.Toobtainimageswithricherdetailsandclearertextures,amulti-scalefeatureattentionfusionresidualnetworkwasproposed.Firstly,shallowfeaturesoftheimagewereextractedusingalayerofconvo-lutionandthenthemulti-scalefeatureswereextractedbyacascadeofmulti-scalefeatureextractionunits.Thelocalchannelatten

5、tionmoduleisintroducedinthemulti-scalefeatureextractionunittoadaptivelycor-recttheweightsoffeaturechannelsandimprovetheattentiontohighfrequencyinformation.Theshallowfeaturesandtheoutputofeachmulti-scalefeatureextractionunitwereusedashierarchicalfeaturesforglob-alfeaturefusionreconstruction.Finally,t

6、hehight-resolutionimagewasreconstructedbyintroducingshal-lowfeaturesandmulti-levelimagefeaturesusingtheresidualbranch.Charbonnierlosswasadoptedtomakethetrainingmorestableandconvergefaster.Comparativeexperimentsontheinternationalbenchmarkdata-setsshowthatthemodeloutperformsmoststate-of-the-artmethods

7、onobjectivemetrics.EspeciallyontheSet5dataset,thePSNRindexofthe4reconstructionresultisincreasedby0.39dB,andtheSSIMindexis收稿日期：2023-01-28；修订日期：2023-02-20基金项目：国家自然科学基金项目（No.U19A2063）；吉林省科技发展计划项目（No.20230201080GX）SupportedbytheNationalNaturalScienceFoundationofChina(No.U19A2063);ScienceandTechnologyDe-

8、velopmentProjectofJilinProvince(No.20230201080GX)第16卷第5期中国光学（中英文）Vol.16No.52023 年 9 月ChineseOpticsSept.2023increasedto0.8992,andthesubjectivevisualeffectofthealgorithmisbetter.Keywords:convolutionalneuralnetwork；super-resolutionreconstruction；multi-scalefeatureextraction；re-siduallearning；channelatt

9、entionmechanism1引言传统光学成像系统使用多组光学透镜将光线折射聚焦到传感器上，由此建立目标场景和传感器像素之间的对应关系，传感器将光信号转换为电信号，再经过数字化处理得到最终图像。在此过程中，成像分辨率与信息量不可避免地受到光学衍射极限、探测器离散采样、成像系统空间带宽积等若干物理因素的影响1。受制作工艺和成本限制，从硬件方面提高图像的分辨率很难突破，因此图像超分辨率重建技术得到了广泛关注2-3。图像超分辨率重建是指由低分辨率(LowResolution,LR)图像或图像序列重建高分辨率(HighResolution,HR)图像4。其中，单幅图像超分辨率重建技术已被广泛应用于高

10、光谱成像5-6、医学影像7-9、卫星遥感10-11、人脸识别12-13等领域。图像超分辨重建的最主要目的是增加数字图像的像素数，尽可能重建图片中的高频信息，获得边缘纹理清晰可见，颜色保真的图像。目前，单幅图像超分辨率重建(SingleImageSuper-Resolu-tion，SISR)的传统方法主要分为三类，分别是：基于插值的方法14、基于重建的方法和基于浅层学习的方法。基于插值的方法是根据 LR 图像像素的排列关系就近选择性质相同的像素值进行重建。常见的插值算法如双三次插值法（Bicubic），目前大部分情况将其用于预先上采样模型的数据预处理。虽然计算简单但是损失较多，重建图像边缘通常会

11、产生锯齿伪影，效果不好。基于重建的方法首先要构建退化模型，通过退化模型逆推重建图像。基于浅层学习的方法是从大量的 LR-HR 图像样本中学习图像对之间的联系，根据学到的变换对低分辨率图像进行重建。近几年，卷积神经网络与超分辨率重建任务结合更加常见15-16。2014 年，Dong 等人17受传统稀疏编码学习的启发，构建了由图像特征提取表示层、非线性映射层及重建层构成的超分辨率卷积神经网络(Super-ResolutionConvolutionalNeuralNetwork,SRCNN)，其输入是经双三次插值放大到目标尺寸的 LR 图像，因此训练速度较慢。为了加快训练速度，Dong 等人18提出

12、了对 SRCNN的改进模型，即快速超分辨率卷积神经网络(FastSuper-Resolution Convolutional Neural Network,FSRCNN)，其使用反卷积进行上采样操作，并置于网络末端。网络内部则采用尺寸较小的卷积层，输入小尺寸图像块，降低了计算复杂度，提升了重建质量。Kim 等人19构建了一个 20 层深度的卷积网络 VDSR(Super-resolution using VeryDeepConvolutionalNetwork)，证明了加深网络和全局残差学习对超分辨率重建任务有效，并且在训练时使用梯度裁剪策略解决了加深网络带来的梯度问题。为了减轻训练深

13、层网络的难度，Tai 等人20提出深度递归残差网络(DeepRecursiveRe-sidualNetwork,DRRN)，DRRN 引入了局部残差学习，每运行几层就进行一次残差学习，最后的输出进行全局残差学习，同时用递归学习控制模型的参数量。Shi 等人21提出的高效亚像素卷积神经网络(EfficientSub-PixelConvolutionalNeur-alNetwork,ESPCN)，使用亚像素卷积对图像放大，节约了重建成本的同时也增强了网络对复杂映射的学习能力。Zhang 等人22将稠密连接网络和残差网络相结合，提出了稠密残差网络(Resid-ualDenseNetwork,RDN)

14、，该模型充分利用浅层特征，但因为参数量过大，无法投入实际应用。Lim 等人23提出增强深度残差(EnhancedDeepSuper-Resolution,EDSR)网络结构实现，为了减少计算量，移除残差模块中不必要的归一化层和激活函数层，之后的很多研究也省去了归一化层。Zhang等人24提出的 RCAN(ResidualChannelAttentionNetwork)网络首次在图像超分任务中加入通道注意力机制，并用残差嵌套结构加深网络。Li 等人25提出的多尺度残差网络(Multi-ScaleResidualNet-work,MSRN)使用两种不同大小的卷积核交叉串联对输入图像进行反复的特征信

15、息提取，网络收敛速度快，重建效果好。Zhao 等人26利用像素注意力机制构建了高效的图像超分辨率重建网络PAN(PixelAttentionNetwork)提升了重建性能。第5期陈纯毅,等:多尺度注意力融合的图像超分辨率重建1035提升重建性能不仅可以通过网络结构实现，还可以从训练策略上入手。Wang 等人27采用边缘增强的梯度损失训练边缘增强特征蒸馏网络(Edge-enhancedFeatureDistillationNetwork,EFDN)，基于重参数化法构建边缘增强的多样化分支块，提取了更多的高频特征。在上述模型中 SRCNN17、FSRCNN18和 ES-PCN21属于浅层网络模型，

16、后两者均属于后置上采样模型，分别在网络末端使用反卷积和亚像素卷积对图像上采样重建，与使用插值算法进行预先上采样的模型相比效果明显更好。三种模型使用的卷积层数都较少，因此在重建比例较大时效果虽然优于传统模型但依旧不理想。VDSR19、DRRN20、RDN22及 EDSR23均属于利用了残差学习的深层模型，前三者使用梯度裁剪抑制深层网络容易出现的梯度问题，EDSR23去掉了归一化层，简化了网络结构，并且使用单一模型解决多尺度缩放的问题。但上述模型仍有不足，首先，网络模型计算量依然很大，其次，忽视了特征通道重要性的差异，对不同类型的信息都采用相同的处理方式，导致其重建性能受限。RCAN24和 PAN

17、26采用不同的注意力机制分别挖掘不同特征通道和不同像素之间的联系，以提升重建性能，但模型中的卷积核大小单一，对多尺度特征利用不充分，并且其组内各模块采用串联的方式，中间层特征未得到利用。MSRN25和 EFDN27对网络中的层次特征和图像的多尺度特征加以利用。从计算复杂度上考虑，MSRN25参数量多于 EFDN27。以训练难度衡量，EFDN27使用高级的调优策略，训练过程更复杂，但重建效果更好。针对上述单幅图像超分辨率重建算法中出现的特征提取尺度单一、特征通道处理方式不灵活、特征复用不充分、深层网络训练难等问题。本文提出了基于多尺度残差网络的 SISR 方法，对现有的多尺度残差网络进行改进，主

18、要工作如下：（1）为了缓解单一尺度卷积造成的特征丰富度缺失，采用沙漏状的多尺度特征提取单元，加入通道注意力机制，根据学习权重筛选特征通道，灵活处理通道信息，提升模型计算效率；（2）将局部残差学习和全局残差学习相结合，提高了信息流传播的效率，引入浅层特征和多级层次特征加强监督；（3）使用多路分支的级联网络结构，扩宽网络宽度，充分利用图像的上下文信息，提升重建图像的质量。2网络结构2.1多尺度注意力残差网络本文提出的多尺度注意力残差网络(Multi-ScaleAttentionResidualNetwork,MSARN)结构如图 1 所示。该网络结构包括浅层特征提取模块、多尺度特征提取模块(Mul

19、ti-ScaleFeatureEx-tractionBlock，MSFEB)、残差分支(ResidualBra-nch，RB)和特征融合重建层(FeatureFusionRe-constructionLayer，FFRL)。网络输入为低分辨率图像块 ILR，输出为超分辨率重建结果 ISR。图像的浅层特征与原始输入相比包含更多的像素点信息。由单层卷积生成的低层特征映射可以捕获输入图像的细节。浅层特征提取选用大小为 33，输出通道数为 64 的卷积层，为保证输入输出大小一致 padding=1。浅层特征提取可表示为：F0=HSF(ILR),（1）ILRISRF0浅层特征提取(HSF)残差分支(RB

20、)多尺度特征提取模块(MSFEB)Conv 卷积层多尺度提取单元MSFEU层次特征融合ConcatUpsample重建层逐元素相加特征融合重建层(FFRL)Conv1,64,64Conv3,64,128Conv3,128,256Conv3,256,128Conv3,128,64Conv1,64,64MSFEU1G1G2F2F1R1R2R3MoutMnMSFEU2MSFEUnM1M21036中国光学（中英文）第16卷ILRIRF浅层特征提取(HSF)残差分支(RB)多尺度特征提取模块(MSFEB)Conv 卷积层多尺度提取单元MSFEU层次特征融合ConcatUpsample重建层逐元素相加特征

21、融合重建层(FFRL)Conv1,64,64Conv3,64,128Conv3,128,256Conv3,256,128Conv3,128,64Conv1,64,64MSFEUGGFFRRRMoutMMSFEUMSFEUMM图1多尺度注意力残差网络Fig.1Multi-scaleattentionresidualnetwork其中，HSF()表示卷积操作，F0是提取出的浅层特征，即多尺度特征提取模块和残差分支的输入。2.2多尺度特征提取模块多尺度特征提取模块由多个沙漏状的多尺度特征提取单元（Multi-ScaleFeatureExtractionUnit,MSFEU）组成，图 2 为多尺度特征

22、提取单元结构。第一级Conv1ConcatConcatConcatFusionPoolingSigmoidConv1-1Conv1-2Conv3Conv3Conv3ConcatConv3Conv3Conv3Conv1Conv1Mn1F1,2F1,3F2,1F2,2F2,3FLFMnF1,1Conv3Conv3第二级通道注意力模块图2多尺度特征提取单元Fig.2Multi-scalefeatureextractionunit图像的多尺度特征由 3 个分支提取，每个分支分为两级，包含不同数目的卷积层，每个卷积层后默认添加 LeakyReLU 激活层。设 Mn-1为前一单元的输出，第一级 3 条分支

23、得到的结果可表示为：F1,1=r(W1,233r(W1,111 Mn1),（2）F1,2=r(W1,533r(W1,433r(W1,311 Mn1),（3）F1,3=r(W1,611 Mn1),（4）其中，Fi,j代表第 i 级第 j 条分支的输出结果，r()表示 LeakyReLU 激活函数，“*”表示卷积运算，W 表示对应卷积层的权重，W 下标是对应的卷积核大小，上标对应所属级数和从上到下的序号。第一级的结果两两分组输入到下一级中交叉级联，继续提取深层特征。三条分支提取到的深层特征在通道维度上级联，再由 Fusion 层融合得到更丰富的特征描述。第二级多特征提取结果可表达为：F2,1=r(

24、W2,233r(W2,133Concat(F1,1,F1,2),（5）F2,2=r(W2,333Concat(F1,1,F1,3),（6）F2,3=W2,533r(W2,433Concat(F1,2,F1,3),（7）FLF=Fusion(Concat(F2,1，F2,2，F2,3),（8）其中，FLF表示融合得到的多尺度特征，Concat()表示特征按通道级联。Fusion()代表卷积核大小为 11 的卷积操作，作用是将输出特征的通道数调整为 64。多尺度特征经过通道注意力模块过滤，重新计算调整权重，加上局部残差得到多特征提取单元的最终输出。通道注意力模块包含全局平均池化层，代表激励操作的两

25、层卷积和 ReLU 激活函数以及 Sigmoid 激活层。每个二维的特征图经全局平均池化转换为单个实数，每一个实数可以代表其对应的特征通道的全局信息。将所有实数向量化，由此得到 11C 的实数列，即特征通道描述符。使用大小为 11 的卷积核提取跨通道的交互信息，第一层卷积作用是降维，降维压缩比例为 16。经 ReLU 激活后再用大小为 11 的卷积核进行升维，还原至原始特征维度。使用 Sig-moid()函数将卷积学习到的通道相关权重归一化，分别与对应的特征通道相乘，得到加权校正后的特征通道。再通过跳跃连接引入前一单元的输出，得到多尺度特征提取单元的最终输出。设第n 个多尺度特征提取单元的输出

26、为 Mn，则输出结果可以表达为：Mn=Sigmoid(C(Pool(FLF)FLF+Mn1,（9）其中表示元素对应位置相乘，Pool()代表全局第5期陈纯毅,等:多尺度注意力融合的图像超分辨率重建1037平均池化（GlobalAveragePooling,GAP）。C()代表两个卷积核大小为 11 的卷积层和卷积层之间的 ReLU 激活函数。2.3残差分支和特征融合重建层残差分支包含两个分支。第一个分支直接将 ILR上采样重建输入到网络后端，第二个分支由两个卷积层组构成，输入 F0经过第一组卷积得到 F1，经过第二组卷积得到 F2，作为重建的参考输入到网络的后端。以 G1()和 G2()分别

27、代表两组卷积操作，则 F1和 F2公式如下：F1=G1(F0),（10）F2=G2(F1).（11）图 3 为特征融合重建层结构。若原始输入的放缩因子 scale 为 s，输入图像大小为 HWC，在上采样之前通过卷积层将图像通道数目调整为s2C，输入到 PixShuffle(s)中可得到大小为 sHsWC 的图像。放大比例为 2 的分支 PixShuffle(2)的输入通道数为 4C，放大比例为 3 的分支 PixShuffle(3)的输入通道数调整为 9C，放大比例为 4 的分支第一个 PixShuffle(2)的输入通道数为 4C，第二个 PixShuffle(2)的输入通道数为 16C。

28、Conv3Conv1PixShuffle(2)Scale=2Scale=3Scale=4PixShuffle(3)PixShuffle(2)PixShuffle(2)Conv3Conv1图3特征融合重建层Fig.3Featurefusionreconstructionlayer3 个分支的特征融合重建层公式如下：Mout=Fusion(Concat(F0,M1,M2,Mn),（12）R1=RE1(ILR),（13）R2=RE2(F1),（14）R3=RE3(Mout+F2),（15）ISR=R1+R2+R3,（16）i=1,n其中 Mi（，n 为模块数）是各个多尺度特征提取单元的输出。将浅层特

29、征和各层次特征按通道维度级联，再采用卷积核大小为 11 进行一次融合卷积，得到的结果再加上残差分支得到的F2。3 条分支结果通过特征融合重建层进行上采样重建。REk（k=1,2,3，k 为分支序号）代表特征重建层的重建函数，可根据缩放因子自适应选择分支。3 个重建层的输出相加得到最终的重建图像。3实验设计3.1实验数据与预处理选用 DIV2K 数据集，训练数据集包含 800 张图片。为了增强数据，训练集所有图像裁剪成4848 的小块，随机进行水平翻转和垂直翻转、放缩因子分别为 2,3,4，下采样的比例分别为 0.5,0.7,1，旋转角度分别为 0,90,180,270。训练后的模型在 4 个国

30、际公共标准测试数据集 Set5、Set14、BSD100、Urban100 上进行测试。与其他方法一样，实验结果统一从 RGB 转换到 YCb-Cr 颜色空间，评价指标只在 Y 通道上计算。3.2实验环境及参数设置实验环境操作系统为 Windows10，CPU 为 i7-87003.20GHz，GPU 为 NVIDIAQuadroP4000，使用 Pytorch 框架，Cuda 版本为 10.2。网络中多尺度特征提取单元个数为 7 个，每个 MSFEU 的输出通道数目均为 64。综合考虑计算成本与实际效果，MSFEU 三条分支的卷积核都为较小的卷积核，在各分支中使用 11 的卷积降维，减少参数

31、量，降低计算难度，具体参数如表 1所示。所有 Fusion 层卷积大小均为 11，输出通表1多尺度特征提取单元参数Tab.1Parametersofthemulti-scalefeatureextractionunits所属模块组件名卷积核大小输入尺寸输出尺寸第一级Conv111HW64HW32Conv333HW32HW32第二级Conv333HW64HW64通道注意力Fusion11HW192HW64PoolingHW641164Conv1-1111164114Conv1-21111411641038中国光学（中英文）第16卷道数均为 64。残差分支的参数如图 1 所示。网络中采用边界补零方

32、式保证各层之间的输入输出大小一致，33 的卷积层默认 padding=1，11 的卷积层默认 padding=0。初始学习率为 104，每 200 代衰减一半。mini-batch=16，即每次随机裁剪选取 16 组大小为 4848 的 LR-HR 子图对作为输入。优化器选用 ADAM，1=0.9，2=0.999，=108，梯度裁剪范围为 0.4,0.4，损失函数使用 Charbonnier 损失28，公式如下：L()=1KKq=1(?IqSRIqHR?2+2),（17）1,K其中是一个常数，可以保证 loss 函数在零点可导且稳定，实验中设置=103。ISR为网络的重建结果，IHR为参考图

33、像，上标q 的取值范围为代表图像对序号。3.3评价指标客观评价指标选择峰值信噪比（PeakSignaltoNoiseRatio，PSNR）和结构相似度（StructuralSimilarity，SSIM）。其中，SSIM 用于衡量场景中的结构信息失真程度，用 PSNR 衡量像素间的误差。两个指标都未考虑到人眼的视觉特性，经常出现指标不理想但视觉效果却很好的情况。因此，选取多种先进算法和本文模型获得的重建图像进行对比，用以展示主观视觉效果。3.4实验结果与分析3.4.1网络结构消融实验为了验证多尺度特征提取模块、残差分支和特征融合重建层和通道注意力机制的有效性，分别构建不同的模型进行实验。为验证

34、多尺度特征提取模块的有效性，将网络中的特征融合重建层去掉，得到模型 MSARNFFRL-。使用双三次插值将其放大到目标尺寸的小型数据集训练。将多尺度特征提取模块中的 MSFEU 替换为简单33 卷积和ReLU 激活层，得到MSARNSC，替换后的多尺度特征提取模块结构如图 4(a)所示。将网络中的 MSFEU 分别替换为图 4(b)的Inception 块29（Inception Block,IB）和图 4(c)的密集块（DenseBlock，DB）得到 MSARNIB和MSARNDB。验证实验在放大倍数为 4 的 Set14 数据集上进行，各消融实验模型的 PSNR、SSIM 和平均处理时

35、间如表 2 所示。表2不同模块的有效性验证Tab.2Validationofdifferentmodules模型名字CARBFFRLPSNR/SSIM/TIMEMSARNSC27.62/0.7682/0.11sMSARNDB27.67/0.7751/0.16sMSARNIB27.78/0.7767/0.13sMSARNFFRL-28.26/0.7789/0.15sMSARN28.64/0.7840/0.14s从表 2 可以看出以 MSARNFFRL-为基准，将网络中的 MSFEU 换为简单的 33 卷积层后的 PSNR为 27.62dB，换成密集块的 PSNR 为 27.67dB，改为 Inc

36、eption 块后得到的 PSNR 为 27.78dB。从结果可以看出，MSARNFFRL-的 PSNR 较其余三者分别提升了 0.64dB，0.59dB 和 0.48dB，SSIM 指标也有所提升。其中，MSARNSC由于使用单一尺寸的卷积核，难以检测不同尺度的图像特征，因此，指标最低。密集块的计算复杂度最高，花费时间最多。Inception 块与 MSFEU 相比缺少通道间相关性的学习，虽然平均处理时间短，但是指标均低于 MSFEU。通过表 2 中 MSARNFFRL-和完整模型 MSARN的对比也可以验证特征融合重建层的有效性。MSARNFFRL-使用双三次插值对图像上采样后再输入到网络

37、中，完整模型 MSARN 使用亚像素卷积在网络后端上采样。使用插值算法上采样会在图像中引入模糊，影响重建质量。而且 MSARNFFRL-的输入为放大到目标尺寸的图像，计算量比输入小尺寸 LR 图像的完整模型更大，因此平均运行时间更长。为验证残差分支和 MSFEU 中注意力机制的Conv3Conv3Conv1Conv3ConcatFusion(c)密集块(c)Dense blockConv5 33maxpoolConv3ConcatFusionConv3Conv3Conv3ConcatFusion(a)简单卷积(a)Simple convolution(b)Inception 块(b)Incep

38、tion block图4用于比较的模块Fig.4Modulesforcomparison第5期陈纯毅,等:多尺度注意力融合的图像超分辨率重建1039有效性，训练集不进行插值放大处理，保留特征融合重建层，分别训练完整模型 MSARN、去掉残差分支的模型 MSARNRB-、去掉 MSFEU 中通道注意力的模型 MSARNCA-。在放缩因子为 4 的 Set14测试集上验证 PSNR 和 SSIM，指标对比如表 3所示。表3残差分支与通道注意力有效性验证Tab.3Validationof residual branch and channel at-tention模块名字CARBFFRLPSNR/S

39、SIMMSARNRB-28.57/0.7802MSARNCA-28.35/0.7778MSARN28.64/0.7840通道注意力模块对不同特征通道进行筛选，抑制关联性弱的无关通道，强化与特征相关的通道。与去掉通道注意力的 MSARNCA-相比，完整网络模型的 PSNR 和 SSIM 分别提高了 0.29dB和 0.0039，上述结果可以证明通道注意力模块的有效性。同时从结果可以看出完整模型 MSARN的 PSNR 和 SSIM 指标均高于 MSARNRB-，PSNR提高了 0.25%，SSIM 提高了 0.49%，由此证明多支路的残差学习更有利于结构信息的重建和保持。为验证 Charbonn

40、ier 损失的有效性，分别使用 Charbonnier 损失和 L2 损失在小型训练集上迭代 100 代，在 Set5 和 Set14 数据集上进行测试。不同损失函数训练的 MSARN 模型 PSNR 值如表 4 所示，可以看出使用 Charbonnier 损失训练的模型 PSNR 值更高。3.4.2客观定量分析将本文模型与其他先进方法做对比，PSNR与 SSIM 如表 5 所示。粗体标注为最优值，下划线标注为次优值。对比方法包括：Bicubic14、SRCNN17、VDSR19、DRRN20、IDN30、MSRN25、PAN26和 EFDN27，其中 EFDN 模型未提供放大倍数为 3 的训

41、练模型。由表 5 数据可以看出，本文的网络模型的大部分客观评价指标均较原始方法有所提升。由表5 可知，在放大比例为4 的BSD100数据集上与 2018 年 ECCV上发表的 MSRN 相比，本文模型的 PSNR 和 SSIM分别提升 0.18dB 和0.0137，在其他放大比例上的评价指标也更高；与 2020 年在 ECCV 提出的 PAN 模型相比，放大比例为 3 时在纹理结构细节较多的 Urban100 数据集上，PSNR 平均提升0.28dB，SSIM 平均提升0.0096；与 2022 年发表在 NTIRE 上的最新算法EFDN 相比，在放大 4 倍的 Urban100 数据集上PS

42、NR 和 SSIM 平均提升了 0.21dB 和 0.0051。表4不同损失函数的 PSNR 比较Tab.4PSNRcomparisonofdifferentlossfunctions放大比例损失函数Set5Set142L237.8433.50Charbonnier38.1333.893L233.9130.03Charbonnier34.0530.404L231.5328.26Charbonnier31.6728.41表5不同超分辨率模型重建 PSNR/SSIM 比较Tab.5PSNR/SSIMcomparisonofdifferentsuper-resolutionmodels放大比例方法S

43、et5Set14BSD100Urban1002Bicubic33.68/0.926530.24/0.869129.56/0.843526.88/0.8405SRCNN36.66/0.954232.45/0.906731.56/0.887929.51/0.8946VDSR37.52/0.958733.05/0.912731.90/0.896030.77/0.9141DRRN37.74/0.959733.23/0.913632.05/0.897331.23/0.9188IDN37.83/0.960033.30/0.914832.08/0.898531.27/0.9196MSRN38.08/0.96

44、0533.74/0.917032.23/0.901332.22/0.9326PAN38.00/0.960533.59/0.918132.18/0.899732.01/0.9273EFDN38.00/0.960433.57/0.917932.18/0.899832.05/0.9275本文38.43/0.962634.05/0.921332.32/0.902832.28/0.93381040中国光学（中英文）第16卷指标提升充分说明本文的 MSARN 模型可以有效提高重建性能。3.4.3主观视觉效果对比为了更直观地展示MSARN 的视觉效果，对比算法选用 Bicubic14、SRCNN17、VDS

45、R19、DRRN20、RCAN24、IDN30、MSRN25、PAN26和 EFDN27。图 5图 7 是各算法重建图像的对比图。HRBicubicSRCNNVDSRDRRNRCANIDNMSRNPANOurs图5Set14 数据集中“zebra”3的视觉效果图Fig.5Comparisonoftheresultsofzebra3intheSet14dataset图 5 为 Set14 数据集中“Zebra”放大 3 倍的重建视觉效果对比。SRCNN、VDSR 和 DRRN都是使用双三次插值进行前置上采样的模型，重建图像细节上伪影较多。IDN 使用反卷积进行上采样，最终结果也引入了双三次插值的

46、图像，视觉效果也不佳。RCAN、MSRN、PAN 重建图像的右上角比较模糊，而 MSARN 重建图像的斑马条纹更清晰，更接近参考图像。图 6 和图 7 分别为 B100 数据集中的“148026”和 Urban100 数据集中的“img012”放大 4 倍的重建效果对比。可以直观地看出图 6 中本文重建图像斜纹较少，图 7 中本文结果的大楼外侧条纹和窗户没有出现变形，准确重建出了较直且清晰的线条形状。与其他算法相比 MSARN 的重建图像续表5放大比例方法Set5Set14BSD100Urban1003Bicubic30.40/0.868627.54/0.774127.21/0.738924.

47、46/0.7349SRCNN32.75/0.909029.29/0.821528.41/0.786326.24/0.7991VDSR33.66/0.921329.78/0.831828.83/0.797627.14/0.8279DRRN34.03/0.924429.96/0.834928.95/0.800427.53/0.8377IDN34.11/0.925329.99/0.835428.95/0.801327.42/0.8359MSRN34.38/0.926230.34/0.839529.08/0.804128.08/0.8554PAN34.40/0.927130.36/0.842329.1

48、1/0.805028.11/0.8511本文34.61/0.928430.33/0.848029.25/0.807628.39/0.86074Bicubic28.43/0.810926.00/0.702325.96/0.667823.14/0.6574SRCNN30.48/0.862827.50/0.751326.90/0.710324.52/0.7226VDSR31.35/0.883828.02/0.767827.29/0.725225.18/0.7525DRRN31.68/0.888828.21/0.772027.38/0.728425.44/0.7638IDN31.82/0.890328

49、.25/0.773027.41/0.729725.41/0.7632MSRN32.07/0.890328.60/0.775127.52/0.727326.04/0.7896PAN32.13/0.894828.61/0.782227.59/0.736326.11/0.7854EFDN32.08/0.893128.58/0.780927.56/0.735426.00/0.7815本文32.52/0.899228.85/0.784027.70/0.741026.21/0.7866第5期陈纯毅,等:多尺度注意力融合的图像超分辨率重建1041与原图相似度更大，轮廓更清晰。以上实验结果表明，MSARN 达

50、到了提升重建效果的目的，能更清晰准确地重建出细腻的细节纹理，重建结果还原度更高。3.4.4参数量分析图 8 为各个算法在放缩因子为 4 的 Set5 数据集上的性能与参数量的对比结果。参与比较的模型有：SRCNN17、VDSR19、DRRN20、IDN30、MSRN25、PAN26和 EFDN27。由图 8 可以看出本文提出的模型参数量仅有的 MSRN 的一半，而PSNR 值提高了 1.4%，综合权衡参数量和性能，本文网络模型结果也是优于其他模型的。4结论本文针对单幅图像超分辨率重建问题提出了多尺度特征提取和通道注意力结合的超分辨率模型 MSARN。模型使用多个分支提取了图像的多尺度特征，使用

展开阅读全文