收藏 分享(赏)

多尺度选择注意力的双模态目标追踪算法.pdf

上传人:爱文献爱资料 文档编号:21751208 上传时间:2024-04-21 格式:PDF 页数:9 大小:1.95MB
下载 相关 举报
多尺度选择注意力的双模态目标追踪算法.pdf_第1页
第1页 / 共9页
多尺度选择注意力的双模态目标追踪算法.pdf_第2页
第2页 / 共9页
多尺度选择注意力的双模态目标追踪算法.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 年 无线电工程 第 卷 第 期:引用格式:晏开祥,周冬明,王长城,等多尺度选择注意力的双模态目标追踪算法无线电工程,():,():多尺度选择注意力的双模态目标追踪算法晏开祥,周冬明,王长城,周子为(云南大学 信息学院,云南 昆明)摘要:与可见光相比,红外光在部分复杂环境下仍能保持追踪目标的图像捕捉能力。因此,红外光图像可帮助计算机视觉跟踪算法提高目标跟踪的精度和鲁棒性。但在真实的目标追踪序列场景中,跟踪画面还存在眩光、形变和镜头抖动等干扰。为抵御此类干扰,提出了一种使用多尺度选择注意力的红外可见光融合目标跟踪算法(,)。该算法利用多尺度卷积核以及通道选择注意力,提取不同尺度大小的目标特征并将

2、模型权重聚焦于质量较高的特征图、降低干扰带来的不利影响,从而提高模型的跟踪性能。通过在和数据集上的验证结果表明,该算法可有效抵抗画面中干扰情况带来的不利影响,实现高精度的目标追踪。关键词:目标跟踪;多尺度卷积;通道注意力;自适应特征融合中图分类号:文献标志码:开放科学(资源服务)标识码():文 章 编 号:(),(,):,(,),()(),:;收稿日期:基金项目:国家自然科学基金(,);云南大学研究生科研创新基金资助项目(,):(,);(,)引言视觉目标追踪(,)作为计算视觉领域的一项基础任务,具有广阔的科研和工业价值。近年来,以相关滤波和 为基础的多项目标跟踪算法在跟踪速度和精度上均取得了令

3、人瞩目的成绩。但可见光传感器在恶劣环境(如雨雪、浓雾、夜晚等情况)下有限的图像捕捉能力限制了跟踪算法性能的进一步提升。因此,克服上述问题是该领域的一个重要研究方向。红外光传感器因其独特的成像原理,可有效识别出目标(热源)与背景的信号差异,能够在雨雪、浓雾和夜晚等情况下,保持跟踪目标的图像获取能力。因此,融合了红外光与可见光(,)互补特性的目标跟踪算法已成为视觉目标跟踪领域的一个热门研究方向。近期,多项基于的目标跟踪研究结果表明,引入红外光图像作为补充手段,可有效提高目标跟踪性能。例如,通过共享图像的特征编码权信号与信息处理 重,实现了远高于传统可见光跟踪算法的任务性能。通过全局平均池化和加权随

4、机选择,去除噪声和冗余特征,从而提高了该模型的跟踪性能。通过评估来自双模态的特征信息,增强其中特定模态的部分特征信息,强化特征图对目标所在区域的特征表现。这些跟踪算法虽然实现了很好的跟踪效果,但在真实场景中存在的干扰情况(例如画面模糊、目标快速移动、目标特征变化和镜头抖动等)使得上述算法难以保持稳定的跟踪状态。这些干扰往往不具备统一的尺度和类似的形态,所以传统的卷积网络无法利用其固定大小的卷积核识别目标与背景的差别。为降低此类多尺度和多形态的干扰,增强大尺度变化下的目标特征提取能力,本文设计了一种基于多尺度选择注意力机制的融合目标跟踪算法(,)。通过在神经网络的单个卷积层中嵌入并行的多尺度卷积

5、核提取不同尺度和形态下的目标特征,再利用通道选择注意力筛选出其中目标特征质量较高的特征图,可有效提升算法的追踪精度和稳定性。在开源的公开数据集和上的实验结果表明,具备良好的稳定性和跟踪精度。针对上述问题,本文的主要贡献如下:提出了一个用于目标跟踪的算法()。该算法通过内部并行的三条通道分别提取可见光、红外光以及红外可见光融合模态特征,从而增强目标跟踪性能。提出了多分支选择卷积模块(,)。通过提取不同尺度的图像特征,不仅保留了不同尺度级别的图像语义信息,还降低了其中低质量特征和图像干扰信息对算法精度的影响。设计了一个动态自适应融合模块(,)。为各尺度级的图像特征匹配了一个自适应权重参数,并利用该

6、参数对送入的各尺度级的图像特征进行加权求和,从而实现对各尺度级的图像特征的融合。相关工作 基于融合策略的目标跟踪目标跟踪任务中,为全面覆盖真实的目标跟踪场景,跟踪视频序列往往采集自低照度、黑夜、雨雪和沙尘等极端场景。这类极端场景极大地影响了算法的跟踪精度和鲁棒性。为应对此类情况,大量研究尝试利用红外与可见光图像的互补特性,设计目标跟踪算法,以此增强跟踪算法的稳定性和精度。例如,等通过对红外光模态、可见光模态以及红外可见光融合模态分别建立特征提取通道,设计了用于融合目标追踪的多适配器跟踪算法。该算法不仅保留了所特有的模态信息,还建立了红外与可见光融合信息编码器。在此基础上,等利用双门机制分类处理

7、各类干扰问题,进一步提升了目标跟踪的连续性和稳定性。等则在其设计的跟踪算法模型中加入了相关滤波块,以此衡量上级神经网络特征图的可靠性,并选择其中可靠性更高的特征图作为下一级神经网络的输入,有效地提高了跟踪算法的鲁棒性。此外,随着注意力机制在计算机视觉领域中的快速发展,涌现了一批基于视觉注意力机制的跟踪算法。例如等在其研究中利用作为特征提取基干,使用机制作为特征融合策略,实现了特征增强和深层次语义特征提取,改善了以往模型中因本地特征匹配精度较低造成的跟踪误差。等在双模态独立卷积特征提取结构的基础上,引入了空间轴向多头注意力,在轴向与空间个维度上分别进行注意力机制计算,实现了特征图的像素级融合以及

8、对目标位置信息的上下文编码。基于注意力机制的算法注意力机制在自然语言处理领域的大规模应用推动了基于视觉注意力机制的追踪算法的快速发展。通过对高密度信息和高质量特征区域进行编码和权值重排,注意力机制可以将模型的注意力权重合理地分配到目标所在区域,同时抑制特征中存在的部分噪声,改善低质量特征对模型带来的不利影响。参考自然语言处理中的注意机制将句子视为序列的做法,将图像转换为序列,并将其送入多头注意机制中进行分类,进而实现了注意力机制在计算机视觉中的应用。王淑贤等设计的通过多尺度通道注意力沿特征图轴向维度,建立选择向量空间,选择轴向维度上特征表现更优的特征图,实现了注意力机制在跟踪算法中的应用。江英

9、杰等使用建立了一个双流编解码追踪网络,通过构成的编码解码器学习追踪目标的图像特征,提高了跟踪算法的鲁棒性。现有的双模态数据集中,视频序列不仅信号与信息处理 年 无线电工程 第 卷 第 期 在可见光模态中存在前文所述的多类型干扰,还在红外光模态中存在热交叉、红外传感器底噪和红外目标重叠等干扰情况。随着目标的快速移动,这些干扰使得画面质量迅速恶化,固定尺寸的感受野无法稳定捕捉目标特征。为改善这一情况,本文设计了一种具备多尺度。通过配备的多尺度的卷积核,在不同尺度上获取图像的特征信息,再经过通道选择注意力,增强各尺度特征图中跟踪目标的特征信息,降低上述提及的各类型干扰,提高跟踪的精度和稳定性。基于多

10、尺度选择注意力的跟踪算法 整体结构为克服不同尺度和形态的干扰,本文通过多个感受野所组成的卷积模块获取来自各度级的卷积特征,以增强算法应对目标大小变化、画面干扰的能力。整体结构如图所示。图整体结构 主要由并行的融合通道()、可见光通道()、红外光通道()以及一个实例分类模块(,)组成。其中个并行的融合通道和可见光通道、红外光通道分别用于提取红外可见光融合模态、可见光模态和红外光模态的图像特征,而实例分类模块则用于确认跟踪目标是否存在于这些特征之中。可见光通道与红外光通道结构类似,由个多分支选择卷积模块(,)级联而成,由浅到深地提取图像特征。融合通道中与结构相同,由卷积层、激活层和最大池化层组成,

11、而仅包含卷积层和激活层。中所有可学习权重参数结合了可见光和红外光各自的图像特性,增强了种模态特征提取的特点。实例分类模块由个全连接层级联而成,分别是、和。、的主要输入输出参数如表所示。表模型中主要模块输入输出参数 模块名称输入通道数输入维度数()输出通道数输出维度数()信号与信息处理 续表模块名称输入通道数输入维度数()输出通道数输出维度数()多分支选择卷积模块为从不同尺度的感受域提取目标特征,并合理地融合这些特征,本文在中设计了,结构如图所示。图结构 单个主要由多尺度卷积(,),选择注意力(,)以及三部分组成。由 四个不同尺度的卷积块构成,每个卷积块均由卷积层、层、激活层和最大池化层级联而成

12、,卷积层的卷积核大小分别为、。为充分利用特征图中的高质量特征信息,在 之后还分别级联了一个模块,沿特征图的轴向挑选各尺度的卷积特征图。最后将挑选后的特征图交由进行自适应权重融合。该过程的详细步骤是:首先将输入特征 同时输入(,)分支,相应得到特征(,)。而后将分为、,其中输入对应的模块(,)得到对应的注意力图(,),将与进行哈德玛积运算,从而得到分支的输出结果(,)。最后利用对进行自适应特征融合后,得到最终的输出结果。在自适应特征融合过程中,为避免数据溢出造成的数值发散,引入了非线性归一化函数,对自适应权重值进行了归一化运算。其中和模块的详细过程如下:(,)()()(),()(),(),()式

13、中:,表示将 压缩为、将 沿着第一个维度扩张为,表示第一个线性层运算,将通道数压缩至,表示第二个线性层运算,将压缩后的通道恢复为原通道数,表示哈德玛积运算,即个形状相同的矩阵在空间维度上按照对应位置进行元素相乘。,()式中:,表示所对应的可学习的自适应权重。实例分类模块与损失函数为实现模型的训练及验证,模型利用模块对输入的正负样本特征进行评分,按照正负样本的分值,将输入样本确定为目标或背景(分值为正值的是正样本,反之为负样本)。的整体结构可参见图,由个全连接层(信号与信息处理 年 无线电工程 第 卷 第 期)组成,详细参数情况如表所示。其中与结构类似,由层、层和激活层组成,则只包含层与层。的输

14、出结果是形状为的向量。表实例分类模块详情 模块包含结构输入通道数输出通道数的中的二分类损失函数()通过计算输出结果中记录的正负样本损失值,逐步优化模型参数,从而提高模型区分采样框中目标和背景的能力。为防止在损失计算过程中出现数据值溢出,在损失函数计算的基础上扣除最大值,并利用非线性归一化函数将损失值约束为。损失函数的详细计算过程如下:()(),()()(),(),()式中:表示记录在输出结果向量中第个正样本的损失值,表示单个批次()中正样本损失中最大值,在实际训练过程中设置单批次的正样本数,负样本数,表示第个负样本的损失值,表示所有正样本损失中最大值,表示正样本损失,表示负样本损失,总损失等于

15、正负样本损失之和。实验设计为详细验证和比较算法模型性能,本文利用开源数据集和进行了交叉训练和验证,并与、等项目前主流的目标追踪算法进行性能比较。实验平台配置:处理器 ,显卡 ,内存 ,开发框架 ,编程语言。数据集由个真实场景下拍摄的视频序列组成,每个序列均包含两个模态的图像。数据集中标注了类挑战属性:无遮挡(,)、局部遮挡(,)、严重遮挡(,)、低照度(,)、低分辨率(,)、热交叉(,),畸变(,)、快速运动(,)、尺度变化(,),运动模糊(,),相机运动(,)和背景干扰(,)。与数据集不同的是,数据集由个场景序列构成,且仅包含类挑战属性:、以及。训练时,围绕输入目标样本中心点,按照标准正态分

16、布或均匀分布分别生成指定数量的正样本或负样本采样点(训练过程中正样本数量为,负样本数量为),而后以这些采样点为采样框中心,按照指定的正、负样本数量裁切出用于训练的样本(裁切样本与标定样本的交并比值()大于 的设为正样本,小于 的设为负样本)。为匹配不同模块的训练速度,将模型中的融合通道、可见光通道、红外光通道以及实例分类模块的可学习参数的学习率分别设置为 、以及 。因为与数据集的数量差异,在个数据集上的训练轮次分别是、。验证时,的工作流程分为初始化训练与单帧跟踪。初始化训练时,利用每一个序列的第一帧中标记框位置,生成个正样本和 个负样本,并利用这些正负样本对 进行轮次的初始化训练。单帧跟踪时,

17、基于上一帧的预测结果中心点,按照均匀采样生成个样本。根据个样本在中的预测结果,选取其中得分排名前五的样本框,使用这个样本框的中心点、长宽值的平均值作为该帧的预测结果。信号与信息处理 为量化地评估算法在数据集上的性能表现,实验中使用精度(,)和成功率(,)来分别衡量算法的精度和稳定性。具体的计算如下:,(,),(),(,),()式中:表示当前第帧是否符合实验中设定的成功率精度,若其预测框中心与标记的真实框的欧氏距离低于门限值则取(使用数据集时设置为像素值,使用数据集时设置为像素值),否则取。而整个数据集上的平均,则需要累加整个数据集上所有的序列帧后求平均。的计算与计算有区别的地方是计算,再与门限

18、值(文中设置为)相比较,从而判断是否满足要求。实验结果与分析 数据集验证结果在数据集上的验证结果如表所示,可以看出,在共同验证的项算法中,的平均、值均为第一,且分别超过第二名、。而在数据集的项详细测试结果中,的值在、等项场景下位列第一;在、等项场景下位列第二。而值在、等项场景下位列第一;在、等项场景下位列第二。由上述结果可以看出,在数据集上拥有更强的稳定性,相较于平均值位列第二的,在、等场景下具有更稳定的跟踪性能,能够更好地抵抗、等项场景中存在的相机快速移动、画面严重污染、低分辨率和画面部分遮挡带来的不良影响。表验证结果 挑战属性算法 注:表中数值下划线加粗的指标为该类第一,仅加粗的为该类第二

19、。数据集验证结果在数据集上的验证结果如表所示。可以看出,在共同验证的项算法中,的平均、值均为第一,分别超过第二名、。的值在、等项场景下位列第一;在、等项场景信号与信息处理 年 无线电工程 第 卷 第 期 下位列第二。其值在、等项场景下位列第一;在、等项场景下位列第二。通过各分类、值可以看出,在数据上相较于比较算法拥有更高的准确率和相对持平的稳定性,同时在面对画面存在遮挡、跟踪目标较小和镜头快速晃动等情况时具备明显优于比较算法的跟踪性能,能够保持较高的跟踪精度和跟踪稳定性。表分类验证详情 算法挑战属性 注:表中数值下划线加粗的指标为该类第一,仅加粗的为该类第二。部分序列跟踪结果可视化比较为在跟踪

20、画面中直观展示的跟踪性能,本文挑选了、等项算法作为对比对象,选取数据集中个典型序列的连续帧跟踪结果进行可视化展示。可视化的跟踪结果如图所示。可以看出,本文提出的在个序列中的跟踪结果均优于比较算法。同时,从存在目标干扰时的结果(图()可以看出,在跟踪画面中存在与跟踪对象外形相似的其他跟踪目标时,能识别目标与干扰对象之间的差异。从存在镜头抖动时的跟踪结果(图()可以看出,跟踪画面在第帧时出现了明显的镜头抖动,因而产生了明显的虚影和扭曲,但仍然能够稳定地保持对目标的跟踪。从存在部分遮挡时的跟踪结果(图()可以看出,当目标运动至画面中的电线杆附近时,被电线杆及附近灌木丛遮挡了部分特征,除与之外的大部分

21、比较算法因无法应对此类干扰而丢失目标。从存在镜头眩光时的跟踪结果(图()可以看出,在可见光模态下,画面中充斥着因车辆灯光直射而产生的大量镜头眩光,目标的可见光特征因此被大部分遮挡,除、和之外的其他对比算法的跟踪框皆产生了更大的漂移。()目标干扰(第、帧)()镜头抖动(第、帧)信号与信息处理 ()部分遮挡(第、帧)()镜头眩光(第、帧)图部分可视化跟踪结果 消融实验结果为分析验证中各部分的效能,设计了个消融实验:使用融合通道中的 替换可见光通道中的 ,建立的变体网络:。使用融合通道中的 替换红外通道中的 ,建立的变体网络:。使用融合通道中的 替换可见光以及红外通道中的 与 ,建立的变体网络:。使

22、用与实验中同样的训练策略与验证设置,在数据集上对、以及进行训练,然后使用数据集对其进行验证。消融实验结果如表所示。可以看出,通过引入,建立用于可见光模态的特征提取通道可有效提高算法的跟踪精度和稳定性;通过引入红外光模态图像,建立红外光模态的特征提取通道,可将跟踪精度从 提升至,将跟踪成功率从 提升至,较建立可见光模态的特征提取通道效果更为明显;通过分别建立模态的特征提取通道,可将跟踪精度提升、成功率提升。表消融实验结果 验证指标原算法与各消融对比算法 结束语在真实场景中,目标跟踪任务不仅需要克服跟踪目标尺度大范围变化造成的特征变化,还要抵抗真实场景中复杂背景条件和图像捕捉装置自身因素产生的干扰

23、。本文设计的,通过,从多尺度感受野上提取追踪目标图像特征,再利用对这些图像特征进行过滤和筛选,降低其中存在干扰的特征图对整个模型跟踪精度和稳定性的影响。通过实验结果以及消融实验可以看出,利用红外与可见光图像的互补特性,显著地提高了视觉目标的跟踪精度和鲁棒性。相较于其他主流跟踪算法,在跟踪画面存在干扰时,能够保持更高的跟踪精度和稳定性。?参考文献任进,李文邦,郭昱汝基于无人机平台的多目标跟踪算法无线电工程,():石浩德,侯劲,李红文,等融合深度特征和尺度自适应的目标跟踪算法无线电工程,():孙炯宁,吕太之,张娟,等融合深度学习与时空预测的目标跟踪方法无线电工程,():周福珍,唐新丰,石义芳,等一

24、种基于杂波稀疏度改进的杂波密度估计方法无线电工程,():,:,:,:信号与信息处理 年 无线电工程 第 卷 第 期 ,:,:,():,:,:,():,:,:,():,():李阳,侯颖,李娇,等动态模板匹配的孪生网络长时目标跟踪算法 计算机工程与应用:韩瑞泽,冯伟,郭青,等视频单目标跟踪研究进展综述计算机学报,():陈果,滕奇志基于孪生网络的鲁棒红外目标跟踪算法计算机应用与软件,():戴亚峰,陶青川,杨波联合和核相关滤波算法的红外视频目标检测及跟踪计算机应用与软件,():,():,():,():,:,:,():,:():王淑贤,葛海波,李文浩多尺度通道注意与孪生网络的目标跟踪算法计算机工程与应用,():江英杰,宋晓宁基于视觉的双流目标跟踪算法 计算机工程与应用,():,:,:,:,:,:,:作者简介晏开祥男,(),硕士研究生。主要研究方向:目标跟踪、多模态图像融合。(通信作者)周冬明男,(),博士,教授。主要研究方向:神经网络、智能图像处理等。王长城男,(),博士研究生。主要研究方向:红外与可见光图像融合、多曝光图像融合以及多聚焦图像融合。周子为男,(),硕士研究生。主要研究方向:多模态图像信息处理。信号与信息处理

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 综合论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报