基于注意力机制的分层次交互融合多模态情感分析_李文雪.pdf

资源描述

1、第卷第期重庆邮电大学学报（自然科学版）年月（）：基于注意力机制的分层次交互融合多模态情感分析收稿日期：修订日期：通讯作者：甘臣权基金项目：国家自然科学基金（，）；重庆市教委科学技术重点研究项目（）：（，）；（）李文雪，甘臣权（重庆邮电大学通信与信息工程学院，重庆）摘要：针对基于视频的多模态情感分析中，通常在同一语义层次采用同一种注意力机制进行特征捕捉，而未能考虑模态间交互融合对情感分类的差异性，从而导致模态间融合特征提取不充分的问题，提出一种基于注意力机制的分层次交互融合多模态情感分析模型（，），采用双向门控循环单元捕获各模态内部的时间序列信息，使用基于门控的注意力机制和改进的自

2、注意机制交互融合策略分别提取属于句子级和篇章级层次的不同特征，并进一步通过自适应权重分配模块判定各模态的情感贡献度，通过全连接层和层获得最终分类结果。在公开的和数据集上的实验结果表明，所给出的分析模型在个数据集上有效改善了情感分类的准确率和值。关键词：多模态情感分析；注意力机制；分层次交互融合中图分类号：文献标志码：文章编号：（），（，）：，（），：；引言在、微博等社交媒体平台上，用户通过视频的方式分享个人意见的数量日渐增多，研究者们可以轻松地从这些平台上通过多种不同的信息形式获得说话者的情感，如说话语气、面部表情、动作手势等。到目前为止，虽然针对文本、图像和语音等单模态情感的识别

3、准确率已经取得了很大进步，但是对同时包含多个模态的数据进行情感分析的识别准确率仍然有很大的提升空间。因此，为了更好地利用海量的多模态信息，进一步促进在线推荐、视频意见挖掘、舆论控制、心理治疗等方面的发展，多模态情感分析应运而生。多模态情感分析旨在同时利用文本、图像、语音等之间的信息交互，帮助机器能够自动地利用多模态更加全面的情感信息来弥补单模态的情感信息缺失。近年来，随着深度学习算法的快速发展，情感分析领域取得显著进展。世纪初，研究发现卷积神经网络（，）除了对人脸位置变化和尺度变化具有较强的鲁棒性，还可以解决人脸识别中主体独立性以及平移、旋转、尺度不变性问题。例如，文献利用卷积神经网络根据用

4、户与项目交互序列的动态偏好进行建模，用来挖掘用户与项目的关系以达到针对用户下一次可能会交互的项目进行个性化推荐的目的；在自然语言处理中，基于递归神经（，）的方法进一步实现了对文本的理解。以上方法实现了对单一输入模态进行特征向量提取的目的，然而无法捕获输入部分的长期依赖关系，存在梯度消失或者梯度爆炸问题，为了更好地建模长期依赖性并减轻梯度问题的影响，研究者们提出了一些的改进形式，如长短时记忆网络（，）和门控循环单元（，）等，这些模型利用门控机制的优势很好地实现了长期依赖性，例如，文献将嵌入门控机制结合时间注意力实现了单词级别的融合，虽然可以在单模态内部捕获较好的动力学关系，却不易在不同模态

5、之间构建信息交互关系；文献同时利用卷积和循环神经网络对威胁情报文本中的邻域和序列信息进行并行提取；文献利用了基于自注意力机制的双向门控循环单元神经网络模型提取电影评论中的特征，构建电影评论特征矩阵。为了能够模拟模态间的信息交互关系，多模态情感分析还需要从不同模态中筛选出互补信息，以此构建有效的特征融合表征。文献提出一种张量融合网络（，），以端到端方式学习模态内和模态间的动力学，但是构建的多维张量使空间复杂度较高；文献提出了一种分、治、合的分层多模态融合网络（，），采用外积作为局部融合方法，从而避免了高维张量融合，提高了融合效率。另外，利用注意力机制模拟模态内部和跨模态之间的交互作用也备受多模态

6、情感研究者的青睐；文献提出了多注意力循环网络（，），通过分配多个注意分数模拟模态内部和跨模态之间的交互作用；文献提出了记忆力融合网络（，），使用基于注意网络和门控记忆的多视图顺序学习的神经网络结构，很好地建模了模态间交互作用；文献提出了动态图记忆网络（，）代替中的注意力网络，捕获单模态、双模态和三模态信息并进行显式建模。前面几种方法都只使用同一种注意力机制模拟跨模态之间的交互作用，忽视了模态间的差异性；文献提出一种层次互动级和选择级注意模型（，），通过引入多核注意函数联合关注来自不同表示子空间的信息，但只考虑了双模态之间的交互；文献将情感词汇作为线索，指导多模态特征联合表示的学

7、习；文献考虑基于一个关键的洞察力，通过从源模态到目标模态的转换提供了一种只使用源模态作为输入来循环翻译学习联合表示的方法。虽然上述研究方法在对于如何构建多模态间信息交互关系的问题上取得了有效结果，但是它们对所有模态都使用同一种注意力机制在同一语义层次进行特征捕捉，导致模态间信息交互不充分。此外，它们也未考虑到不同模态组合之间的交互融合对最终情感分类结果存在不同的贡献程度。为了解决上述问题，本文提出了一种基于注意力机制的分层次融合多模态情感分析模型（，）。该模型首先采用双向门控循环单元（，）对文本、语音和图像特征序列进行上下文语境信息提取，得到各个模第期李文雪，等：基于注意力机制的分层次交互

8、融合多模态情感分析态的高级语义特征表示；其次，将得到的语义特征表示分别输入到句子级多模态融合模块和篇章级多模态融合模块中，使用不同的交互融合策略从句子级和篇章级个粗细粒度上获得多模态交互融合关系；接着，使用基于注意力机制的自适应权重分配模块衡量篇章级多模态融合模块的各个输入的贡献程度；最后，将所有特征表征进行融合，进而得到最终的情感分类。为了验证所提模型的有效性，本文在卡内基梅隆大学收集的多模态情感强度数据集（，）和多模态情感和情绪强度数据集（，）上进行测试，该模型在准确率和值上展现出较好的分类效果。模型分析针对所有模态都只使用同一种注意力机制在同一层次进行特征捕捉且忽视了模态间交互融合对

9、情感分类影响程度的差异性，从而导模态间交互不充分的问题，本文提出了基于注意力机制的分层次交互融合多模态情感分析网络（）框图，如图所示。图模型模型由以下个部分构成。）单模态上下文语境信息提取模块。此模块是将文本、声学和视觉特征分别经过和密集层处理后，依次得到包含了长距离语境依赖关系的单模态特征序列。）句子级多模态交互融合模块。该部分尝试通过改进的自注意融合机制将文本作为固定模态信息，与另外两模态特征序列进行融合，得到单个话语的三模态融合特征。）篇章级多模态交互融合模块。该部分采用基于门控的注意力机制融合方式，在得到种组合情况的多模态融合特征表征之后，经过自适应权重分配模块，可以在不同

10、情况下对种多模态融合特征进行自适应增强效果匹配，让融合效果可以在不同的现实情况下达到最优融合效率。）情感分类模块。将句子级和篇章级多模态融合特征经过全连接层和函数进行最终情感分类。单模态上下文语境信息提取模块每个视频可以看作是一段由多个话语构成的段落。那么以任意一段视频所包含的文本、语音和图像的原始特征为例，分别可以表示为，和，其中，代表视频中最大话语序列长度，、代表特征向量的维数大小。将各个重庆邮电大学学报（自然科学版）第卷模态原始特征分别输入一个隐藏单元为的函数，再分别经过隐藏单元为和的个层，通过以上网络层便可以将单个话语的文本、语音和图像特征维度进行对齐

11、。通过上述网络层的处理，可以得到包含双向上下文语境依赖关系的特征表示，充分捕获各个模态的多样性信息。经过该模块处理后的输出表示为（）（）（）（）（）式中：；为对齐后的维度大小。句子级多模态交互融合模块通过节可以得到个模态的上下文特征表示，它们都融合了每个时间戳的输入要素和潜在表示，接下来需要考虑的是模态间的信息交互问题。融合一直以来都是多模态研究中的关键研究课题，它可以有效地模拟模态间信息的交互关系。本文受文献的启发，将具有上下文语境信息的单模态特征表示同时输入句子级多模态交互融合模块（，）和篇章级多模态交互融合模块（，），通过采用不同的交互融合策略，在不同层次对各个模态的特征序列和融合序

12、列进行增强，取得了粗细粒度上多模态特征序列信息的增强融合效果。由于文本特征来自于海量数据源上训练的高级语言模型或单词嵌入，而语音和图像特征是人为设计的，容易受各种传感器噪声影响，因此，可以将文本看作更稳定的模态，与语音和图像特征在单个句子上进行融合。模块把节获得的，作为模块的输入，将获得的单个句子级多模态融合特征进行级联融合作为模块输出。该部分的融合策略是建立在自注意机制的基础上进行的改进，其计算式为（）（）（）式中：（）为激活函数；，（，），分别表示文本（）、语音（）和图像（）模态，表示在一个视频中模态的第个具有上下文语境信息的特征序列；表示第句话的文本特征引导音频、图像特征融合后的

13、特征序列；表示矩阵乘法；表示逐元素相乘。同理，可以求出，再将和融合得到特征向量。将、和进行级联，表示为（）（）（）（）（，）（）式中：为单话语多模态融合向量，表示第个话语的多模态融合向量；（）表示级联函数。最后，将个话语进行级联作为模块的输出向量，记为。本文为了增强和筛选出各模态内部包含的独特信息，将语音（）、文本（）、图像（）的个层的输出作为模块的输入，进行传统的自注意机制增强。将节获得的，作为模块的输入，对单个模态进行以下处理，得到模态自注意特征向量，记为，表示为（）（）（，）（）（）式中：（，）。篇章级多模态交互融合模块采用的交互融合思路是基于门控的设计理念，目的在于可

14、以对篇章级多模态特征序列进行融合，以，作为输入特征，可以分为种组合：用语音特征（）作为情感线索辅助图像（）和文本特征（）进行篇章级多模态交互融合（）；用文本特征（）作为情感线索辅助图像（）和语音特征（）进行篇章级多模态交互融合（）；用图像特征（）作为情感线索辅助文本（）和语音特征（）进行篇章级多模态交互融合（）。在得到种组合的多模态融合特征表征后，再经过自适应权重分配模块，可以在不同情况下对种多模态融合特征进行自适应增强效果匹配，让融合效果可以在不同的显示情况下达到最优融合效率。以为例，具体融合方式如下。首先对语音（）和图像（）进行自注意机制增强，表示为（）（）（）（）（）借鉴门控输入

15、的方式，求出中与文本（）融合的特征部分，表示为第期李文雪，等：基于注意力机制的分层次交互融合多模态情感分析（）（）候选记忆单元为?（）（）（）式中，（）为激活函数。文本（）的自注意表征为（）（）当前记忆单元存储的内容为?（）输出融合特征表征为（）（）（）（）（）（）式中：表示对语音（）和图像（）的关联度向量；表示对语音（）和图像（）进行自注意机制增强的融合向量；表示中与文本（）融合的特征向量；表示用文本特征引导另外个模态进行篇章级多模态交互后生成的融合向量；、和表示权重；、和表示偏置；表示激活函数。同理，可以依次获得和。接着将、和输入自适应权重分配模块处理，其计算式为（）（

16、）（）（，）（）式中：为隐藏单元状态；和分别代表权重和偏置；为经归一化后的权重向量。情感分类模块将句子级融合向量、模态自注意特征向量和篇章级融合向量使用级联的方式进行连接，再将最终的融合特征使用函数进行情感分类，分类结果为（，）（）另外，在本文中，采用二元交叉熵作为模型训练损失函数。实验分析数据集和数据集的数据内容来自于上的单镜头评论录像，还包括每条短视频录制者说话内容的文本。数据集的积极和消极的样本分布相较于数据集更均匀。）。它一共有个视频，采用段视频（个话语）作为训练集、段视频（个话语）作为测试集，并从训练集中选取数据作为验证集。）。这是一个更大规模的情感和情绪分析

17、数据集，采用段视频（个话语）作为训练集、段视频（个话语）作为测试集、段视频（个话语）作为验证集。在本文中，使用的文本、语音和图像特征在数据集中的单个话语维度为维、维和维。在数据集中单个话语的文本、语音和图像特征维度为维、维和维。参数设置实验代码采用基于后端的深度学习框架编写，同时使用方法来优化网络学习参数，采用以及来防止过拟合。本文提出的模型方法的部分参数设置如表所示。表模型参数设置参数学习率早停忍耐值全连接层单元优化函数迭代次数值现有模型对比分析为了验证本文模型的有效性，实验对比采用以下种形式：同经典的多模态情感分析模型进行对比；对本文模型各模块的消融实验对

18、比。另外，本文通过准确率（，）和值（，）等评价指标对情感分类的性能进行评估，其中值是综合考虑了精确率和召回率的指标。本文模型在和数据集中与现有的三模态融合情感分析模型进行了比较。在数据集中，本文模型与现有模型的性能对比如表所示。从表可以看出，本文模型比（）和模型在上分别提高了和，在上分别提高了和，说明仅采用传统的或者张量形式进行单层次融合的效果不太理想；与，和等模型相比，本文模型比，和模型的重庆邮电大学学报（自然科学版）第卷分别高、，值分别高、，说明本文使用的基于注意力机制的融合方法比传统的自注意机制融合方式能更有效地对不同模态信息进行增强，从而提高

19、融合效率；比（）模型的高，值高，说明本文模型对于不同语境中，模态的稳定性存在差异，即并不是在任何情况下文本模态都比另外个模态更具有情感分类有效性；比（）的和值分别提高和。表现有模型在数据集上的和值对比模型（）本文模型在数据集中，模型与现有模型的性能对比如表所示。从表可以看出，本文模型比（）模型的高，值高左右，说明本文模型在多层次上利用文本信息指导另外个模态进行联合学习，取得了更好的融合效果；比模型的高，值高左右，说明本文的分层次融合策略在粗细粒度上将模态间特征交互进行得更充分；比的高，值高。综上，本文提出的模型在数据集和数据集上均优于所对比的

20、方法，这是因为：首先，使用将上下文语境信息充分提取；其次，使用分层次交互融合将个模态在句子级和篇章级个层次上进行了更好的融合；最后，还考虑到不同交流环境中，不同模态间的组合方式对于情感的贡献程度有差异，通过自适应权重分配模块进行调整，从而使最终的融合向量更加有利于情感分类。表现有模型在数据集上的和值对比模型本文模型自身消融实验分析本文模型的变体有以下种形式。）（）。不使用任何模型，直接将文本、语音和图像特征拼接，然后送入分类器进行分类输出。）。将各单模态特征分别输入上下文层，并进行拼接分类输出。）自注意机制（，）。只对单模态特征进行模块的信息增强，再进行拼接融合分类。

21、）。先进行对单模态上下语境信息提取，再进行信息增强，最后进行情感分类。）。在的基础上，将文本、语音和图像特征输入句子级交互融合模块。）。结合了、和句子级多模态交互融合。表为模型及其变体在和数据集上的和值对比结果。表模型及其变体在和数据集上的和值对比模型本文模型第期李文雪，等：基于注意力机制的分层次交互融合多模态情感分析由表可以看出，与相比，在数据集上，和分别提高和，在数据集上，个指标分别提高了和。由此可见，上下文语境信息的提取对于情感分类性能提升的重要性。而和模型相比，在和数据集上，分别提升了和，分别提升了和，这说明传统的对特征序列进

22、行增强取得了良好的效果。本文提出的比直接将文本、语音和图像特征拼接，然后送入分类器进行分类输出的模型，在和数据集上的分别提高了、，值分别提高了和。虽然与相比，在数据集上的和值相近，但在数据集上的提升了，说明本文使用的基于改进的句子级交互融合比传统的自注意融合性能更好。与和相比，在和数据集上的和都有所提高，说明将上下文语境信息和单模态内部的独特信息进行增强，性能会有所提升。然后将和进行合并，以此对上下文语境信息、单模态内部的独特信息和句子级多模态交互信息进行提取，实验表明，性能进一步地得到提升。而本文模型相比于模型，在和数据集上，分别提高了和，

23、分别提升了和。由此可见，篇章级多模态交互融合对于模型的情感分类性能提升有着良好的影响。从以上对本文模型进行的消融实验结果看，本文模型情感分类效果最好，在数据集上的达到，达到。同时在数据集上的和达到和。因为本文模型的最终融合向量由句子级融合向量、模态自注意特征向量和篇章级融合向量这部分连接而成，所以本文还对自适应权重分配、这个模块的部分引入的网络参数量进行了计算复杂度的分析。由于需要将个模块输入进行维度统一，本文在之前还进行了密集层的处理。在和数据集中，通过自适应权重分配、这个模块的之后，模型的参数量分别增加了、。图和图分别表示本文模型在和数据集的混淆

24、矩阵，代表消极情绪，代表积极情绪。混淆矩阵斜对角线的颜色越深说明模型分类的越高。可以看出，在个数据集上，对于积极情绪的分类性能优于消极情绪，原因可能是由于在数据集中积极情绪的样本数量远大于消极情绪的样本数量。图模型在数据集的混淆矩阵图模型在数据集的混淆矩阵结论为了将视频中包含的情感更好地进行融合分类，本文提出了一种模型以解决现存的视频多模态情感分析问题。该模型首先使用对上下文互补语境信息进行充分提取；其次使用分层次交互融合将个模态在句子级和篇章级个层重庆邮电大学学报（自然科学版）第卷次上进行融合；最后还考虑到了不同交流环境中，不同模态间的组合方式对情

25、感的贡献程度有所差异，通过自适应权重分配模块进行了权重调整。在公开的个数据集和上进行验证分析，实验表明，本文提出的模型可以很好地将多模态特征序列进行融合，可以从和值看出，本文模型得到了更好的情感分类性能。参考文献：，（）：，（）：刘星融合局部语义信息的多模态舆情分析模型信息安全研究，（）：，（）：杨楚珺基于语音和面部特征的抑郁症识别技术研究重庆：西南大学，：，何炎祥，孙松涛，牛菲菲，等用于微博情感分析的一种情感语义增强的深度学习模型计算机学报，（）：，（）：关鹏飞，李宝安，吕学强，等注意力增强的双向情感分析中文信息学报，（）：，（）：梁军，柴玉梅，原慧斌，等基于深度学习的微博情

26、感分析中文信息学报，（）：，（）：，（）：冼海锋，沈韬，曾凯融合上下文信息的混合神经网络序列推荐模型小型微型计算机系统，（）：，（）：，（）：，（）：，：，：于忠坤，王俊峰，唐宾徽，等基于注意力机制和特征融合的网络威胁情报技战术分类研究四川大学学报（自然科学版），（）：，（），（）：张蕗怡，余敦辉融合评论文本和评分矩阵的电影推荐算法研究小型微型计算机系统，（）：，（）：，：，：，：，：，：第期李文雪，等：基于注意力机制的分层次交互融合多模态情感分析：，：，：，：，：，：，（），：，：，：，：，：，：，：，：，：，：，：，：，（）：，：，：，：，：，：，：，：，（）：作者简介：李文雪（），女，四川达州人，硕士研究生，主要研究方向为多模态情感分析。：。甘臣权（），男，湖北大冶人，副教授，博士，主要研究方向为网络传播动力学、深度学习、区块链、大数据建模分析等。：。（编辑：王敏琦）重庆邮电大学学报（自然科学版）第卷

展开阅读全文