收藏 分享(赏)

多模态知识图谱增强葡萄种植问答对的答案选择模型.pdf

上传人:爱文献爱资料 文档编号:21751574 上传时间:2024-04-21 格式:PDF 页数:8 大小:2.15MB
下载 相关 举报
多模态知识图谱增强葡萄种植问答对的答案选择模型.pdf_第1页
第1页 / 共8页
多模态知识图谱增强葡萄种植问答对的答案选择模型.pdf_第2页
第2页 / 共8页
多模态知识图谱增强葡萄种植问答对的答案选择模型.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、多模态知识图谱增强葡萄种植问答对的答案选择模型杨硕,李书琴(西北农林科技大学信息工程学院,杨凌712100)摘要:针对传统答案选择模型仅依靠问答对自身信息进行匹配的问题,该研究提出了一种使用多模态知识图谱来增强问答对的答案选择模型。该模型通过设计基于 ComplEx(complexembedding)图谱嵌入的方法学习多模态知识图谱嵌入,引入上下文注意力机制并使用 CNN 网络获取多模态知识图谱的特征表示,使用知识感知注意力方法,将多模态知识图谱提供的背景知识与问答对的文本语义信息融合。以葡萄种植为例,通过搭建葡萄种植多模态知识图谱和构造葡萄种植问答数据集开展试验,试验结果表明:使用多模态知识

2、图谱有助于模型获取更多信息从而达到更好的效果,在葡萄问答数据集中正确答案的平均倒数排名和平均准确率分别达到了 85.02%、84.21%,与其他模型相比,平均倒数排名提高2.57 个百分点,平均准确率提高了 3.96 个百分点。该答案选择模型利用多模态知识图谱的知识提高答案选择效果,可为搜索、问答等下游任务提供技术基础。关键词:农业;知识图谱;葡萄种植;答案选择;多模态;图谱表示;自然语言处理doi:10.11975/j.issn.1002-6819.202304240中图分类号:TP391;S24文献标志码:A文章编号:1002-6819(2023)-14-0207-08杨硕,李书琴.多模态

3、知识图谱增强葡萄种植问答对的答案选择模型J.农业工程学报,2023,39(14):207-214.doi:10.11975/j.issn.1002-6819.202304240http:/www.tcsae.orgYANG Shuo,LI Shuqin.Enhancing answer selection model of grape planting using multimodal knowledge graphJ.TransactionsoftheChineseSocietyofAgriculturalEngineering(TransactionsoftheCSAE),2023,39(

4、14):207-214.(inChinesewithEnglishabstract)doi:10.11975/j.issn.1002-6819.202304240http:/www.tcsae.org0引言答案选择是自然语言处理中的一个重要任务,它的主要目标是从一个候选答案池中选择与给定问题最相关的答案,通常被视为一个相关度排序任务1。答案选择技术可以被广泛应用于问答系统、搜索排序等多种下游应用,从而为用户提供高效、便捷的知识获取途径。早期的答案选择很大程度上依赖于设计各种特征,来对答案进行排序2。然而,特征工程的设计所带来的时间耗费和系统复杂度限制了模型的性能。随着深度学习在自然语言处理领域

5、取得的成功,基于卷积神经网络(convolutionalneuralnetwork,CNN)3或循环神经网络(recurrentneuralnetwork,RNN)4的模型被用于答案选择任务上5。但是受限于问答文本对所包含信息有限,此类方法的深层语义匹配能力有所欠缺,导致答案选择效果受之影响。最近一些研究开始使用知识图谱作为背景知识,以此来提高答案选择模型对语义的深层理解6-9。DENG等10利用知识图谱中的知识增强答案选择模型的方法,使用卷积网络学习知识表示并与文本信息进行交互从而获得最终的问答表示,最终通过试验验证了引入知识图谱的优越性。BOROUJENI 等11则聚焦于社区问答论坛中的答

6、案选择,使用知识图谱来捕获问题和答案中实体及关系的深度语义信息,同时通过输入问题类别标签增强其效果。这些使用知识图谱增强答案选择模型的方法,也更符合专家回答用户问题时以自身知识储备进行解答的认知。与仅依靠问答对文本训练的答案选择模型相比,知识图谱的引入使得答案选择模型对问题的理解能力得到了提高,并且答案的选择也有据可依。因此,将知识图谱应用于问答系统具有很大潜力。尽管上述研究是有效的,但它们只考虑单模态信息,对于视觉等非结构化的多模态数据关注度较低。而现实世界中知识的存在是多模态的,相同实体的不同模态数据在高层语义上是一致的,引入视觉数据可以丰富实体的表示。以葡萄种植领域的真实问答场景为例,用

7、户在进行提问的时候通常会附上图片,以使问题描述的更为精确,而专家在回答问题时也会从图片中获取相关信息。图像的存在不仅能强化文本中问题的主体,还可以补充文本中难以描述的信息。基于以上问题和研究,为了充分利用多模态信息的优势,本文设计了一种多模态知识图谱(multimodalknowledgegraph,MKG)增强的答案选择模型。使用基于 ComplEx 的方法将视觉模态融入到知识图谱的嵌入表示中,通过注意力机制将知识图谱提供的背景知识融入问答对文本的交互中从而丰富语义的表示。并以葡萄种植为例,通过试验验证多模态知识图谱增强的答案选择模型有效性。收稿日期:2023-04-28修订日期:2023-

8、06-14基金项目:中央高校基本科研业务专项资金(2452019064)作者简介:杨 硕,研 究 方 向 为 知 识 图 谱 在 农 业 中 的 应 用。Email:通信作者:李书琴,教授,博士生导师,研究方向为农业信息化与智能信息系统。Email:lsq_第39卷第14期农 业 工 程 学 报 Vol.39No.142023年7月TransactionsoftheChineseSocietyofAgriculturalEngineeringJuly20232071模型结构多模态知识图谱增强的答案选择模型主要由嵌入层、表示学习层、知识图谱增强层、输出层 4 个部分组成,如图 1 所示。嵌入层分

9、别获取问答对文本的词嵌入以及多模态知识图谱的实体嵌入。表示层使用 Bi-LSTM(Bi-directionallongshort-termmemory)进行问答对文本的表示学习;使用上下文引导的注意力机制,得到上下文引导的多模态知识图谱问题、答案向量表示。知识图谱增强层通过知识感知模块(knowledg-awaremodule)得到多模态知识图谱增强后的问题、答案的特征表示。输出层将多模态知识图谱增强后的问题、答案的特征表示与额外语义特征串联,利用 softmax 函数预测给定问题的答案标签概率分布。问句文本Questiontext多模态知识图谱多模态知识图谱答案文本Answertext答案A

10、nswer问题Question词嵌入Wordembedding多头注意力Multi-headself-attention多头注意力Multi-headself-attention输出层Qutput layer知识图谱增强层KG enhancement layer表示学习层Representation layer嵌入层Embedding layerBi-LSTMKGmoduleBi-LSTMAtextAkgQkgSqsimXfeatSaQtext词嵌入Wordembedding实体嵌入Entityembedding知识感知模块Knowledge-aware module实体嵌入Entityemb

11、eddingXfeat注:Qtext和 Atext分别是问题文本和答案文本的向量表示;Qkg和 Akg分别为多模态知识图谱关于问题和答案的向量表示;Sq和 Sa分别问题和答案知识图谱增强后的向量表示;为词重叠特征;sim 为相似性得分。XfeatNote:QtextandAtextarethevectorrepresentationsofthequestiontextandtheanswertext,respectively;QkgandAkgarethevectorrepresentationsofmultimodalknowledgegraphaboutquestionsandanswer

12、s,respectively;SqandSatheenhancedvectorrepresentationsofthequestionandanswerknowledgegraphs,respectively;isthewordoverlapfeaturesim;simisthesimilarityscore.图 1多模态知识图谱增强的答案选择模型Fig.1Answerselectionmodelenhancedbymultimodalknowledgegraph1.1嵌入层1.1.1问答对文本词嵌入q=(wq1,wq2,wqn)a=(wa1,wa2,wan)wanwqn对于给定的问答对文本,

13、模型使用预选练 Glove 词嵌入将每个词转换成嵌入表示。具体来说,问题文本可表示为和答案文本表示为,或为预训练词嵌入矩阵中的词嵌入表示。1.1.2多模态知识图谱实体嵌入嵌入层为所包含的实体进行编码并表示成向量。为了将问答对文本中的实体提及(entity-mention)链接到知识图谱中对应的实体上12。本文借鉴文献 13 的方法,首先预先构造知识图谱中实体名称 n-gram 的倒排索引。然后在实体链接时,对于问答对文本中提到的实体,使用 n-gram 匹配算法从知识图谱中获取其 Top-k 候选实体。ei多模态知识图谱还需要考虑其中的图像实体信息,VisionTransformer(VIT)

14、14用 Transformer 结构替代卷积结构在超大规模数据集上取得了超越CNN 的效果15-16。同时,VIT 模型在农业领域,由于其可以长距离建模的特性,也取得了很好的效果17。因此,本文使用预训练的 VIT 模型获得图像实体的特征表示。ComplEx18嵌入模型其内积形式的损失函数便于将多模态信息进行统一,且其对非对称关系的处理效果优秀。因此本文基于 ComplEx18模型学习多模态知识图谱的实体嵌入,如图 2 所示。VITComplEx多模态知识图谱MKG多模态知识图谱实体嵌入Entity embeddingof MKGeseifmfiLkges、eifmfiLkg注:分别为结构信息

15、、图像信息向量表示;和 分别代表多模态信息和视觉信息能量函数;为总体损失函数;ComplEx 为图谱嵌入方法;VIT 为 VisionTransformer 模型。es、eifmfiLkgNote:arethevectorrepresentationofstructureinformationandimageinformationrespectively;and representmulti-modalinformationandvisualinformation energy functions,respectively;is the overall lossfunction;ComplEx

16、 is the graph embedding method;VIT is the VisionTransformermodel.图 2多模态知识图谱实体嵌入Fig.2Multimodalknowledgegraphentityembedding208农业工程学报(http:/www.tcsae.org)2023年针对本文图谱多模态数据的特性,首先将结构特征与图像特征融合。本文采用了最为普遍的融合方式,将结构特征表示与图像特征表示进行拼接,如式(1)所示:e=(es,ei)=es:Wei(1)ees、ei式中 为融合后向量表示,分别为结构信息、图像信息向量表示,是融合门,:代表向量拼接操作,W

17、为投影矩阵。接着分别定义融合多模态信息的能量函数和视觉信息的能量函数,如式(2)和式(3)所示:fm(h,r,t)=nk=1(hs,hi)krk(ts,ti)k(2)fi(h,r,t)=SUM(hiri,ti)(3)hiri式中 hs、ts、hi、ti分别代表着头、尾实体的结构、视觉信息向量表示,表示进行 Hadamard 积运算。最后整合两个能量函数,得到总体损失函数如下式所示:fo=fm+fi(4)Lkg=(h,r,t)C(h,r,t)C+fo(h,r,t)fo(h,r,t)+(5)C式中 fo为整合后能量函数,Lkg为总体损失函数,是超参数,是一种松弛变量,表示随机替换实体生成的负采样三

18、元组。EtEtq=eq1,eq2,.,eqkEat=ea1,ea2,.,eakeqit经基于 ComplEx 的方法训练多模态知识图谱后,对于问答对语句中的每一个实体,可以得到它们的实体嵌入表示和,为问句中第 个实体的第 i 个候选实体嵌入表示。1.2表示学习层1.2.1问答对文本表示学习LSTM 能够有效保存长序列的历史信息,同时规避梯度消失和梯度爆炸等问题19。由于农业文本的复杂性,需要获取更深层次的特征表示20。本文使用 Bi-LSTM 网络模型,通过获取从正向和反向两个方向的文本表示,可以充分获取上下文信息。给定问句 q 和答案 a,经过Bi-LSTM 模型可以的到其文本特征表示。Qt

19、ext=BiLSTM(q)(6)Atext=BiLSTM(a)(7)式中 Qtext、Atext分别是问、答对的向量表示,q、a 为问、答文本。1.2.2多模态知识图谱表示学习知识图谱处理模块(KGmodule)以多模态知识图谱实体嵌入表示为输入,使用上下文引导的注意力机制得到由问答对文本引导的实体表示,最后使用 CNN 网络提取离散的实体特征,从而得到多模态知识图谱的问答对表示。其中知识图谱处理模块如图 3 所示。E(t)=e1,e2,.,ek由于图谱中存在实体歧义的问题,例如玫瑰香可能指代一个葡萄品种或者一种香气,因此本文使用上下文注意力机制引导实体的向量表示。对于提及到的实体,在图谱中有

20、候选实体集合,Htext由1.2.1 节所得,为问题、答案的初始向量表示,则上下文引导的知识向量,可表示为式(8)所示:mt=WemE(t)+WhmHtext(8)式中 mt表示经过上下文引导的知识向量,Wem、Whm表示需要学习的参数矩阵。HtextQkg(Akg)E(t)知识图谱模块KG module卷积神经网络CNN注意力机制Attention mechanismgE(t)注:Qkg和 Akg分别为多模态知识图谱关于问题和答案的向量表示;Htext为问题或答案文本的向量表示;为实体嵌入上下文向量表示。gE(t)Note:QkgandAkgarethevectorrepresentatio

21、nsofthequestiontextandtheanswertext,respectively;Htextisthevectorrepresentationofthequestionandanswertext.;istheentityembeddingcontextvectorrepresentation.图 3知识图谱处理模块Fig.3Knowledgegraphprocessingmodule根据式(8)可将第 t 步上下文引导的实体向量表示如下:t=exp(wmTmti)mtjmtexp(wmTmtj)(9)gE(t)=etiE(t)tieti(10)mtititietigE(t)t式

22、中表示第 步第 个实体的知识向量,为实体上下文引导的注意力权重,为第 步的实体嵌入上下文向量表示,Wm表示需要学习的参数矩阵。为组织离散信息以学习更高层次的表示,本文利用CNN21模型处理上述实体向量表示。Qkg=CNN(fEq)(11)Akg=CNN(fEa)(12)1.3知识图谱增强层该层将上层得到的 4 种向量输入知识感知模块,使问答对文本得以学习到图谱中的背景知识,如图 4 所示。首先,本文计算出问答对文本表示之间的权重矩阵和融合知识图谱的问答向量表示之间的权重矩阵为Mtext=tanh(QTtextUtextAtext)Mkg=tanh(QTkgUkgAkg)(13)tanh()式中

23、 Utext、Ukg分别代表需要学习的参数,为双曲正切激活函数,Mtext、Mkg为基于问答对文本、多模态知识图谱的注意力权重矩阵。第14期杨硕等:多模态知识图谱增强葡萄种植问答对的答案选择模型209AtextRow-wisemax poolingColumn-wisemax pooling列方向最大池化行方向最大池化AkgMkgSaSqMtextQkgQtext注:Mtext和 Mkg为基于问答对文本和多模态知识图谱的注意力权重矩阵;Sq和 Sa分别代表问题和答案知识图谱增强后的向量表示。Note:Mtextand Mkgare the attention weight matrices b

24、ased on the questionansweringpairtextandthemultimodalknowledgegraph;SqandSarepresenttheaugmentedvectorrepresentationsofthequestionandanswerknowledgegraphs.图 4知识感知模块Fig.4Knowledg-awaremoduleqa接着对两个权重矩阵使用 AP-BILSTM22算法进行处理,即分别对 Mtext、Mkg的列和行做 maxpooling 操作,这样就能分别得到融合问答对文本和知识图谱的问题注意力权重以及答案注意力权重。随后将问答对文

25、本的问题、答案向量表示与多模态知识图谱的问题、答案向量表示融合。最后,将得到的问题、答案权重与融合后的问题、答案向量表示做点积操作,便可以得到知识图谱增强的问题、答案表示。如下式所示:q(softmax(max1lLqMtext)+softmax(max1lLqMkg)(14)a(softmax(max1lLaMTtext)+softmax(max1lLaMTkg)(15)sq=Qtext:QkgTq(16)sa=Atext:AkgTa(17)qamax式中、分别为问题、答案知识感知注意力权重,softmax()为最大池化层,表示 softmax 函数,Sq、Sa分别代表问题、答案知识图谱增强

26、后的向量表示。此外,为了通过将不同位置的信息联系起来,进一步增强顺序表达的学习,本文使用多头注意力机制23对知识图谱增强后的向量进一步学习,如下式所示:Qm=MultiHead(sq,sq,sq)(18)Am=MultiHead(sa,sa,sa)(19)式中 Qm、Am经过多头注意力的问题、答案特征表示。1.4输出层为了提高模型性能,本文使用了问答对的相似性得分24-25以及问答对的词重叠特征26作为额外的特征补充,将上述的特征向量进行拼接操作,得到隐藏层的输入向量,如下式所示:of=Concat(Qf,sim(Qf,Af),Af,Xfeat)(20)sim()ofXfeat式中,Qf、Af

27、为问题、答案最终特征表示,表示问题与答案之间的相似性得分,是融合后向量特征,为词重叠特征。融合后的向量特征通过全连接层,使用 softmax 进行二分类,输出标签的概率分布。1.5损失函数本文选择交叉熵函数作为损失函数对模型进行训练,并通过增加 L2 正则化项减少需要学习参数量。如下式所示:L=Ni=1yilnpi+(1yi)ln(1 pi)+|22(21)piyi22式中为 softmax层输出,为分类标签,为模型中的所有参数,是 L2 正则化项。2试验设置2.1数据准备2.1.1多模态知识图谱本文提出的答案选择模型引入多模态知识图谱作为背景知识,而在葡萄种植领域还没有多模态知识图谱的存在。

28、本文构建知识图谱的主要包括数据采集与预处理、模式层构建、知识获取与链接 3 个部分,如图 5 所示。模式层构建实体类型定义关系类型定义辅助知识获取与链接文本实体葡萄种植多模态知识图谱文本三元组知识抽取数据预处理文本数据数据采集与预处理知识获取与链接图像数据葡萄种植领域书籍葡萄种植领域网站OCR文字识别技术Python爬虫实体对齐图像实体多模态实体链接图像-文本三元组图 5葡萄种植多模态知识图谱构建框架Fig.5Frameworkofmultimodalknowledgemapconstructionforgrapeplanting210农业工程学报(http:/www.tcsae.org)20

29、23年知识图谱的数据来源为 3 个葡萄相关网站(中国种业平台、水果邦农人之家、中农在线)和 4 本葡萄种植领域专业书籍(葡萄栽培技术、图说葡萄病虫害诊断与防治、葡萄品种、中国葡萄品种)。为丰富模态信息,本文通过搜索引擎为实体爬取图像数据作为图像实体。同时,针对爬取图片部分存在噪声的问题,本文使用 pHash27算法根据汉明距离过滤掉噪声图片,减轻人工筛选图像的负担。本文借助 Python 工具库分别对文本数据进行文本清洗和对图像数据进行归一化处理,最终完成数据采集与预处理。根据数据的特点,着眼于葡萄种植时的选种育苗、整形修剪、病虫害预防与治理等方面问题,共将实体划分为 19 种类型,同时根据实

30、体类型梳理出 15 种关系类型,并以此定义了葡萄种植多模态知识图谱的模式层。在知识获取与链接部分中,本文使用基于 Bert 预训练模型的 Bert-BiLSTM-CRF 框架28的方法通过实体识别完成知识获取,经试验其在葡萄种植领域数据上实体识别准确率为 92.29%,达到行业可用水平;经过实体对齐工作后,使用基于最长公共子序列(lcs)算法完成多模态实体的实体链接;最终构建成葡萄种植领域的多模态知识图谱。葡萄种植多模态知识图谱统计信息如表 1 所示。表1多模态知识图谱统计数据Table1Statisticsdataofmulti-modalknowledgegraph知识参数Knowledg

31、eparameter值Value实体类型 Entitytypes19关系类型 Relationshiptype15实体数量 Numberofentities12538三元组数量 Numberoftriples37391图片数量 Numberofimages40232.1.2葡萄种植问答数据集葡萄种植领域缺乏公开问答数据集,本文通过爬虫框架爬取了葡萄相关网站(葡萄论坛、智慧农资平台、农管家、惠农网等)问答社区的内容,获取了问答数据集。经过文本清洗和数据扩充后,该葡萄种植问答数据集中有 136319 个问答对,数据集格式为 问句,答案,标签。其中,标签为1表示该问句和答案是匹配的;标签为0表示该问

32、句和答案是不匹配的。数据集样本示例如表 2 所示。表2数据集样本示例Table2Sampledatasetexample标签Lable问句Questions答案Answers1葡萄采摘硬度不行怎么办?葡萄果实的硬度与钙、钾和硼等大中微量元素关系密切,应该在膨果期加强补充。0葡萄彭大用什么药处理,怎么处理?没发芽前进行,也可以绿枝扦插。1阳光玫瑰葡萄水溶肥自制需要哪些原材料?水溶肥一般会用到 310 种原料配成,常用的原料有硝酸钙、硝酸铵、硝酸钾、硫酸铵、尿素。0妮娜皇后什么药剂处理的?你这个是品种特性,既然甜口感好,说明你的管理很到位,至于涩,建议你增加光照强度来缓解。1葡萄先施钾肥后施钙可以

33、吗?不建议,葡萄有“前氮中磷后期钾”的需肥特点,一般先施钙肥,后施钾肥。2.2评估指标与参数设置试验采用正确答案的平均倒数排名 XmRR和平均准确率 XmAP(meanaverageprecision,mAP)评估。XmRR在计算过程中将答案排名中首次出现正确答案的位置取倒数,指标反映了该模型是否找到了一个匹配的排序分数相对较高的答案。XmAP则评价答案选择模型检索相关答案的综合排序能力。如下式所示:XmRR=1|Q|Q|i=11ri(22)XmAP=1|Q|Q|i=1(1mi|mi|j=1ri,j)(23)Qriri,jij式中 表示评估集问题总数,表示第 i 个问题第 1 个正确答案在答案

34、列表中的排列位置,表示第 个问题的第个正确答案的排列位置。本文使用向量维度为 300 的 GloVE 词向量嵌入。模型中使用的双向 LSTM 网络,隐藏层大小设置为 200。使用 3 个头的多头注意来获得问题和答案的特征表示。详细参数设置如表 3 所示。表3模型参数设置Table3Parametersettingofmodel参数Parameter参数值Parametervalues词向量维度 Wordvectordimension300隐藏单元数 Hiddenunits200学习率 Learningrate0.0005Dropout0.5L2 正则化强度 L2regularization0.

35、0001批处理参数 Batch643结果与分析3.1模型对比结果分析本文在构建的葡萄问答数据集中进行对比试验,由于对比模型所使用的数据集是英文数据集,因此本文对代码作了中文上的适配性调整,试验结果如表 4 所示。表4模型结果对比Table4Comparisonofmodelsresults模型Models平均倒数排名Meanreciprocalrank/%平均准确率Meanaverageprecision/%参数量Params/MConv-KNRM2974.6572.358.32HCAN3078.2676.4310.35KABLSTM3181.4880.1011.86KECA3281.7579

36、.1212.10OursStudy85.0284.2113.28由于 Conv-KNRM 模型主要关注的是问题、答案对文本之间的相似性,但在实际中可能会出现文本相似度高、语义相似度低的问题。HCAN 通过结合相关性匹配和语义匹配,增强了模型对于问答对语义的捕获。KABLSTM 和 KECA 作为融入图谱背景知识的模型,与仅依靠问答对的模型相比在效果上有较为明显的差距,证实了知识图谱的引入可以提高答案选择模型对于深层语义信息的学习。而引入多模态信息后平均倒数排名提高 2.57 个百分点达到了 85.02%,平均准确率提高了3.96个百分点达到了 84.21%,这验证了多模态知识图谱对葡萄种植领域

37、答案选择模型的积极性。为对答案选择模型进行实际应用的验证,本文基于浏览器端/服务器端(B/S)结构搭建葡萄种植知识问答第14期杨硕等:多模态知识图谱增强葡萄种植问答对的答案选择模型211系统,使用 Neo4j 数据库存储葡萄种植多模态知识图谱,使用 ElasticSearch 存储葡萄种植常见问答对(数据收集截止至 2023 年 4 月)。以在浏览器网页的输入框中输入问句“葡萄冬季如何剪枝?”为例,葡萄种植知识问答效果如图 6 所示。图 6葡萄种植知识问答效果Fig.6Questionansweringeffectofgrapeplantingknowledge系统接收到问句后经过答案选择模型

38、排序,网页返回按照分数排序的多条答案,并将最佳答案置于醒目处。当答案中包含问句提及实体的背景知识信息越多时,其将拥有更高的得分排名。3.2消融试验为了进一步分析每一种多模态知识特征对模型的影响,本文设计了完整模型与不使用知识图谱特征(w/okg)、不使用图像特征(w/oimage)和仅使用问答对文本(w/okg&image)三种模型进行试验。同时,本文模型的图像表征学习使用 VIT 模型,为探究不同模型图像编码方式的影响,研究选择 Resnet50 和 VGG16 模型进行对比试验。Resnet50 作为一种 CNN 类模型在一些任务上均取得 SOTA 效果33。而 VGG16 近年来在多模态

39、研究中常用作为图像编码器34。试验结果如表 5 所示。表5消融试验结果Table5Ablationexperimentresults模型Models图像编码方式Imagecodingmethods平均倒数排名Meanreciprocalrank/%平均准确率Meanaverageprecision/%不使用知识图谱特征 w/okg&image78.4377.84w/okgVIT80.5379.70w/oimage83.5282.83Ours(All)Resnet5082.7882.14VGG1683.6982.53VIT85.0284.21注:w/okg&image 为不使用知识图谱和图像特征

40、;w/okg 为不使用图谱特征;w/oimage 为不使用图像特征;Ours(All)为使用所有特征。Note:w/okg&imageiswithoutknowledgegraphandimagefeatures;w/okgmeanswithoutknowledgegraphfeatures;w/oimagedoesnotuseimagefeatures;Ours(All)usesallfeatures.从上表可以看出模型每去掉一种模态信息都会导致其性能的下降,证明了多模态特征对答案选择模型的有效性。同时,可以看出 VIT 模型在特征提取方面与其他两种模型相比更为有效。Resnet50,VGG

41、16 模型属于CNN 模型的衍生模型,基于 CNN 架构的卷积结构对特征的提取具有局限性。与之相比,VIT 在捕捉全局变量特征上更具有优势。4结论1)提出了一种多模态知识图谱增强问答对的答案选择模型。通过引入改进的 ComplEx 算法,从而获得多模态知识图谱的特征表示。通过设计知识图谱增强层,提高模型获取背景知识的能力。通过搭建平台将模型应用于实际。结果证明模型在问答场景时可以获得更全面的最佳答案。2)多模态知识图谱增强问答对的答案选择模型平均倒数排名为 85.02%、平均准确率为 84.21%,与其他 4种方法相比平均倒数排名提高 2.57 个百分点,平均准确率提高了 3.96 个百分点。

42、通过在葡萄问答数据集试验,表明该模型在葡萄种植领域的适用性。3)设计了消融试验,试验结果表明,VIT 图像编码方式与其他两种主流方法相比效果较好,平均准确率提升了 1.68 个百分点;通过与不使用图像特征的方法相比,平均倒数排名提高 1.5 个百分点,平均准确率提高了1.38 个百分点。证明了利用多模态知识图谱相比传统单模态图谱的优势。该模型为多模态知识图谱的应用探索了新的方向,模型在葡萄种植领域的知识问答表现优秀。但受限于设备和数据,未来进一步将模型部署于问答、对话、搜索等领域进行实际应用。参考文献LASKAR M,HUANG J,HOQUE E.Contextualizedembeddin

43、gsbasedtransformerencoderforsentencesimilaritymodeling in answer selection taskC/Language ResourcesandEvaluationConference.Marseille.2020.1HUANG H,WEI X,NIE L,et al.From question to text:question-oriented feature attention for answer selectionJ.AcmTransactionsonInformationSystems,2019,37(1):1-33.2ZH

44、ANG S,ZHANG X,WANG H,et al.Chinesemedicalquestion answer matching using end-to-end character-levelmulti-scaleCNNsJ.AppliedSciences,2017,7(8):767.3GANCHAO B,YUAN W,XIN S,et al.Double attentionrecurrentconvolutionneuralnetworkforanswerselectionJ.RoyalSocietyOpenScience,2020,7(5):191517.4ZHANGB,WANGH,J

45、IANGL,etal.Anovelbidirectionallstmandattentionmechanismbasedneuralnetworkforanswerselection in community question answeringJ.Computers,Materials&Continua,2020,2020(3):62.5MA F,YOU Q,XIAO H,et al.KAME:Knowledge-basedattentionmodelfordiagnosispredictioninhealthcareC/The27thACMInternationalConference.A

46、CM.Nice.2018.6HUANG W,QU Q,YANG M.Interactive knowledge-enhanced attention network for answer selectionJ.Neural7212农业工程学报(http:/www.tcsae.org)2023年ComputingandApplications,2020,32(1):1-17.YANG M,CHEN L,LYU Z,et al.Hierarchical fusion ofcommonsenseknowledgeandclassifierdecisionsforanswerselection in

47、community question answeringJ.NeuralNetworks,2020,132(9):53-65.8JING F,REN H,CHENG W,et al.Knowledge-enhancedattentivelearningforanswerselectionincommunityquestionanswering systemsJ.Knowledge-Based Systems,2022,250:109117.9DENGY,XIEY,LIY,etal.Contextualizedknowledge-awareattentive neural network:Enh

48、ancing answer selection withknowledgeJ.ACM Transactions on Information Systems,2021,40(1):1-33.10BOROUJENIGA,FAILIH,YAGHOOBZADEHY.Answerselection in community question answering exploitingknowledgegraphandcontextinformationJ.SemanticWeb,2022,13(3):339-356.11WUL,PETRONIF,JOSIFOSKIM,etal.Scalablezero-

49、shotentitylinkingwithdenseentityretrievalC/Proceedingsofthe2020 Conference on Empirical Methods in NaturalLanguageProcessing(EMNLP).PuntaCana.2020:6397-6407.12MOHAMMEDS,SHIP,LINJ.StrongbaselinesforSimpleQuestionAnsweringoverKnowledgeGraphswithandwithoutNeural NetworksC/The North American Chapter of

50、theAssociationforComputationalLinguistics(2).NewOrleans.2018.13DOSOVITSKIYA,BEYERL,KOLESNIKOVA,etal.AnImage is Worth 16x16 Words:Transformers for ImageRecognitionatScaleC/InternationalConferenceonLearningRepresentations.Austria.2021.14徐艳蕾,孔朔琳,陈清源,等.基于 Transformer 的强泛化苹果叶片病害识别模型J.农业工程学报,2022,38(16):1

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 综合论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报