收藏 分享(赏)

基于分层潜在语义驱动网络的事件检测.pdf

上传人:爱文献爱资料 文档编号:21804331 上传时间:2024-05-24 格式:PDF 页数:12 大小:1.87MB
下载 相关 举报
基于分层潜在语义驱动网络的事件检测.pdf_第1页
第1页 / 共12页
基于分层潜在语义驱动网络的事件检测.pdf_第2页
第2页 / 共12页
基于分层潜在语义驱动网络的事件检测.pdf_第3页
第3页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、基于分层潜在语义驱动网络的事件检测肖梦南贺瑞芳马劲松(天津大学智能与计算学部天津300350)(天津市认知计算与应用重点实验室(天津大学)天津300350)()Event Detection Based on Hierarchical Latent Semantic-Driven NetworkXiaoMengnan,HeRuifang,andMaJinsong(College of Intelligence and Computing,Tianjin University,Tianjin 300350)(Tianjin Key Laboratory of Cognitive Computin

2、g and Application(Tianjin University),Tianjin 300350)AbstractEventdetectionaimstodetecttriggersinsentencesandclassifythemintopre-definedeventtypes.Thekeyfactors lie in appropriately representing triggers.Existing representation-based methods learn the semanticrepresentationofcandidatetriggersthrough

3、complexdeepneuralnetworkstoimprovetheperformanceofmodels.However,thesemethodsignoretwoimportantproblems:1)affectedbysentencecontext,thesametriggercantriggerdifferenteventtypes;2)duetothediversityofnaturallanguageexpression,differenttriggerscantriggerthesameeventtype.Inspiredbyhiddenvariablesinthevar

4、iationalauto-encoder(VAE)andhierarchicalstructureinothernaturallanguageprocessing(NLP)tasks,weproposeahierarchicallatentsemantic-drivennetwork(HLSD)foreventdetectiontoaddresstheabovetwoproblemsthroughlatentsemanticinformationofsentencesandwords.Themodelreducesthedimensionfromthetextrepresentationspa

5、cetothenewlatentsemanticspaceandexploresthemoreessentialinfluenceinformationinthemacroandmicrocontextofevents.Firstly,wegettherepresentationofasentenceandthewordsthroughBERT.Secondly,aduallatentsemanticmechanismisdesigned,andVAEisusedtomine the latent semantic information at the sentence and word le

6、vels.Finally,from the perspective of differentgranularitycontexts,ahierarchicalstructurefromcoarsetofineisproposedtomakefulluseofthelatentsemanticinformationofsentencesandwords,toimprovetheperformanceofthemodel.TheexperimentalresultsonACE2005corpusshowthattheF1performanceoftheproposedmethodachieves7

7、7.9%.Inaddition,wequantitativelyanalyzetheabovetwoproblemsintheexperiment,whichprovestheeffectivenessofourmethod.Key wordslatentsemantic;hierarchicalstructure;variationalauto-encoder;representationlearning;eventdetection摘要事件检测旨在检测句子中的触发词并将其分类为预定义的事件类型.如何有效地表示触发词是实现该任务的核心要素.目前基于表示的方法通过复杂的深度神经网络来学习候选触

8、发词的语义表示,以提升模型性能.然而,其忽略了 2 个问题:1)受句子语境的影响,同一个触发词会触发不同的事件类型;2)受自然语言表达多样性的影响,不同的触发词会触发同一个事件类型.受变分自编码器中隐变量及其他自然语言处理(naturallanguageprocessing,NLP)任务中分层结构的启发,提出基于分层潜在语义驱动收稿日期:2022-05-28;修回日期:2023-01-04基金项目:国家自然科学基金项目(61976154);国家重点研发计划项目(2019YFC1521200)ThisworkwassupportedbytheNationalNaturalScienceFound

9、ationofChina(61976154)andtheNationalKeyResearchandDevelopmentProgramofChina(2019YFC1521200).通信作者:贺瑞芳()计 算 机 研 究 与 发 展DOI:10.7544/issn1000-1239.202220447JournalofComputerResearchandDevelopment61(1):184195,2024网络(hierarchicallatentsemantic-drivennetwork,HLSD)的事件检测方法,通过句子和单词的潜在语义信息来辅助缓解以上 2 个问题.模型从文本表示

10、空间中分层降维到新的潜在语义空间,探索事件宏微观语境中更本质的影响信息.首先,通过 BERT 对候选句子进行编码,得到句子的表示和句子中单词的表示;其次,设计一个双重的潜在语义机制,并采用 VAE 挖掘句子和单词级潜在语义;最后,从不同粒度的上下文角度,提出采用一个由粗到细的分层结构来充分使用句子和单词的潜在信息,从而提升模型的性能.ACE2005 英文语料库上的实验结果表明,所提方法的 F1 值在事件检测任务上达到了 77.9%.此外,在实验部分对以上 2 个问题进行了定量分析,证明了所提方法的有效性.关键词潜在语义;分层结构;变分自编码器;表示学习;事件检测中图法分类号TP391作为信息抽

11、取的子任务,事件抽取旨在从大量非结构化的文本中抽取出用户感兴趣的事件,并以结构化的形式呈现,其可以进一步应用到事理图谱1、信息检索、自动文摘2、对话系统及故事生成3等下游任务中.根据自动内容抽取(automaticcontentextraction,ACE)评测组织的定义,事件抽取包括 4 个任务:1)触发词识别.二分类任务,判断候选词是否触发事件.2)触发词分类.多分类任务,已知候选词是触发词的情况下,判断其触发的事件类型.3)事件论元识别.二分类问题,判断候选实体是否是事件的参与者.4)事件论元分类.多分类任务,已知候选实体是事件参与者的情况下,判断其在事件中扮演的角色.其中前 2个任务可

12、以合并为事件检测,后 2 个任务可以合并为事件论元抽取.事件检测可形式化为一个单词级的多分类问题,旨在为句子中的每个单词分配 1 个所属的事件类型或非事件类型.考虑到事件检测仍然面临着严峻的挑战,本文聚焦该任务并采用ACE2005英文数据集进行探索.例1 是一个标准的ACE事件标注样例,它包含一个由触发词“lost”触发的End-Position事件,该事件涉及一个事件元素 Person(“twomillionAmericans”).例 1.Inall,twomillionAmericans(A1)havelost(E1)their jobs under President Bush so f

13、ar,not tomentionthreeofthembeingthetopthreeleadersofhiseconomicteam.传统基于特征的方法4-9主要是将单词的分类线索(如词法、句法、文档等信息)转换为特征向量,然后输入分类器中进行事件检测.尽管此类方法在一定程度上有效,但是特征工程需要专家知识和丰富的外部资源,并且人为设计特征模板通常耗时耗力.近几年,基于表示的神经网络方法在事件抽取中也取得了不错的成绩.此类方法10-23主要将候选事件提及用词嵌入表示,通过神经网络学习更抽象的特征表示,并进行事件分类.然而该类方法忽略了 2 个很重要的问题:1)受句子语境的影响,同一个事件触发

14、词会触发不同的事件类型.以例 1 中的事件触发词“lost”为例,表 1 展示了 ACE2005 英文训练集中“lost”触发的事件类型、频数和上下文.从表 1 可以看出,“lost”一共触发了 8 个事件,共包括 4 个事件类型.“lost”在这 8 个事件中的意思均为“失去”,但由于句子语境的不同,“lost”作为“失去”的意思触发的事件类型也不同.由此可见,事件触发词触发的事件类型不仅和触发词本身有关,同样受其所在句子的语境的影响.Table 1Context of“lost”and the Event Type andFrequency It Triggers表 1 “lost”的上下

15、文及其触发的事件类型、频数事件类型 频数触发词以及上下文End-Position 1losttheirjobsInjure1lostbothhisarms,hishomeDie5losttheirlives/lostyourheader/losttheirlives/lost13morethan/lostsuchabigpartofherlifeElect1lostherseatinthe1997election2)受自然语言表达多样性的影响,不同的事件触发词会触发同一个事件类型.在日常表达中,每个句子都对应一个潜在语义.由于自然语言表达的多样性,使得相同的潜在语义有不同的外在表达.对应到事件

16、检测中,就是触发同一个事件可能对应的事件触发词有多个,将其定义为多词触发同一个事件类型问题.以 Transport 事件类型为例,其在 ACE2005英文数据集中一共出现 603 次,由 233 个不同的事件触 发 词 触 发,事 件 触 发 词 包 括“land”“got”“move”“arrive”等.图 1 展示了 ACE2005 英文训练语料中每种事件出现的次数、触发事件的触发词的种类数以及二者的比值.图 1 中“count”表示每种事件类型出现的次数,“unique”表示触发事件的触发词的种类数(相同的触发词看作一类),“ratio”表示“unique”和“count”的比值.图 1

17、 中,在ACE2005 英文训练语料中,肖梦南等:基于分层潜在语义驱动网络的事件检测185多个词触发同一个事件类型的现象非常频繁,平均(“unique”之和与“count”之和的比值)占比为 29.1%.前人基于表示的模型在处理 1 词触发多个事件类型问题时,将其当作歧义问题对待.其中 Liu 等人16通过知识蒸馏的方式提高模型识别句子中实体的能力,利用实体来辅助解决歧义问题,但是需要对数据进行实体标注;Zhao 等人19通过有监督的方法来获取全局文档表示,以此来增强文档中所有单词的表示;Chen 等人20通过注意力机制为每个句子选择不同的文档形式,从而使得选择的句子和当前句子更相关.从例 1

18、 和表 1 可以看出,“lost”在句子中的意思是确定的,其触发的事件类型不仅受触发词本身的影响,还受到句子语境的影响.如果我们考虑显式地将句子的语义作为特征来辅助进行分类,那么就能为触发词增加更多的判别知识.这对于只触发 1 次的事件类型是有帮助的,对触发多次的事件类型虽然也能起到促进作用,但不可避免地会带来一定的噪声,这源于触发多次的事件的上下文不完全相同,句子的语义也就不完全相同.表 1 中“lost”一共触发了5 次“Die”事件,而这 5 个“Die”事件的上下文不尽相同,因此句子的语义信息也不完全相同,但它们触发的事件类型都是“Die”.此种情况下,只考虑浅层的句子语义信息,将给触

19、发词识别带来噪声.因此我们更需要句子的潜在语义信息,这样对于不同上下文的触发词触发同一个事件类型来说,既能有效利用句子信息,又可以减少不同上下文带来的噪声.同样地,对于多个事件触发词触发同一个事件类型的情况,我们可以通过单词的潜在语义信息来缓解.对应同一事件类型的不同的事件触发词经过上下文编码后得到的表示可能是不同的,但若挖掘到单词的潜在语义信息,并将其作为分类特征来辅助事件检测,则具有相似潜在语义的单词,被识别为同一个事件类型的概率就会变大.为解决如上问题,受变分自编码器(variationalauto-encoder,VAE)中隐变量以及其他自然语言处理(naturallanguagepr

20、ocessing,NLP)任务中分层结构的启发,本文提出了一种基于分层潜在语义驱动网络(hierarchicallatentsemantic-drivennetwork,HLSD)的方法进行事件检测.具体来讲,我们首先利用 BERT 来对候选的事件提及进行编码,得到句子的表示和句子中单词的表示,并分别采用VAE 建模得到不同粒度的潜在语义表示,最后设计一个由粗到细的分层结构,先利用句子的潜在语义信息再利用单词的潜在语义信息来完成事件检测.本文的主要贡献有 3 个方面:1)提出一种新的由粗到细的分层潜在语义驱动网络模型进行事件检测,模型从文本表示空间中分层降维到新的潜在语义空间,探索事件宏微观语

21、境中更本质的影响信息.2)利用变分自编码器捕获句子和单词的潜在语义信息.据我们所知,这是第 1 个显式考虑不同粒度潜在语义信息的事件检测,且不需要对数据进行额外的标注.3)在 ACE2005 英文数据集上的实验表明我们的模型是有效的,在 1 词触发多个事件类型上,模型的正确率有所提高,在多个词触发同一个事件类型上,模型识别的触发词的种类数有所提高.00.10.20.30.40.50.60.70.80.91.001002003004005006007008009001 0001 1001 2001 300TransportElectStart-PositionNominateEnd-positi

22、onAttackMeetMarryPhone-writeTransfer-moneySueDemonstrateEnd-orgInjureDieArrest-jailTransfer-ownershipStart-orgExecuteTrial-hearingSentenceBe-bornCharge-indictConvictDeclare-bankruptcyRelease-paroleFinePardonAppealMerge-orgExtraditeDivorceAcquit“unique”与“count”的比值事件类型出现次数事件类型countuniqueratioFig.1Dist

23、ributionofvariouseventsinACE2005Englishtrainingdataset图1ACE2005英文训练数据集中各类事件的分布186计算机研究与发展2024,61(1)1相关工作目前,事件检测主要归纳为 3 类:基于特征、基于表示和基于外部资源的方法.1.1基于特征的事件检测方法该类工作将单词的分类线索如词法、句法、文档等信息转换为特征向量,然后输入分类器中进行事件检测.Ahn4使用词性特征(如单词全拼、词性标记)、句法特征(如依赖关系)以及额外的知识特征(如WordNet).Ji 等人5将事件抽取的范围从单个文档扩展到与其相关的多个文档,结合来自相关文档的全局信

24、息和局部决策来进行事件检测.为了从文本中捕获更多的线索,Liao 等人6利用跨事件的方法以捕获事件之间的共现信息.Hong 等人7则采用跨实体的方法,通过查询大规模语言资源来形成对实体的丰富描述.此外,还有一些方法考虑词对之间的特征,Li 等人8利用结构化感知机模型融入全局特征以显式地捕获触发词和事件论元之间的依赖关系;Liu 等人9利用概率软逻辑方法编码事件之间的联系.然而人力设计特征模板通常耗时耗力,且特征工程还需要专家知识和丰富的外部资源.1.2基于表示的事件检测方法深度学习的进步极大地推动了事件检测的发展.基于表示的方法将候选事件提及用词嵌入表示,再采用各种神经网络模型自动学习更抽象的

25、特征表示,最后通过分类层来进行事件检测.首先,Chen 等人10和Nguyen 等人11-12成功地将卷积神经网络(convolutionalneuralnetwork,CNN)应用到事件检测中,并获得了较好的性能.随后,Nguyen 等人13用循环神经网络(recurrentneuralnetwork,RNN)来进行事件检测和事件论元抽取的联合学习.此后 Feng 等人14利用 CNN 和 RNN分别捕获与语言无关的短语块信息和文本序列信息,在中英文事件抽取任务上均获得了良好的效果.此外,为了解决触发词的歧义性问题,Duan 等人15采用文档级信息来改进句子级的事件检测;Liu 等人16提出

26、采用基于知识蒸馏的对抗模拟方法进行事件检测,提高模型从原始文本中获取抽象事件知识的能力,从而解决事件触发词的歧义问题,并且减少对外部自然语言处理工具的依赖.Yang 等人17利用预训练语言模型进行事件抽取和生成新的训练数据,在事件检测任务上取得了不错的性能.为提高事件检测模型的泛化能力和鲁棒性,一些工作引入知识增强的方法.Lu 等人18提出一种 Delta表示学习方法,力图将事件表示解耦为词汇具体部分和词汇无关部分,而不是仅学一个单独完整的表示,以蒸馏出事件的判别和泛化知识.Nguyen 等人21在句子的依存分析图上使用图卷积网络,并提出一种新的池化方式来聚合卷积向量,用于事件类型预测,取得了

27、良好的性能.Liu 等人22将事件抽取转化为机器阅读理解任务,将需要抽取的事件类型和论元通过无监督方法转化为问题,借助阅读理解模型来促进事件抽取.Lai 等人23基于图卷积网络引入门控机制来整合语法信息,提升事件检测性能.整体上,基于表示的事件检测方法很难解决数据稀疏和分布不平衡的问题.1.3引入外部资源的事件检测方法FrameNet 中定义的框架(frame)与 ACE 事件抽取任务中的事件存在高度相似的结构,其包含的语法单元与框架元素分别对应触发词和事件论元.因此,Liu 等人24首先建立FrameNet 中的框架与ACE2005中的事件间的匹配对应关系,进而得到 FrameNet 事件数

28、据集,然后结合 ACE2005 数据集对模型进行联合训练;Chen 等人25利用远程距离监督的方法结合Freebase,FrameNet,Wikipedia 生成一批高质量的标注数据以辅助事件检测.Liu 等人26利用文本注意力机制捕获多语数据的一致性信息以缓解数据的稀疏性,同时采用门控跨语言注意力机制捕获多语数据的补充性信息以应对单语数据的歧义性.Wang 等人27基于 Freebase 建立一个覆盖率良好的大型事件相关候选集,然后利用对抗训练机制从候选数据集识别出信息实例,并过滤掉有噪声的实例;Tong 等人28借助 WordNet开放域触发词知识,设计一种教师-学生网络模型,实现对事件触

29、发词的知识感知表示,从而提高模型性能.Wang 等人29采用对比学习在大规模无标记语料上基于抽象语义表示(abstractmeaningrepresentation,AMR)进行预训练,利用无标注数据中的事件知识来提高事件抽取性能.然而,引入外部资源得到的数据,质量很难保证,并带来一定的噪声.本文尝试在不引入外部资源、不使用额外标注信息的情况下,从不同的潜在语义空间角度,探索事件宏微观语境中更本质的影响信息.1.4变分自编码器和分层结构变分自编码器30是将变分分布引入自编码器的一种生成模型,其从重构的角度挖掘出数据的代表性潜在信息,在自然语言处理中取得了不错的效果.例如 Miao 等人31以及

30、 Srivastava 等人32将变分自编肖梦南等:基于分层潜在语义驱动网络的事件检测187码器运用于主题模型中,获得一致性更佳的主题.Xu等人33在中文隐式篇章关系识别任务中考虑变分自编码器中的潜在语义变量,获得了更好的性能.在本文中我们试图通过 VAE 中的潜在语义变量捕获句子和单词的潜在语义.如何合理地利用不同粒度的语境进行事件检测成为一个关键问题.分层结构在许多自然语言处理任务上取得了比较好的结果.例如,Yang 等人34通过层次化的注意力网络在文本分类任务上取得了良好的性能;Xiong 等人35在 Yang 等人34的基础上使用层次输出层,取得了更好的性能.考虑语言的多样性,Papp

31、as 等人36通过多任务学习训练多语言层次注意力网络,用以学习文档结构,提高模型的迁移能力.受分层结构的启发,本文将从 VAE 中捕获的不同粒度语境信息,采用分层结构进行事件检测;不同于前人由细粒度到粗粒度的分层结构,本文采用一个由粗粒度到细粒度的策略.这源于事件检测是一个细粒度的单词级分类任务,而文本分类是粗粒度的句子级/篇章级分类任务.2任务描述与前人工作16一致,我们将事件检测建模为一个单词级分类任务,即我们将句子中的每个单词都看作候选触发词,判断其触发的事件类型,对于未触发事件的单词,其类别设置为None.下面对 ACE2005语料中出现的概念进行简要描述.1)实体(entity).包

32、含某种特定语义类别的对象或对象集合,例如人(PER)、组织机构(ORG)等.2)事件提及(eventmention).发生事件的短语或句子,包含 1 个触发词和任意数量的论元.3)触发词(trigger).代表事件发生的核心词,大多数为动词或名词.4)事件类型(eventtype).ACE2005 语料中共包含8 种事件类型和 33 种事件子类型.5)论元(argument).在事件中扮演一个角色,可能是实体提及、时间表达式或值.6)论元角色(argumentrole).每一种事件子类型均对应着一定数量的角色,ACE2005 语料共涉及 35种角色,但没有一种事件类型可以有 35 种角色.3H

33、LSD 研究框架图 2 展示了本文提出的 HLSD 模型框架,其主要包含 4 个模块:1)词嵌入与序列编码.将句子中的每个单词都转换为连续向量,同时对句子进行编码.2)双重潜在语义挖掘.利用句子级变分自编码器挖掘句子的潜在语义信息,利用单词级变分自编码器挖掘单词的潜在语义信息.3)分层结构.采用由粗到细的分层结构,充分利用句子和单词的潜在语义信息.4)事件类型预测.计算每个候选触发词对应每个子类的概率.下面将详细介绍模型的各个部分.3.1词嵌入与序列编码近年来,单词表示学习有了新进展37-39,有效的单词表示能够为模型带来性能上的提升.为了充分挖掘单词表示带来的潜在性能提升,本文模型的单词嵌入

34、和序列编码使用 BERT39.xiiLhcls Rdh=(h1,h2,hL),hi RdidBERT 是一种由多层双向 Transformer40堆叠、经掩码语言模型(maskedlanguagemodel,MLM)预训练的语言表示模型,在特定语料上进行微调后编码句子,可以得到高质量的语境化单词表示.给定事件提及句子,是句子中第 个位置上的单词,是句子中单词的个数,在句子的开头和结尾处分别加上“CLS”和“SEP”符号,然后将句子中每个单词的字块嵌入(wordPieceembedding)、位置嵌入(positionembedding)和段嵌入(segmentembedding)加和,加和后的

35、句子作为 BERT 模型的输入,经编码得到句子的表示和句子中单词的表示表示第个单词的表示,其中 表示 BERT 隐层向量维度.Sent-VAEWord-VAEx1输入句子BERT句子嵌入hcls编码器解码器zclsx2 xLh1h2 hLz1z2 zLFeedForwardAdd&Norm s1s2 sLz1z2 zL编码器解码器ziFeedForwardAdd&Norm 句子嵌入hcls单词嵌入hiy1输出y2 yLzi:单词xi的潜在语义zi:单词xi自适应选择的句子潜在语义Fig.2ThearchitectureofHLSD图2HLSD 架构188计算机研究与发展2024,61(1)3.

36、2双重潜在语义挖掘针对同一个触发词可触发多个事件类型,以及同一个事件类型可由多个不同的事件触发词触发的问题,为了探索事件宏微观语境中更本质的影响信息,考虑变分自编码器可以从重构角度捕捉数据中潜在的表征,本文依据事件提及所在上下文范围的不同粒度(即句子、单词),采用变分自编码器进行双重潜在语义挖掘,并用来验证如何辅助事件检测.变分自编码器是 Kingma 等人30提出的一种生成模型,它由神经网络参数化的变分分布来近似后验分布,通过最小化 2 个分布间的 KL 散度(KullbackLeiblerdivergence),使得模型更好地重构原始输入,在本文的 HLSD 模型中指 BERT 编码后的句

37、子或单词表示.2VAE 由编码器(encoder)和解码器(decoder)组成,编码器通过神经网络得到变分分布的均值 和方差,在此基础上通过重参数化方法得到潜在语义向量,解码器通过对潜在语义向量进行解码,对原始输入进行重构,以辅助挖掘宏微观语境中更本质的事件判别信息.3.2.1句子潜在语义挖掘hclshclshenccls为了解决同一个触发词触发多个事件类型的问题,我们采用变分自编码器来挖掘句子的潜在语义.给定句子经过 BERT 编码后的语义表示,我们将送入编码器,将其映射到隐空间中.henccls=relu(Wencclshcls+benccls),(1)Wencclsbencclsrel

38、uhclsclscls2其中和均是编码器的参数,我们将函数作为激活函数.与文献 30 类似,本文假设 BERT 编码后的句子表示的先验分布和后验分布为高斯分布.高斯分布均值和方差通过线性变换获得,如式(2)(3)所示:cls=Wclshenccls+bcls,(2)log(cls2)=Wclshenccls+bcls,(3)WclsbclsWclsbcls其中,均是线性变换层的参数.句子的潜在语义通过重参数化技巧得到,形式化如式(4)所示:zcls=cls+cls,(4)其中 服从标准高斯分布.至此我们就得到了句子的潜在语义,但是为了保证句子的潜在语义能够尽可能地包含句子的主要信息,需要通过解

39、码器来对得到的潜在语义进行解码,重构原始的输入.softmaxclsclsiicls我们首先利用函数将句子的潜在语义向量归一化,得到,例如向量的第 个元素计算如式(5)所示:icls=exp(zicls)mt=1exp(ztcls),(5)mzclsclshclsWdeccls其中表示的维度,然后将送入解码器,得到重构之后的输出,形式化如式(6)所示,其中是解码器的参数.hcls=softmax(Wdecclscls+bdeccls).(6)hclshclszclshcls通过让尽可能接近来实现句子的潜在语义,尽可能包括的主要信息.根据变分自编码器的损失函数,句子潜在语义部分的损失函数如式(7

40、)所示:Lsent=DKLq(cls,zcls|hcls)|p(cls|cls,cls2)Eq(cls,zcls|hcls)logp(hcls|zcls,cls,Wdeccls).(7)q(cls,zcls|hcls)p(cls|cls,cls2)Eq(cls,zcls|hcls)logp(hcls|zcls,cls,Wdeccls)式(7)中等号右侧的第 1 项表示 KL 散度,用来衡 量 变 分 分 布和 真 实 后 验 分 布的接近程度,该距离越小越好,即隐变量能更好地表示输入数据;等号右侧第 2 项中的表示重构期望,通过从变分分布中采样隐变量的值,结合重参数化的方法,使得对数似然函数越

41、大越好,即隐变量的值能更好地重构原始输入.综上,在最小化损失函数的约束下,模型会产生更好的潜在语义变量和重构原始输入数据.3.2.2单词潜在语义挖掘zcls多个事件触发词可以触发同一个事件类型,说明具有多样性的触发词存在一些深层的共性语义联系.在宏观语境信息的约束下,使用变分自编码器来挖掘句子中每个单词的潜在语义,我们通过捕捉这些事件触发词的共同特性,为事件检测提供精准的语境信息.对比而言,句子的潜在语义表示一句话的主要信息,单词的潜在语义则是单词在某个特定上下文的主要语义信息,这样当不同的上下文表达相似的语义时,单词的潜在语义也相似.具体的实现过程与 3.2.1 节相同,唯一的不同点在于 1

42、 个句子只需要挖掘 1 个潜在语义,而在挖掘单词的潜在语义时,需要对句子中每个单词都挖掘 1 个潜在语义.3.3分层结构得到句子和单词的潜在语义后,我们设计一个由粗到细的分层结构进行不同粒度语境的融合.首先利用句子的潜在语义信息进行整体把握,然后利用单词的潜在语义信息以促进事件检测.zcls1)句子级.通过 3.2.1 节得到句子的潜在语义信息,考虑句子中的大部分单词不触发事件,然而散在句子中的核心事件元素对触发事件的判断起到重肖梦南等:基于分层潜在语义驱动网络的事件检测189要的支撑作用.因此我们设计一种注意力机制来自动选择句子潜在语义的相关部分,以削弱对事件判断的无用信息:i=sigmod

43、(MLP(hcls,hi),(8)MLPsigmodiiizi其中代表多层感知机,代表激活函数,表示第 个单词的注意力得分.第 个单词选择的句子潜在语义如式(9)所示:zi=izcls.(9)hhsen=(h1,z1),(h2,z2),(hL,zL)然后将 和单词选择的句子潜在语义进行拼接得到句子级表示.s=(s1,s2,sL),si Rdi对于得到的句子级表示,我们采用类似于 Trans-former40的 LayerNormalization,得到单词语义和句子潜在语义的深度交互表示表示第 个单词的中间表示,形式化如式(10)所示:o=LayerNorm(FFN(hsen)+h),(10)

44、FFN其中表示 FeedForwardNetwork.zword=(z1,z2,zL)shword=(s1,z1),(s2,z2),(sL,zL)2)单词级.通过3.2.2 节得到单词的潜在语义,然后将单词的潜在语义和 进行拼接,得到单词级表示.o=(o1,o2,oL)oi Rdi对于得到的单词级表示,我们同样采用 LayerNormalization,得到单词语义和单词潜在语义的深度交互表示,表示第 个单词的最终表示,形式化如式(11)所示:o=LayerNorm(FFN(hword)+h).(11)3.4事件类型预测oisoftmaxrpi=(p1i,p2i,pji,pri)我们将输入到具

45、有层的前馈神经网络中,获 得 维 归 一 化 标 签 概 率 向 量,计算形式如式(12)(13)所示:qi=Wyoi+by,(12)pji=exp(qji)rj=1exp(qji),(13)rpjixijpjijxi其中 为预定义的事件类型的个数(本文中 r=34),是将单词分类为第 个事件类型的概率值.如果的概率值最大,则将第 个事件类型作为该候选触发词的事件类型.H(x1,y1),(x2,y2),(xH,yH)给 定 所 有 的个 训 练 样 例,我们采用平均负对数似然函数作为该模型的损失函数,如式(14)所示:J(y,p)=1HHi=1rj=1yjilog(pji).(14)结合式(7

46、)(14)以及 3.2.2 节的损失,我们计算本文模型 HLSD 的联合损失,如式(15)所示:J()=J(y,p)+1Lsent+2Lword,(15)Lword12J LsentLword其中为 3.2.2 节单词潜在语义挖掘部分的损失,为平衡,的超参数.4实验与结果分析 4.1实验数据本文采用 ACE2005 的英文数据集,该语料由美国宾夕法尼亚大学的语言数据联盟(linguisticsdataconsortium,LDC)提供,包含实体、关系和事件注释等,主要支持英文、中文和阿拉伯文.ACE2005 英文语料包括 599 篇文档,定义了 8 种事件类型和 33 种事件子类型.为了公平比

47、较,本文遵循前人7-9的语料划分方法,即随机选择 40 篇新闻文档作为测试集,来自不同类别的 30 篇文档作为验证集,剩下的 529 篇文档作为训练集,预处理后的训练集、验证集、测试集包含的句子数、事件类型数如表2 所示.Table 2ACE2005 English Dataset Statistics表 2 ACE2005 英文数据集统计数据集文档数句子数触发词数训练集529147244311验证集30875492测试集40713422 4.2评估方法目前,事件抽取主要用 3 个评价指标来衡量事件抽 取 性 能 的 好 坏:精 确 率(precision,P)、召 回 率(recall,R)

48、、F1 值(F1measure).4.3基线方法与超参数设置本文方法没有引入大规模外部资源,选择相关的基线模型包括:1)HBTNGMA.Chen 等人20通过门控多级注意力自动抽取并动态融合了句子级信息和文档级信息.2)DEEB-RNN.Zhao 等人19采用有监督的分层注意力机制来学习文档嵌入,并使用它来增强事件触发词检测.3)Delta.Lu 等人18提出一种 Delta 表示学习方法,力图将事件表示解耦为词汇具体部分和词汇无关部分,而不是仅学一个单独完整的表示,以蒸馏出事件的判别和泛化知识.4)GCN-ED.Nguyen 等人21使用图卷积网络在句子的依存分析图上进行卷积,并提出一种新的

49、池化方式来聚合卷积向量,增强单词的表示.190计算机研究与发展2024,61(1)5)TS-distill.Liu 等人16采用基于知识蒸馏的对抗模拟方法进行事件检测,提高模型从原始文本中获取抽象事件知识的能力.6)PLMEE.Yang 等人17提出利用预训练语言模型进行事件检测和自动数据增强.7)DMBERT.Wang 等人27提出了用一种对抗训练机制来迭代识别信息实例并过滤掉噪声的实例.8)CSMG.Liu 等人41提出一个新的预训练机制,即上下文选择性掩码,以提升事件检测模型的鲁棒性,从而减小词汇的微小扰动对神经模型的影响.9)CDSIGM.陈佳丽等人42采用门控机制融合依存与语义信息来

50、进行事件检测.10)MSBERT.王捷等人43采用基于共享 BERT和门控多任务学习的方法来提高事件检测性能.11)RCEE_ER.Liu等人22将事件检测转化为阅读理解任务,借助阅读理解模型来促进事件检测.12)GatedGCN.Lai 等人23基于图卷积神经网络引入门控机制和语法信息来提高事件检测性能.12我们在 ACE2005 数据集上使用 PyTorch微调了一个 bert-base-cased 模型.该模型具有 12 层,每层包括 12 个 headattention,句子和单词经 BERT 编码后的维度均为 768.本文使用验证集进行调参,最终设置句子的潜在语义和单词的潜在语义的维

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 综合论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报