收藏 分享(赏)

基于ERNIE与多特征融合的中文命名实体识别.pdf

上传人:爱文献爱资料 文档编号:21787764 上传时间:2024-05-12 格式:PDF 页数:10 大小:4.94MB
下载 相关 举报
基于ERNIE与多特征融合的中文命名实体识别.pdf_第1页
第1页 / 共10页
基于ERNIE与多特征融合的中文命名实体识别.pdf_第2页
第2页 / 共10页
基于ERNIE与多特征融合的中文命名实体识别.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、浙江科技学院学报,第35卷第5期,2 0 2 3年10 月Journal of Zhejiang University of Science and TechnologyVol.35 No.5,Oct.2023doi:10.3969/j.issn.1671-8798.2023.05.008基于ERNIE与多特征融合的中文命名实体识别陈克金,叶善力(浙江科技学院理学院,杭州310 0 2 3)摘要:【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhancedrepr

2、sentation throughknowledge integration,ER NI E与多特征融合的实体识别方法。【方法】首先,通过预训练模型ERNIE获得词向量;然后将词向量并行输入双向长短时记忆网络(bidirectional long short-termmemorynetwork,Bi LST M)与膨胀卷积神经网络(iterated dilated convolutional neural network,ID CNN)中提取特征,再将输出特征向量进行融合;最后通过条件随机场(conditional randomfield,CRF)解码获取最佳序列。【结果】本研究所提出的模型优

3、于其他传统模型,在微软亚洲研究院(MicrosoftResearch Asia,M SR A)数据集上的Fi值达到了9 5.18%,相比基准模型BiLSTM-CRFFi值提高了8.8 6 百分点,相比ERNIE-BiLSTM-CRF模型FI值提高了1.34百分点。此外,在ERNIE-BiLSTM-IDCNN-CRF中引入注意力机制后FI值仅提升了0.0 7 百分点,可见引人注意力机制对本研究所提出的模型之识别效果提升有限。【结论】本研究所提出的模型有效地提升了中文数据集上的实体识别性能,可为自然语言处理的命名实体识别研究提供参考。关键词:命名实体识别;ERNIE;双向长短期记忆网络;膨胀卷积神

4、经网络;注意力机制中图分类号:TP391.43文献标志码:A文章编号:16 7 1-8 7 9 8(2 0 2 3)0 5-0 42 1-0 9Chinese named entity recognition based on ERNIE and multi-feature fusionCHEN Kejin,YE Shanli(School of Science,Zhejiang University of Science and Technology,Hangzhou 310023,Zhejiang,China)Abstract:Purpose In Chinese named entity

5、 recognition,the word vector in the traditionalnamed entity recognition method can only map it to a single vector,which cannot represent thepolysemy of a word,and local features are easily ignored in the feature extraction process.Aiming at the above problems,an entity recognition method was propose

6、d on the basis ofenhanced representation through knowledge integration(ERNIE)and multi-feature fusion.Method First,the word vector was obtained through the pre-trained model ERNIE;then,theword vector was input into the bidirectional long-short-term memory network(BiLSTM)and收稿日期:2 0 2 2-0 8-19基金项目:国家

7、自然科学基金项目(116 7 1357)通信作者:叶善力(19 6 7 一:),男,福建省福州人,教授,博士,主要从事复函数空间、时间序列分析等研究。E-mail:。422the iterated dilated convolutional neural network(IDCNN)in parallel to extract features,whose output feature vectors were then fused;finally,the best sequence was obtained throughconditional random field(CRF)decodi

8、ng.Result The proposed model is superior to othertraditional models,with the Fi value of 95.18%on the Microsoft Research Asia(MSRA)dataset,an increase of 8.86 percentage points over that of the benchmark model BiLSTM-CRFand an increase of 1.34 percentage points over that of ERNIE-BiLSTM-CRF model.In

9、addition,after introducing the attention mechanism into ERNIE-BiLSTM-IDCNN-CRF,the F1value increases merely by 0.07 percentage points,which indicates the introduction of attentionmechanism has limited improvement in the recognition effect of this proposed model.Conclusion This proposed method effect

10、ively improves the entity recognition performance onthe Chinese dataset,which can provide a reference for the research field of named entityrecognition in natural language processing.Keywords:named entity recognition;ERNIE;bidirectional long-short-term memory network;dilated convolutional neural net

11、work;attention mechanism命名实体识别11(named entity recognition,NER)是自然语言处理2 领域的一项子任务,目的是从大量的文本数据中抽取出实体,如人名、地名、机构组织名和特殊领域专业名词等,是知识图谱构建、句法分析3、信息抽取、机器翻译4等多项任务的关键子任务之一。相比英文命名实体识别,中文命名实体识别研究中存在许多具有挑战性的问题,如:1)实体类型与数量众多、形式多样,且不断涌现出新的实体;2)边界模糊、层次结构复杂,如组织机构名称之间层层嵌套;3)存在歧义文本,如一词多义、别名及简写词等现象。这些困难的存在使中文命名实体识别的研究更具价值

12、。从命名实体识别的研究历史来看,可以将其分为以下三个阶段:基于词典和规则的方法。这种方法通过语言学专家制定词典和规则,使用词典和规则识别实体,不足之处是过于依赖词典和规则,耗费大量人力,且制定的规则模板只能针对特定的领域,可移植性较差。基于统计学习的方法。它主要包括隐马尔可夫模型(HiddenMarkovModel,HMM)和条件随机场(conditional random field,CRF)等。例如,冯静等5利用HMM对桥梁检测文本进行实体识别,并取得了7 5.7%的F1值;邵诗韵等6 利用CRF识别电力工程标书文本,取得了9 4.2 4%的F1值。上述方法虽然不需要构造词典和规则,但仍需

13、要耗费大量的人力构造复杂的特征工程。基于深度学习的方法。如今它已被广泛应用到命名实体识别的各个领域中,如医疗、军事、政务等。基于深度学习的方法,避免了构造规则和特征工程,通过网络的自动学习提取文本数据的特征,并使用向量进行表征。Hammerton7最早将深度学习的方法应用到NER领域中,提出了LSTM-CRF(l o n g-short-term memory CRF,长短期记忆-条件随机场)模型。该模型通过 LSTM进行序列建模,不足之处是只能单向建模为解决这一问题,Lample等8 在LSTM的基础上提出了BiLSTM-CRF(双向长短期记忆-条件随机场)模型,该模型在NER的各个领域中得

14、到了广泛的应用。例如在法律领域,Tang等9 利用BiLSTM-CRF模型对判决文书进行实体识别,并取得了8 5.5%的F1值,但是模型容易忽略文本数据的局部特征。随着研究的深人,BiLSTM-CRF模型与不同模型进行了结合,并取得了不错的效果。例如,马欢欢等1ol将卷积神经网络(convolutional neural network,CNN)与BiLSTM-CRF模型进行结合,先利用CNN训练出词向量,再输人BiLSTM-CRF模型中,F,值达到了8 9.16%;Luo等11提出基于注意力机制的BiLSTM-CRF模型,解决了长距离依赖的问题,但模型在提取特征时容易忽略局部特征。因此,St

15、rubell 等12 1提出使用IDCNN(iterated dilated CNN,膨胀卷积神经网络)进行实体识别IDCNN与CNN相比感受视野更大,能兼顾到更多的局部特征。梁文桐等13将IDCNN-CRF模型与注意力机制结合,该模型在兼顾局部特征的同时也强化了关键特征,并取得了8 2.43%的F1值。浙江科技学院学报第35卷第5期为了训练出能表征丰富语义特征的词向量,有研究者提出了预训练语言模型。其中,word2vecl14I 的提出具有重要意义,通过word2vec训练出了语义丰富的词向量。但这种向量是静态词向量,无法针对特定任务做动态优化,且文本中的词与词向量之间一一对应,无法解决一词

16、多义的问题。例如在句子“小和温和地说:在重大问题上,大家不能和稀泥,也不能随意附和他人”。”中,四个“和”字表达了不同的意思,但是一个词向量只能表达一种意思,显然与现实不符。对此,Peters 等15 提出了ELMo(e mb e d d i n g f r o mlanguage models,语言模型的嵌入),是一种结合了BiLSTM网络的预训练模型,能根据上下文语境的变动而变动,从而达到提取双向文本特征的目的,不足之处是ELMo采用BiLSTM提取特征,存在长度依赖问题。此外,Radford等16 提出了能提取更长距离语义特征的GPT(generative pre-training,生成

17、式预训练)模型,但GPT模型是单向结构,对于上下文特征的学习能力不足;因此,Devlin等17 提出了基于变压器(transformer)的双向编码(bidirectional encoder representation from transformers,BERT)模型,该模型采用双向变压器编码器,极大地提升了词向量的语义表达能力,使其在多项实体识别任务中取得了最佳表现。然而BERT却无法提取出更大语义单元的完整表示,针对这一不足,Sun等18 提出了基于知识增强的ERNIE模型,该模型利用短语和实体级别的掩码方式来融合外部知识,还加人了百度百科、百度贴吧、百度新闻等语料,极大地提升了模型

18、的语义表征能力。考虑到ERNIE模型强大的表意能力,本研究在模型BiLSTM-CRF的基础上提出了ERNIE-BiLSTM-IDCNN-CRF(enhanced representation through knowledge integration-bidirectional long-short-termmemory-iterated dilated convolutional neural network-conditional random field)方法,引人 ERNIE 预训练模型,通过对文本数据中的字符、词语、实体等语义模块进行统一建模,极大地增强了模型的语义表征能力;提出Bi

19、LSTM与IDCNN的融合模型,既可以通过BiLSTM捕捉到上下文特征,又可以通过IDCNN兼顾到局部特征。同时,通过自注意力机制强化实体识别的关键特征,进一步保证了模型的实体识别效果。1模型介绍本研究提出的融合注意力机制的ERNIE-BiLSTM-IDCNN-CRF模型结构如图1所示,模型主要由嵌人层(ERNIE)、编码层(BiLSTM与IDCNN融合)、注意力机制层和CRF层构成。首先将中文文本输ERNIE模型中获得词向量,将得到的词向量分别输人BiLSTM与IDCNN中,并将输出的特征向量进行融合;然后将融合的向量传递给注意力机制层;最后通过CRF层进行解码,得到全局最优标注序列。解码层

20、注意力机制层陈克金,等:基于ERNIE与多特征融合的中文命名实体识别?423条件随机场多头注意力机制?BiLSTM与IDCNN融合层LSTM/LSTM/LSTMLSTM/LSTMLSTM+LSTMLSTM+LSTMLSTMERNIE层输入层Fig.1 ERNIE-BiLSTM-IDCNN-CRF model structure fused with attention mechanismERNIE图1融合注意力机制的ERNIE-BiLSTM-IDCNN-CRF模型结构ERNIE西湖雷峰塔4241.1ERNIE模型预训练语言模型的提出极大地推动了自然语言处理各项任务的发展。从早期的Word2ve

21、c模型,到之后的ELMo模型,再到BERT模型,都取得了不错的效果,但以上模型都是对原始语言信号进行建模,缺少对语义特征进行建模,使得模型无法训练出更大语义单元的词向量,这一点在中文上表现得更加明显。例如句子“西湖位于杭州市”单独预测“西MASK或者“杭MASK市”对之前的模型而言都很简单,但是模型不能学到西湖和杭州市的位置关系。为解决上述问题,Sun18J2等提出了基于知识增强的ERNIE模型,可以学习到更大单元的语义关系。BERT的核心结构是变压器,其结构如图2 所示。在变压器中,通过自注意力机制计算语料中各字符之间的相关程度,然后依据相关程度更新权重系数,以此提取到更远的文本特征。计算字

22、符间相关程度大小的公式如下:(1)式(1)中:Q、K、V 为字向量矩阵;dk为输人向量维度。ERNIE采用了与BERT模型一样的编码器,并且编码结构也是完全相同的,但是权重却并不共享。基于BERT和ERNIE的参数见表1。浙江科技学院学报QKTA(Q,K,V)=Softmax第35卷求和与归一化表1基于BERT和ERNIE的参数Table 1 Parameters based on BERT and ERNIE全连接前馈网络求和与归一化多头注意力机制位置编码X2图2 变压器编码器Fig.2Transformerencoder此外,另一点与BERT模型不同的是,ERNIE模型放弃了单一字掩码策略

23、,在预训练阶段增加了外部知识,采用了字、词和实体三种粒度的掩码策略,隐式地学习到更长的语义关系,如实体之间的关系。基于BERT和ERNIE的不同掩码策略如图3所示。BERT只是对单一的字进行掩码,模型学到的大多是各字符之间的关系,如图3中“州”与“杭”之间的局部关系;而在ERNIE模型中,则是进行了字掩码、词掩码和实体掩码三种级别的掩码,不但能学到字符之间的关系,还能学到“杭州”与“省会”之间的实体关系。1.2BiLSTM层传统的循环神经网络(recurrent neural network,RNN)存在梯度消失或梯度爆炸的问题,为解决这一问题,有研究者提出了改进后的LSTM网络,其单元结构如

24、图4所示。LSTM网络的核心单元结构包括输全连接前馈网络注意力机制模型编码层/层隐藏层/层BERT6ERNIE Base12ERNIELarge24州江杭mask是浙mask的省会,中mask互联mask之都(a)BERT杭州互联网maskmask是浙江的省会,中国maskmaskmask之都(b)ERNIE图3基于BERT和ERNIE的不同掩码策略Fig.3 Different masking strategies based onBERT and ERNIE头数/个512876812102416国网第5期人门、遗忘门和输出门3个部分,通过三个门的控制可以很好地提取出上下文词语之间的依赖关系

25、,并在训练的过程中学到需要记忆和遗忘的信息,参数的具体更新方式如下:(2)f,=o(Wrx,+Wtht-1+br);(3)o,=o(W。x,+W。h t-1+b。);(4)c,=f,cr-1+i,tanh(Wex,+W.h,-1+be);(5)h,=o,tanh(c,)。(6)式(2)(6)中,it,f,0,分别为输人门、遗忘门、输出门的输出结果;c,x,h,分别为细胞状态、输入信息、隐藏层信息;W表示不同状态下的权重矩阵;o和tanh是激活函数;b是偏置向量。LSTM只能学习历史信息,而不能学习未来知识,故本研究采用双向LSTM网络,它可以同时学习历史信息和未来信息,最后将历史信息和未来信息

26、的特征向量进行拼接,得到表征能力更强的特征向量。BiLSTM模型结构如图5所示。陈克金,等:基于ERNIE与多特征融合的中文命名实体识别it=o(Wx,+W,ht-i+b,);425遗忘门输入门Ci-1?输出门tanh合并层LSTMLSTM.LSTMLSTM一反向LSTMLSTMLSTM-LSTM-LSTMHhi-1hXi-i1图4LSTM单元结构Fig.4 LSTM cell structureBiLSTM模型的具体计算公式如下:式(7)(9)中,x,为t时刻的输入;h,为t时刻正向LSTM的输出向量;h,为t时刻反向LSTM的输出向量;表示向量的拼接操作。1.3IDCNN层膨胀卷积也叫空洞

27、卷积19,相较于传统的CNN,其卷积核做了膨胀处理,因此不能在连续的区域上移动。传统CNN与膨胀CNN结构对比如图6 所示。图6(a)为传统的卷积操作,卷积核大小为3X3,感正向LSTMXX图5BiLSTM模型结构Fig.5IBiLSTM model structureh,=LSTM(h,-1,x,);h,=LSTM(h,-1,x,);h,=h,Oh,。X-1X词向量(7)(8)(9)(a)传统卷积操作图 传统 CNN与膨胀CNN结构对比Fig.6 Comparison between traditional CNN and dilated CNN structures(b)膨胀宽度为2 的卷

28、积操作(c)膨胀宽度为4的卷积操作426受视野也为3X3;图6(b)卷积的膨胀宽度为2,在图6(a)卷积的基础上,感受视野增大为7 7;图6(c)卷积的膨胀宽度为4,在图6(b)卷积操作之后,此时感受视野增大为1515。膨胀卷积通过扩大感受视野可以兼顾更多的局部特征,这些局部特征可以表示文本中部分内容之间的关联特征。例如在句子“雷峰塔位于美丽的西湖”中,实体“雷峰塔”的各个字符联系紧密,因此具有更大的权重。改进后的IDCNN既不改变卷积核的大小,同时又能兼顾更多局部特征。1.4多头自注意力模块虽然BiLSTM模型与IDCNN模型可以学到文本的上下文特征和局部特征,但二者无法学到对实体识别具有关

29、键作用的特征。于是将BiLSTM和IDCNN模型的输出进行融合,然后将拼接后的向量输入自注意力机制模块中,通过多头自注意力机制模块对融合特征向量中的特征进行权重分配,强化关键特征。自注意力机制的计算公式如式(1)所示,多头注意力机制由多个自注意力机制组成,通过将多个自注意力机制连接起来,可以降低维度来减少总消耗,加快学习速度。1.5CRF层在命名实体识别任务中,BiLSTM与IDCNN能较好地提取长距离文本特征和语句特征,并对每一个标签进行预测,但却无法解决标签之间的依赖问题。CRF可以为标签之间引入约束关系,从而获取全局最优的标签序列。给定一个序列X=(1,2,,)和对应的预测序列Y=(y

30、1,y 2,,y,)。预测序列的得分可表示为(10)=0i=1式(10)中:A为转移矩阵;Aysi+为标签从y,转移到yi+1的分数;Pi.为给定序列第i个字对应标签y;的分数。对预测序列Y的概率进行计算,计算公式为P(Y I X)=式(11)中:Y为真实的标签序列;Yx为所有可能的标签序列集合。经过维特比(Viterbi)算法解码后,得到如下最大概率的输出序列:(12)2试验结果与分析2.1试验数据本研究采用微软公开的命名实体识别微软亚洲研究院(Microsoft ResearchAsia,MSRA)数据集,其中训练集和测试集包含人名、地名和组织机构等实体,本试验主要对以上三种实体进行识别评

31、测。MSRA数据集实体个数统计见表2。2.2数据标注与评价指标命名实体识别常用的标注体系有BIO(b e g i n i n s i d e o u t s i d e)体系、BIOE(b e g i n i n s i d e o u t s i d e e n d)体系和BIOES(begin inside outside end single)体系。本研究选用的是BIO体系,该体系的标签有7 个,分别是 OB-PERI-PERB-ORGI-ORGB-LOC和 I-LOC20本研究选择准确率、召回率和F1值作为评价指标,各评价指标计算公式如下:浙江科技学院学报7s(X,Y)=Y*=argm

32、axyerxs(x,Y)。数据集人名训练集36517测试集2877PTX100%;T,+F,第35卷e(X.Y)(11)YeYx表2 MSRA数据集实体个数统计Table 2Statistics on the number ofentities in MSRAdataset地名205711331个机构名总计176157470319736181(13)第5期式(13)(15)中:P、R 分别为准确率和召回率;T,为模型所有预测正确的实体个数;F,为模型识别到的不相关实体个数;F,为相关实体但是模型没有检测到的个数。2.3试验环境与试验参数配置本试验基于Pytorch框架搭建神经网络模型,性能验证

33、试验的具体环境配置如下:操作系统为Linux,CPU 型号为IntelCore i7-6700HQ,G PU 型号为NVIDIAGeForceRTX3090,内存为2 4GB,编程语言为Python3.6,深度学习框架为Pytorch1.12。在训练过程中,为了增强模型的学习能力,变压器层数设置为12;为了解决参数过拟合的缺点,采用AdamW优化器;学习速率为2 10-5;IDCNN模块中,隐藏层的滤波器个数为128个,3层卷积的膨胀宽度分别为1、1、2;为防止过拟合问题,引人随机失活算法,并设置为0.1。参数设置见表3。2.4试验结果与分析为验证本研究所提模型的有效性,将模型与其他模型进行对

34、比。为了对模型做出更加全面的评价,本研究所设置的试验不仅对各个模型在准确率、召回率、FI值三项指标上进行了对比,还对MSRA数据集的实体在以上评价指标上进行了对比。不同模型试验结果对比见表4。Table 4 Comparison of experimental results among different models模型IDCNN-CRFBiLSTM-CRFBiLSTM-Attention-CRFBiLSTM-IDCNN-CRFERNIE-BiLSTM-CRFERNIE-BiLSTM-IDCNN-CRFERNIE-BiLSTM-IDCNN-Attention-CRF陈克金,等:基于ERNI

35、E与多特征融合的中文命名实体识别R=T,+F.T,X100%;2PRF1X100%。P+R变压器层数隐藏层维度学习速率2X10-5随机失活值LSTM_dim384表4不同模型试验结果对比评价指标人名准确率84.68召回率85.64Fi值85.21准确率88.11召回率87.69F值87.90准确率87.73召回率84.32Fi值86.81准确率88.13召回率86.00F值88.40准确率95.41召回率94.58Fi值94.99准确率97.08召回率96.44F值96.76准确率97.24召回率92.94Fi值95.11427(14)(15)表3参数设置Table 3Parameter se

36、ttings参数值12批次大小768最大序列长度1280.1%地名机构名85.0278.5085.4481.7185.2880.1687.9481.5986.2484.3387.0882.9587.4181.7586.7284.8487.9284.1287.9681.6184.8582.9487.5883.4595.7589.2394.3890.6595.0689.9496.9190.5694.9993.0895.9491.8196.9291.2695.3493.4696.2192.42参数综合83.3884.6284.0686.4686.1886.3286.1385.6586.7286.48

37、84.7986.8294.1193.5693.8495.4394.9395.1895.6494.2795.25值20428由表4可知,BiLSTM-CRF与IDCNN-CRF相比,FI值提升了2.2 6 百分点,这是因为BiLSTM能够利用双向结构提取更多的上下文序列特征,在BiLSTM-CRF中引人注意力机制后,模型的Fi值提升了0.4百分点,效果提升不是很明显。此外,BiLSTM-IDCNN-CRF和 ERNIE-BiLSTM-CRF与基准模型BiLSTM-CRF相比,FI值分别提升了0.5百分点和7.52 百分点,可以看出,引人IDCNN能够学习到局部特征,弥补了BiLSTM忽略局部特征

38、这一不足,同时ERNIE具有强大的语义表征能力,使模型的整体性能得到了大幅的提升。从试验结果对比中可以看出本研究所提模型在三项评价指标上均有一定提升,F1值为9 5.18%,与前5种模型相比,F1值分别提升了11.12、8.8 6、8.46、8.36、1.34百分点。在所提模型中引人注意力机制后,F值仅提升了0.0 7 百分点,可见注意力机制的引人对模型的性能提升有限。在所有模型中,机构类实体的F1值较低,这类实体长度普遍较长,且经常出现地名嵌套、缩写等干扰信息。如机构类实体“中国计算机学会-ORG”,被错误地预测为地名类实体“中国-LOC”。此外,如“妇联”和“南航”这类缩写的组织机构名,在

39、没有大量的上下文信息时也很容易预测错误。同时还发现,人名和地名类实体的F值较高,这是因为人名和地名的表达具有相对固定的格式,例如人名一般以姓氏开头,易于识别。此外,本研究分析了各模型前30 轮的F1值变化情况,如图7 所示。从IDCNN-CRF模型开始,各模型分别在第16、17、14、15、2 6、2 6、2 7 轮训练时达到最高F1值;引入了ERNIE的模型训练时间更长一些,这是因为ERNIE由12 层变压器组成,网络结构复杂,增加了模型训练时间。从图7 中还可以看出,引人了ERNIE的模型在训练初期就能够取得较高的F1值,后期提升幅度较小,最终取得较高的F1值;而未引入ERNIE的传统模型

40、,在训练初期处于非常低的水平,经过了10 轮左右的训练才上升到相对较高的水平,但还是无法超过本研究所提出的模型。为充分验证本研究模型的有效性,我们设计了与目前主流方法在MSRA数据集上的对比试验,识别效果对比见表5。由表5知,使用稠密方式连接(dense con-nection,DC)的 DC-BiLSTM-CRF 模型,利用这种方式来学习句子之间的特征,并采用自注意力机制来捕捉两个标注词语之间的关系;利用了字符级和部首级特征的Radical-BiLSTM-CRF模型,通过BiLSTM层获取上下文序列的特征,既利用了上下文特征,又利用了字符结构的特征;改进了LSTM单元的 Lattice-LS

41、TM模型,对输人字符序列及与词典匹配的所有潜在单词进行编码,显式地利用词与词序特征;引人了卷积神经网络的CNN-BiLSTM-CRF模型,从每个汉字中提取具有形态特征的字形嵌人,将其与具有语义特征信息的字符嵌人进行拼接,输入BiLSTM-CRF网络中;引人了IDCNN的BERT-IDCNN-CRF模型,通过只训练IDCNN-CRF部分减少了训练参数;改进了编码层的BERT-BiGRU-CRF模型,通过只训练BiGRU-CRF部分参数缩短了训练时间。以上6 种主流模型在一定程度上提升了F1值,但是模型的改进一直停留在对字符和词语特征的提取,导致这些改进后的模型仍难达到更佳效果。本研究所提模型,与

42、DC-BiLSTM-CRF模型及CNN-BiLSTM-CRF模型相比,在提取上下文特征的同时又能兼顾局部特征;与Radical-BiLSTM-CRF模型及Lattice-LSTM-CRF模型浙江科技学院学报1009080%/706050400Fig.7Changes in the Fi value of each model表5本研究模型与主流方法的识别效果对比Table 5Comparison of recognition effects between the proposedmodel and main stream models模型DC-BiLSTM-CRF211Radical-BiL

43、STM-CRFL221Lattice-LSTM-CRF231CNN-BiLSTM-CRFL241BERT-IDCNN-CRFL25BERT-BiGRU-CRFL261ERNIE-BiLSTM-IDCNN-CRF第35卷IDCNN-CRF4BiLSTM-CRFBiLSTM-Attention-CRFBiLSTM-IDCNN-CRFERNIE-BiLSTM-CRFBRNIE-BiLSTM-IDCNN-CRFERNIE-BiLSTM-IDCNN-Attention-CRF510图7 各模型F1值变化准确率召回率F值92.1490.9691.2890.6293.5792.7991.6390.5694.

44、8693.9794.1994.1695.4394.9315轮/次2025%91.5490.9593.1891.0994.4194.1895.1830第5期相比,模型的语义特征提取能力更强;与BERT-IDCNN-CRF模型及BERT-BiGRU-CRF模型相比,将两个模型特征提取的优势进行了结合,提升了模型的整体性能。综上所述,本研究所提模型有效提升了实体的识别效果,在MSRA数据集上的F1值达到了9 5.18%,取得了最佳效果。3结语本研究针对中文命名实体识别任务中,传统模型无法表征一词多义及特征提取时容易忽略局部特征的问题,提出了ERNIE-BiLSTM-IDCNN-CRF模型。ERNIE

45、预训练模型通过字、词和实体三种级别的掩码策略,学习到更长的语义关系。采用ERNIE获得词向量后,然后将词向量并行输入到BiLSTM与IDCNN中,既利用BiLSTM捕捉到上下文特征,又利用IDCNN兼顾到局部特征。试验结果表明,本研究所提出的模型明显优于传统的实体识别模型,在引入注意力机制后模型的准确率和F1值均得到一定的提升。本研究仅对通用领域的部分类型实体进行了研究,下一步的工作可以考虑将深度学习与迁移学习相结合,将模型应用到其他特定领域的实体识别中。参考文献:1LI J,SUN A X,HAN J L,et al.A survey on deep learning for named e

46、ntity recognitionJI.IEEE Transactions onKnowledge and Data Engineering,2020,34(1):50.2OTTER D W,MEDINA J R,KALITA J K.A survey of the usages of deep learning for natural language processingJJ.IEEE Transactions on Neural Networks and Learning Systems,2021,32(2):604.3赵华茗,钱力,余丽.依存句法特征的科研命名实体识别算法J.图书情报工

47、作,2 0 2 0,6 4(11):10 8.4葛君伟,涂兆昊,方义秋.基于融合CNN和Transformer的分离结构机器翻译模型J.计算机应用研究,2 0 2 2,39(2):432.5冯静,李正武,张登云,等.基于隐马尔可夫模型的桥梁检测文本命名实体识别J.交通世界,2 0 2 0(8):32.6邵诗韵,周宇,杨蕾,等.基于条件随机场的电力工程标书文本实体识别方法J.计算机与现代化,2 0 2 0(12):7 2.7HAMMERTON J.Named entity recognition with long short-term memory CJ/Proceedings of the

48、SeventhConference on Natural Language Learning at HLT-NAACL 2003.Edmonton:CoNLL,2003:172.8LAMPLE G,BALLESTEROS M,SUBRAMANIAN S,et al.Neural architectures for named entity recognitionCJ/Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:H

49、uman Language Technologies.San Diego:NAACL,2016:260.9TANG P,YANG P,SHI Y,et al.Recognizing Chinese judicial named entity using BiLSTM-CRFLJJ.Journal ofPhysics:Conference Series,2020,1592(1):12040.10马欢欢,孔繁之,高建强.中文电子病历命名实体识别方法研究J.医学信息学杂志,2 0 2 0,41(4):2 4.11LUO L,YANG Z,YANG P,et al.An attention-based

50、 BiLSTM-CRF approach to document-level chemical namedentity recognitionJ.Bioinformatics,2018,34(8):1381.12STRUBELL E,VERGA P,BELANGER D,et al.Fast and accurate entity recognition with iterated dilatedconvolutionsCJ/Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processin

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 综合论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报