收藏 分享(赏)

基于神经网络的医疗命名实体抽取研究.pdf

上传人:爱文献爱资料 文档编号:21806221 上传时间:2024-05-25 格式:PDF 页数:4 大小:1.81MB
下载 相关 举报
基于神经网络的医疗命名实体抽取研究.pdf_第1页
第1页 / 共4页
基于神经网络的医疗命名实体抽取研究.pdf_第2页
第2页 / 共4页
基于神经网络的医疗命名实体抽取研究.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、DIGITCW技术 研究Technology Study38DIGITCW2023.091 基于多特征的医疗命名实体抽取1.1 基于CRF的命名实体抽取在对数据进行处理时,首先要将其转换为计算机可以识别的格式。由于不同的数据库中存在大量相同或相似的数据,所以需要使用一定的方法来消除这些重复和冗余的部分,从而使得数据更加简洁、规范。目前最常见的方式是利用命名实体识别技术来达到这一目的。命名实体识别就是通过分析语料库中的词与词之间的联系,找出其中所隐含的语义信息,并且能够准确地描述出该词语的意思。因此,本文选择命名实体识别技术作为主要的研究对象,以便获得更为精准的结果。命名实体识别主要包括以下几个

2、步骤:第一步,确定一个领域;第二步,收集相关资料;第三步,构建知识库;第四步,建立模型。在进行命名实体识别时,首先要对语料库中所有的句子进行分句处理,然后再将其转化为相应的结构化形式,最后借助计算机程序自动完成这项工作。1.2 基于BiLSTM-CRF的命名实体抽取本文将从医疗文本中获取到的大量信息进行分析、处理和总结后,提取出与医疗相关的命名实体。在基于神经网络的医疗命名实体抽取研究米仁沙 艾尼(喀什大学计算机科学与技术学院,新疆 喀什 844000)摘要:随着互联网技术的快速发展和信息化时代的到来,人们对数据的需求越来越大。如何从海量文本中快速、准确地获取有用信息成为了一个亟待解决的问题。

3、作为一种重要的自然语言处理方法,命名实体识别(NER)在很多领域都有广泛应用,如机器翻译、自动问答系统等。但是由于医学文献本身专业性较强,且存在大量的半结构化或非结构化文本,使得传统的NER模型很难直接用于医学领域。因此,文章针对医学文本特点,提出了一种基于BiLSTM-CRF的医疗命名实体抽取算法,并通过实验证明了该方法能够有效提高医疗命名实体识别率。重点分析了BiLSTM-CRF模型原理及其优势所在;然后,将BiLSTM-CRF模型与改进后的BiLSTM模型相结合,构建出一种新的双向长短期记忆网络模型 BiLSTM-CRF+BiLSTM模型;最后,利用上述模型进行训练,实现了医疗命名实体抽

4、取。关键词:神经网络;医疗命名;实体抽取doi:10.3969/J.ISSN.1672-7274.2023.09.013中图分类号:TP391.1;TP18 文献标志码:A 文章编码:1672-7274(2023)09-0038-04Research on Medical Named Entity Extraction Based on Neural NetworkMirensha Aini(School of Computer Science and Technology,Kashgar University,Kashgar 844000,China)Abstract:With the ra

5、pid development of Internet technology and the advent of the information age,peoples demand for data is growing.How to obtain useful information quickly and accurately from massive texts has become an urgent problem to be solved.As an important natural language processing method,named entity recogni

6、tion(NER)has been widely used in many fields,such as machine translation,automatic question answering system,etc.However,due to the strong professional nature of medical literature and the existence of a large number of semi-structured or unstructured texts,it is difficult to directly apply the trad

7、itional NER model to the medical field.Therefore,according to the characteristics of medical texts,this paper proposes a medical named entity extraction algorithm based on BiLSTM-CRF,and proves that this method can effectively improve the recognition rate of medical named entities through experiment

8、s.Firstly,the background and significance of the subject are introduced,and the relevant research status at home and abroad is summarized.Secondly,the basic concept of named entity recognition and common feature selection methods are described in detail.Thirdly,it focuses on the theory and advantage

9、s of BiLSTM-CRF model.Then,by combining Bilstm-CrF model with the improved BiLSTM model,a new bidirectional long and short term memory network model,Bilstm-Crf+BiLSTM model,is constructed.Finally,medical named entity extraction is realized by using the above model for training.Key words:neural netwo

10、rk;medical naming;entity extractionDCWTechnology Study技术研究39数字通信世界2023.09对这些信息进行分类时,需要先确定哪些是属于命名实体范畴内的内容,然后再去寻找与其对应的其他类别的信息。因此,首先要明确什么是命名实体以及它们之间存在怎样的关系,为后续工作做铺垫。本文通过引入BIESTRACK(Bidirectional information extraction from Embeddings,从嵌入中提取双向信息)模型来解决这一问题。该模型主要包括两个部分:第一个部分就是对输入文本进行预处理;第二个部分则是利用BiLSTM(双向

11、长短期记忆单元)模型对文本中的命名实体进行识别并输出其名称。在此基础上,我们可以得到一个关于医疗领域的命名实体集合。其中,每行代表一个实体,每列代表一个实体与另一个实体之间的关系。1.3 基于CRF-SVM的命名实体抽取在对医疗领域进行研究时,需要从大量的文本中提取出相关的知识。因此,本文将利用机器学习技术来分析这些文本中所包含的信息和规律,并从中获取有用的知识。为了更好地实现这一目标,我们首先要构建一个用于识别命名实体的分类器CRF-SVM。由于不同类型的命名实体之间在一定程度上存在联系,所以可以使用一种特殊的方法来表示它们之间的关系。1.4 基于CRF+Word2Vec的命名实体抽取在对医

12、疗领域进行研究时发现,不同的实体之间可能存在着某种关联。为了能够更加全面地描述这种关系,本文引入词向量来表示实体与实体之间的语义关系,并将其作为模型中的一个重要参数。因此,本文提出一种基于CRF和Word2Vec的命名实体识别方法(CRF+Word2Vec),用以实现对医疗语料库中文本的自动分类任务。首先利用SkipGram算法从训练集中获取初始化的词嵌入矩阵;然后使用TextCNN提取出句子中每个单词对应的词向量;最后通过计算得到每条序列的概率分布函数P(x|),其中是指序列中所有词语出现的频率,即该序列所包含的实体数量。1.5 基于CRF-Bert的命名实体抽取在医疗文本中,有很多与疾病相

13、关的名词和动词。这些词可以作为一个单独的实体来处理。因此,我们将这种方法称为“命名实体”(Named Entity)识别。本文使用了一种新的技术CRF-Bert来提取医疗文本中的实体名称,即命名实体识别(Named Entity Recognition)。该方法首先对句子进行分片,然后通过分析每个片段之间的上下文关系,获得每个单词的含义以及它们之间的相互关系,最后利用已经训练好的模型生成相应的规则,以便能够自动地识别出文本中的实体及其属性。2 基于神经网络的医疗命名实体抽取2.1 数据集本文使用的是由复旦大学开发的中文医疗语料库。该语料库包含了大量与医学相关的文本信息和结构化知识,并且已经被广

14、泛应用在各种领域中,如自然语言处理、机器学习等方面1。因此,我们可以利用这些丰富的资源来构建一个适合神经网络训练的医疗命名实体抽取的数据集。通过对现有文献进行分析发现,目前还没有学者提出过将关系作为输入向量的方法,如果能够把这种关系引入到命名实体识别任务当中去,就会使得整个系统更加完善。2.2 数据预处理在对医疗领域进行研究时,首先要做的就是获取相关的数据。本文所使用到的数据是由“医疗”“命名实体识别”和“关系”组成的三元组形式,其中“医疗”指的是与该任务有关的所有信息;而“命名实体识别”则表示了该任务中需要用到的各种方法;最后一个“关系”则代表着这些信息之间存在的联系。因此,我们将这三个元素

15、作为输入向量,并通过训练来构建相应的模型,从而来完成整个任务,具体介绍如下。(1)医疗数据集。本文所用到的数据来源于中国知网(CNKI)数据库,从中选取其中部分文献作为样本库。同时,还要保证每个样本都包含一定量的实体名称以及对应的属性词,这样才能够更好地满足实验要求。(2)Doc2Vec模型的搭建。在进行模型搭建时,首先要对原始语料进行去噪和归一化操作,然后再利用TFIDF算法计算出各个词语的权重值。由于篇幅有限,具体实现过程不再赘述。(3)关系提取。实体与实体之间是有关联的,所以需要把这些关系提取出来,以便后面使用。(4)命名实体识别。将上一步中得到的结果输入到Softmax分类器中进行训练

16、学习。(5)模型评价。通过准确率、召回率等指标对模型效果进行分析评估。2.3 基于CRF的命名实体识别在对文本进行处理时,需要将其转换为计算机能够理解和处理的形式。而这种转化过程就是命名实体识别(NER)。目前已经有很多关于命名实体识别的方法,但是这些方法都存在一定的局限性,因此本文采用了一种新的方法 CRF(条件随机场)来实现命名实体的识别。DIGITCW技术 研究Technology Study40DIGITCW2023.092.4 基于CNN的命名实体识别在对医疗领域中的命名实体进行分析后发现,这些实体之间存在着各种各样复杂的关系。为了能够更好地利用这些信息来提高医疗领域中文本信息的处理

17、效率和准确率,本文采用一种新的命名实体识别算法CRF(条件随机场)。该方法是由Liu等人提出并且已经被广泛应用到各个领域。它主要通过建立一个包含所有可能出现的命名实体以及其上下位词、属性特征等相关数据的语料库,然后使用神经网络模型对语料库中的实体与实体之间的关系进行学习训练,最后得到最优化的结果2。这个过程可以看作是一个不断优化的过程,也就是说随着实验次数的增加,模型会逐渐接近真实情况,从而达到最理想的效果。因此,本文选择使用CRF模型来完成医疗领域的命名实体识别任务。具体步骤如下:首先将收集到的文本信息输入到构建好的语料库中;接着利用BiLSTM层和双向GRU层分别提取出每个句子中的实体及其

18、上下位词、属性特征等信息;再用CRF模型对这些信息进行处理,最终输出命名实体识别的结果。3 实验结果与分析3.1 数据集介绍本文使用的是由复旦大学开发的中文命名实体识别(Chinese Named Entity Recognition)数据集。该数据集包括了20万条实体对以及对应的关系和实例。其中有5%左右的实体没有被标注出来,因此在训练时会将这些实体剔除掉。为了方便起见,我们只保留了80%的实体作为实验对象进行研究。结果显示,不同类型的实体其命名方式存在较大差异。例如,“人名”“地名”等都可以直接用汉字表示;而“机构名”则需要先转化成英文再翻译过来。此外,还有一些实体虽然名称相同但实际上却并

19、不属于同一个类别。所以,如仅使用一个词去代表所有的实体显然是不合理的,必须要结合上下文才能够更好地理解它们之间的区别。本文采用的数据集中包含了26万条语料(每种类型的实体各选取一万),并且已经按照一定规则对语料中的实体及其关系进行标记。在本次实验中,我们将使用其中的50%作为训练样本来构建模型,剩余的50%用来验证模型的效果。由于医疗领域的命名实体数量较多,因此选择合适的方法显得尤为重要。目前,国内外学者针对这一问题提出了许多不同的解决方案,如:CRF、LSTM等。为验证所构建模型的效果,将其与传统方法进行比较,并采用准确率(Accuracy)、召回率(Recall)以及F值作为主要评价指标来

20、衡量不同模型在医疗领域中命名实体识别任务上的性能。其中准确率为正确识别出的实体数量占总数的比例;召回率为正确识别出的实体数量占所有被预测成实体的数量之比;F值是指精确度和召回率两者加权调和平均值,即:F值越大说明模型越好。相比于其他两种方法而言,BiLSTM_CRF模型具有最高的准确性,同时也能够达到较高的召回率及F值,因此该模型更适用于医疗领域的命名实体识别任务。3.2 实验环境在本次实验中,使用了Python语言、TensorFlow框架以及Keras深度学习库。其中,Python是一种通用型计算机程序设计语言;TensorFlow是一个开源机器学习框架,它可以让开发人员方便快捷地构建和训

21、练自己的应用程序,而且其提供的API非常丰富,能够满足各种各样的需求;Keras是一个用C+实现的深度学习工具包,具有很好的扩展性,同时也支持多种编程范式,本文采用Pyhton作为后端平台进行模型搭建,并将模型部署到Numpy计算平台上运行。此外,还需要对数据集进行预处理操作以便于后续的实验工作。首先,要把文本转换成向量形式存储起来,然后再通过分词器对文本进行分句,最后得到相应的标签序列。在这里我们使用了jieba分词组件,这是由百度公司推出的一款自然语言处理软件,该系统不仅功能强大、界面友好,而且速度快,占用内存少。它可以自动识别句子中的单词和短语等信息,并按照一定规则生成对应的标签序列。其

22、次,将训练集中的所有样本都输入到已经构建成功的神经网络结构中去,这样就完成了整个命名实体抽取任务。为了验证本文提出方法的有效性,采用准确率(Accuracy)、召回率(Recall)2个指标来衡量模型性能。其中,TP指被正确预测为实体的数量;FP表示被错误预测为实体的数量;FN则是未出现过的实体。最后,对实验结果进行可视化展示。3.3 实验结果在本次实验中,使用了2个不同的数据集进行测试。一个是来自NIST Web of Knowledge数据库中的医疗文本数据集(Dataset);另一个是来自CMU Penn Biomedical Laboratory的医学文献数据集(Documents)。

23、其中,前者包含10万条记录,后者包含50万条记录。为了验证模型的有效性,将这两个数据集中的实体分别作为训练和预测对象。由于本文所采用的模型是一种通用型的命名实体识别方法,所以对于每个数据集来说,都需要单独构建相应的模型来(下转第53页)DCWTechnology Analysis技术分析53数字通信世界2023.09表6 77 GHz边灯式探测雷达与射电天文干扰共存仿真参数 参数 值最大功率通量谱密度-227.3(dBW/(m2Hz)最大干扰总功率-198.2 dBW射电天文台接收天线增益0 dBi射电天文台天线高度25 m频率77 GHz边灯式FOD探测雷达发射功率-7 dBW塔架式FOD探

24、测雷达雷达高度0.5 m最小计算距离1 k m最大计算距离500 km每个机场雷达数量100、1 000环绕射电天文台机场数量1、10、205 计算结果根据上述模型及参数,计算得到在不同环绕射电天文台机场数量的保护间隔,如表7和表8所示。表7 不同机场与塔架式FOD探测雷达密度下的保护间隔频段环绕射电天文台机场数量保护距离(km)每个机场10台雷达保护距离(km)每个机场40台雷达77 GHz 1 37.2 38.4 2 37.8 39.094 GHz 1 36.1 37.1 2 36.6 37.7表8 不同机场与边灯式FOD探测雷达密度下的保护间隔频段环绕射电天文台机场数量保护距离(km)每

25、个机场100台雷达保护距离(km)每个机场400台雷达77 GHz 1 30.9 32.1 2 31.5 32.694 GHz 1 29.8 30.9 2 30.3 31.46 结束语按照分析数据,FOD探测雷达同天文台共存要求的保护间距最高为40千米,这时既可以满足塔架式探测雷达的需求,也可以满足边灯式探测雷达的需求。参考文献1 中华人民共和国无线电频率划分规定Z2023.2 房骥,林磊,等76-81GHz车载雷达与射电天文共存研究J数字通信世界,2018(02):10-12.3 民用机场跑道外来物探测设备无线电管理暂行规定的通知Z工信部联无202334号.完成任务3。因此,针对每一个数据集

26、,我们首先通过人工标注的方式获得实体名称,并按照一定的规则建立起该实体与其他实体之间的关系,然后再利用这些关系生成对应的语料库文件。最后,利用上述模型进行实验,得到最终的评价指标。4 结束语综上所述,本文设计了一种基于BiLSTM编码解码器结构的命名实体关系抽取模型,并通过实验证明其具有较好的性能。最后,对未来相关工作做出了展望:进一步完善命名实体识别模型,使得模型更加符合实际应用场景,从而提升模型的实用价值。将更多注意力放在命名实体关系抽取方面,以期为后续研究提供参考依据。参考文献1 韩振桥面向医疗领域的术语抽取与对齐平台的设计与实现D中国科学院大学(中国科学院沈阳计算技术研究所),2022.2 林建成中文电子病历实体抽取技术研究D兰州:西北师范大学,2018.3 陈德鑫基于深度学习的在线医疗信息抽取研究D武汉:武汉大学,2017.图1 基于命名实体识别工具的抽取技术与其他技术的对比实验图(上接第40页)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 综合论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报