对比学习与图神经网络技术支持下信息抽取技术应用研究.pdf

资源描述

1、SOFTWARE2023软件第 44 卷第 9期2023 年Vol.44,No.9作者简介：马翊铭（2002），男，天津人，本科，研究方向：计算机科学与技术。对比学习与图神经网络技术支持下信息抽取技术应用研究马翊铭（武汉东湖学院，湖北武汉 430212）摘要：信息抽取技术是大数据时代精准获得信息的关键技术。在网络时代背景下，信息抽取的实时性、准确性和实名性极为重要，因此，在信息抽取时，实现对多元信息的筛选分析非常关键。通过文献研究与实践分析可知，对比学习和图神经网络技术的应用，有利于在信息抽取环节准确识别单词多义和单词缩写的信息，在实践中需分别构建模型，以便进一步实现信息抽取功能。关键词：

2、对比学习；图神经网络；关系抽取模型中图分类号：TP391 文献标识码：A DOI：10.3969/j.issn.1003-6970.2023.09.036本文著录格式：马翊铭.对比学习与图神经网络技术支持下信息抽取技术应用研究J.软件,2023,44(09):139-141Research on the Application of Information Extraction Technology Supported by Comparative Learning and Graph Neural Network TechnologyMA Yiming(Wuhan Donghu Univer

3、sity,Wuhan Hubei 430212)【Abstract】：Information extraction technology is a key technology for accurately obtaining information in the era of big data.In the context of the internet era,the real-time,accuracy,and real name of information extraction are extremely important.Therefore,achieving the scree

4、ning and analysis of multivariate information is crucial in information extraction.Through literature research and practical analysis,it can be concluded that the application of contrastive learning and graph neural network technology is beneficial for accurately identifying polysemy and abbreviatio

5、n information in the information extraction process.In practice,it is necessary to construct models separately in order to further achieve information extraction functionality.【Key words】：comparative learning;graph neural network;relationship extraction model设计研究与应用在大数据技术的支持下，互联网平台上的信息交互流通总量呈现出逐步加大的

6、趋势。根据 IDC 发布的数据时代 2025统计结果显示，全球数据的增长速度呈现出逐步加快的趋势，增速迅猛。据报告数据统计，截至 2025 年，全世界每人每天的互联网互动次数可达到 4909 次，较之 2020 年上升 300%，平均单次互动率达到每 18 秒 1 次。为更好地满足用户对数据抽取数据应用的需求，需要基于网络平台和对比学习图神经网络技术实现对批量数据的精准分析，有效抽取，以便利用信息，为用户提供更加科学、更加便捷的服务。1 关系抽取方法的对比分析关系抽取的过程需应用专业方法。现阶段关系抽取时常用的方法包括基于既定规则抽取、基于传统机器学习抽取、基于深度学习抽取。抽取过程要经历学习

7、和预测两个阶段1。其中，学习过程主要强调通过适当的训练方法训练出与当前语料库关系相符合的抽取模型，预测环节则主要是将已经训练好的关系抽取模型面向测试文本完成预测过程。关于深度学习方法的应用，主要依靠多样化的深度神经网络、卷积神经网络以及远程监督技术做支持。不同类型的关系抽取方法在应用时各有优劣，需要技术人员结合实践应用需求对不同类型的抽取方式进行对比分析，以便进一步合理选择关系抽取方法，进行应用如表 1 所示的三种典型关系抽取方法的优劣要点信息统计表。140软件第 44 卷第 9 期SOFTWARE表 1 常见关系抽取方法优劣信息对比表Tab.1 Comparison of advanta

8、ges and disadvantages of common relationship extraction methods基本方法典型方法优点缺点规则法LIEP 系统在特定的领域和语料库中预测精准度高人工成本高，不易移植机器学习法支持向量机可利用经验知识提高预测精准度训练样本需求量高深度学习法图卷积神经网络不易受人工干预，具有通用性参数总量大，训练时间成本高2 利用对比学习法构建命名实体识别模型2.1 模型形式化命名实体识别的主要目标在于从文本中直接抽取人名、地名或机构名等专有名词的信息。从本质上来说，模型形式化的过程是从文本语料库中抽取某个句子中的所有单词和词组，并且正确进行实体标签的分

9、配，例如人名单词或词组，一般会对应划分到人名实体类型中。2.2 模型结构分析在本文研究中，模型结构主要以 WCL-BBCD 模型为主。其基本结构呈现出网络层级组织的特征。主要包括三个基本组件：（1）WCL 模型；（2）BBC 模型；（3）DB Pedia 知识图谱。其中，WCL 模型在应用时，主要选择语义具有近似性的句子分别输入模型中得到不同句子中的对应单词词嵌入向量。随后，应用损失函数衡量其在向量表示空间内的相似程度。训练过程中，应用反向传播模式，按照梯度下降算法对模型参数进行优化，调整输出经过调整后的模型。而 BBC 模型的输入内容为语料库中的文本2。输入时，句子中的每个单词所属的实体类型

10、是其输入的主要内容。在模型中，包括了词嵌入层、BiLSTM 层和 CRF 层三个基本结构。在具体应用时，初步输入模块信息后，还需要通过科学方法对模块信息和实体类型进行优化修改。2.3 模型组件分析模型组件结构的合理性对于模型作用的发挥有重要影响。在本次研究中，模型组件主要是WCL-BBCD模型。本文重点对 BERT 这一核心模型的组建架构进行分析，此模型的性质为双向模型，模型结构中包括输入向量、隐藏层向量两部分向量信息。不同类型的向量信息通过模型结构的构件形成向量传递，部分向量还需要通过求和得到有效的数据信息。在模型组件分析中，需首先对模型架构进行充分明确，随后，再进一步对细节组件的功能发挥效

11、果进行研究。在这一模型中，句子的分词需要依靠 Bert-tokenizer。分析算法为 WordPiece算法，此种算法的实施步骤具体有：首先根据文本语料库信息构建仅包含单个字符的词典；随后，将需要从词典中选择的两个词语合并成一个新的词语，这时的词语被称为子词。若假设句子中的子词之间符合独立分布的规律，则句子的语言模型 Si的似然值就会与所有组词的出现频率相等。具体计算公式如式（1）所示：()(),1logPlognii jisP w=（1）在计算时，将处在相邻位置的子词 wi,j和 wi,j+1进行合并。合并后，可得到新词 wi,z。在这种情况下，具体的语言模型似然值还可进一步获得变化值，变

12、化值计算公式如式（2）所示：()()()()()()(),1,1loglogloglogi ji zi ji ji ji jP wP wP wP wP wP w+=()()()()()()(),1,1loglogloglogi ji zi ji ji ji jP wP wP wP wP wP w+=（2）在具体计算时需要注重应用好 WordPiece 算法对子词进行选择与合并。选择时，需要选择 si的语言模型四燃脂变化值中的最大值进行合并，选择数量为两个。这主要是由于这两个子词之间有非常紧密的关联，能够反映出子词在很大概率上会同时出现在同一文本中。而关于 BERT 模型的创新点，主要体现在训练

13、方法方面，在训练时主要通过捕捉单词和句子的嵌入向量达到训练目标，并且随机将相关数据放入训练样本中，由 Token进行遮盖，随机遮盖时，有 10%的 Token 会在遮盖的同时被替换为其他词语；另有 10%的 Token 可不被替换；其余的 80%词汇都会被替换为 MASK 形式。3 利用图神经网络法构建关系抽取模型3.1 模型形式化分析关系抽取过程的本质是将文本语料库中句子实体间的关系通过正确划分形成对应标签。例如，在句子中，人名和组织名属于从属关系，可在关系认证时将其规定为包含关系。在模型形式化研究中，主要应用REEGAT 模型实现词语嵌入编码器的操作，随后信息可由 BERT 转化为 RoB

14、ERTa，虽经过转化，但两种模型的输入信息仍然可保持一致，主要通过 TEi、SEi 以及 PEi 三种 Embedding 相加获得。在下文的研究中，通过应用 WCL-BBCD 模型中的符号进行进一步分析。3.2 模型结构分析模型结构在本文研究中分为三种形式：（1）嵌入层。嵌入层的基本结构包括 RoBERTa 模型以及 Embedding模型。其中，RoBERTa 模型与 BERT 模型基本一致，可实现双向输入，RoBERTa 模型输入的内容则主要为文本；而 Embedding 则主要用于将关系类型进行标注，并进一步实现对嵌入向量的训练。在输入关系的标141马翊铭：对比学习与图神经网络技术支持

15、下信息抽取技术应用研究签类别划分上，这一关系模型的输入关系标签为 id，输出则表现为关系嵌入向量。（2）GAT 模型。此种模型主要的功能在于加强词嵌入向量和关系嵌入向量之间的联系紧密度。应用多头注意力机制分别从词汇嵌入向量和关系嵌入向量两方面做加权计算。（3）实体嵌入组件，实体嵌入组件，主要功能在于将 CAD 模型输出经过加权后的3。3.3 模型训练分析关系抽取模型训练中，首先需要对抽取任务的基本性质进行明确。而关系抽取从本质上来说，属于对文本进行分类的过程，在文本分类实践中，又包含多个分类任务。在应用 REEGAT 模型进行模型训练时需要使用交叉熵损失函数作为基本公式进行数据计算，具体计算公

16、式如式（3）所示：()()()11_log1log 1NiiiiiREEGATlrrrrN=+（3）在公式（3）中，N 表示训练样本数量，ri表示句子si实体之间的关系结果数值，ri表示具体 si 实体键关系的预测结果。在开展模型训练时，主要采用 SGD 算法，对模型参数进行优化训练模型的关键要点包括嵌入向量、实体嵌入向量的构件、池化层的池化处理。池嵌入向量和关系嵌入向量的构建文本语料库中的信息筛选与关系标签标注。如图 1 所示为 REEGAT 模型训练框架图。池化层GAT实体1嵌入向量(1024维度)实体2嵌入向量(1024维度)REEGAT模型输出层句嵌入向量(1024维度)调嵌入向量(1

17、024维)WCL-BBCD关系嵌入向量(1024维度)PytorchEmbedding关系标签调嵌入向量(1024维度)RcBERTa文本语料库图 1 REEGAT 模型训练框架图Fig.1 REEGAT model training framework diagram4 实验分析研究4.1 数据预处理环节此环节主要针对所有数据完成预处理过程，采用 IOB标注法对原生英文数据进行标注。随后，再进一步实现对数据信息的转化，转化时，需应用科学的转化算法，分别从输入输出两个环节入手，进行数据的处理和转化。4.2 模型有效性的实验结果为验证模型性能需要实验分析，并且对比相关数据词嵌入组件、CRF 组件

18、、BiLSTM 组件需要联合应用。在具体进行对比模型设置时，需要把握以下几方面要点：（1）是 BiLSTM 设置时，应使用独立组建构建模型；（2）是 BiLSTM-CRF 设置时，需联合应用两种组件来构建模型；（3）是在构建细节组建时，需要结合嵌入组件中的包含元素分别与上述两个组件进行自主结合，组件应用和组合方式需保证形式结构丰富全面4。关于具体的实验结果。据对比分析可知，经过模型的重新构建和组合数据采集效率以及数据采集质量都获得了显著提升。如表 2 所示为模型消融实验中对比学习在命题实体识别中的有效性状态统计表。表 2 模型消融实验中对比学习在命题试题识别中的有效性分析统计表Tab.2 St

19、atistical table for the effectiveness analysis of comparative learning in proposition question recognition in model ablation experiments具体信息Precision RecallF1PrecisionRecallF1BERT-BiLSTM-CRF91.2491.52 91.3888.1688.82 88.49WCL-BBC91.4792.07 91.7788.6889.38 89.03性能提升状态0.25%0.60%0.43%0.59%0.63%0.61%通过表

20、 2 分析可知，在应用科学算法进行数据模型结构的优化后，系统性能都得到了显著提升。由此可推论，在应用图神经网络技术进行信息抽取时，相应的信息抽取效果和系统运行性能也必然会得到显著提升。5 结语通过本文分析可知，在信息抽取过程中，为提升抽取精准性需应用科学算法对数据信息进行筛选分析，而对比学习和图神经网络技术都需要搭建相应的数据平台，并且通过应用科学有效的学习方法和计算方法对多元信息进行筛选，尽可能通过精准筛选获得全面而准确的信息。这是批量信息读取中需要达到的重要目标，同时，也是体现出信息抽取技术含量的重要方面。参考文献1 余英杰.基于卷积神经网络的图片深度学习和人工智能技术在照片档案管理领域应用研究J.中国档案,2023(1):31-33.2 魏明珠,郑荣,高志豪,等.融合知识图谱和深度神经网络的产业新兴技术预测模型研究J.情报学报,2022,41(11):1134-1148.3 王相海,赵晓阳,王鑫莹,等.非抽取小波边缘学习深度残差网络的单幅图像超分辨率重建J.电子学报,2022,50(7):1753-1765.4 张嘉杰,过弋,王家辉,等.基于特征和结构信息增强的图神经网络集成学习框架J.计算机应用研究,2022,39(3):668-674.

展开阅读全文