收藏 分享(赏)

基于Neo4j的肺癌中医诊疗知识图谱构建研究.pdf

上传人:爱文献爱资料 文档编号:21789033 上传时间:2024-05-13 格式:PDF 页数:6 大小:1.99MB
下载 相关 举报
基于Neo4j的肺癌中医诊疗知识图谱构建研究.pdf_第1页
第1页 / 共6页
基于Neo4j的肺癌中医诊疗知识图谱构建研究.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 第二十五卷 第四期 Vol.25 No.4 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology 基于Neo4j的肺癌中医诊疗知识图谱构建研究徐安迎1,胡孔法1,2,杨涛1(1.南京中医药大学人工智能与信息技术学院 南京 210023;2.江苏省中医药防治肿瘤协同创新中心 南京 210023)摘要:目的基于Neo4j探究肺癌中医诊疗知识图谱构建。方法收集整理中国知网名老中医治疗肺癌医案的文献,采用自底而上的构建方式,运用BiLSTM-CRF、人工定义规

2、则、内容分析法和Neo4j技术构建肺癌中医诊疗知识图谱。结果共检索376篇名老中医治疗肺癌医案的文献,抽取实体有5901个,定义关系有5种,构建了“病-证-症-方-药”名老中医治疗肺癌医案的知识图谱。结论肺癌中医诊疗知识图谱能够更直观地呈现了肺癌医案中疾病、证候、症状、方剂、中药之间的关联,为深入开展肺癌领域相关研究和实体间潜在的关系发掘奠定一定基础。关键词:Neo4j 肺癌 知识图谱 名老中医doi:10.11842/wst.20220311005 中图分类号:R256.1 文献标识码:A近年来,肺癌的发病率随着现代生活质量的提高和环境的改变而逐年升高,成为世界上致命率高的疾病和威胁人类健康

3、的公共卫生问题1。中医药在肺癌治疗、术后调理等方面具有优势,研究表明中医药在治疗肺癌方面已经取得显著成效2-3,尤为显著的是名老中医治疗肺癌的疗效,因此,深入挖掘肺癌中医诊疗规律有着重要意义。知识图谱是人工智能领域最前沿的技术之一,其应用越来越得到中医药领域重视,学者们对中医药领域结合知识图谱开展了相关的研究4-7,但目前,对名老中医治疗肺癌医案的知识图谱构建鲜有人研究,尤其是融合证候、症状、方剂和药物等信息,因此,本研究尝试以名老中医治疗肺癌医案为研究对象,运用Neo4j图数据库技术,以可视化的方式呈现出名老中医治疗肺癌医案所包含的知识结构及其它们之间的联系,构建出名老中医治疗肺癌医案诊疗的

4、“病-证-症-方-药”知识图谱,为后期研究提供一定参考和借鉴意义。1 基本概念 1.1知识图谱知识图谱概念最早是Google于2012年提出并且应用在搜索引擎8。它是以“语义网络”为基础构建的一个知识库,能够捕获并呈现领域概念之间的语义关系9。构建方式主要分为自顶向下和自底而上两种方式10,其中自顶向下的构建方式是在将肺癌医案信息中各种实体加入到知识库前,需预先定义所需要的知识图谱模式;而自底而上方式是首先从医案信息中抽取出知识实体,然后再筛选出置信度较高的知识实体去构建顶层的模式11。它用于描述客观事物中的实体、实体与实体之间的关系,用节点表示语义符号,用边表示语义之间的关系,得到一个类似“

5、多关系图(multi-relational Graph)”的巨大语义网络12。本研究应用知识图谱主要是构建一个基于肺癌医案数据创建的多元“病-证-症-方-药”的混合型知识库,将疾病、证候、症状、方剂和中药等要素之间的多样组合规 收稿日期:2022-03-11 修回日期:2022-10-18 国家自然科学基金委员会面上项目(82074580):基于知识图谱的现代名老中医诊治肺癌用药规律及其机制研究,负责人:胡孔法。通讯作者:胡孔法,教授,博士生导师,主要研究方向:物联网与云计算、中医药人工智能与大数据分析研究。1456 Modernization of Traditional Chinese M

6、edicine and Materia Medica-World Science and Technology 世界科学技术-中医药现代化中医诊疗研究律直观地展示出来。知识图谱13一般将知识图谱表述为G=(E,R,S),E=e1,e2,e|E|是知识图谱中实体的集合,总计包含|E|种不同的实体;R=r1,r2,r|R|是知识图谱中关系的集合,包含|R|种不同关系;S属于ERE,代表知识图谱中三元组的集合。知识图谱中三元组集合的表现形式包含实体1,关系,实体2、实体,包含,属性等,知识图谱在本质上表示了实体之间的语义关系,是对现实世界中事物和关联的描述14。1.2Neo4jNeo4j是一个可以在

7、网络上而非表中存储结构化数据的高性能NoSQL图数据库15,可以存储包含节点和关系两种基本的数据类型,每个节点代表一个实体,可能包含0个或多个属性,关系表述两个节点间的关联,可以有属性16。它具有高性能、实用性强、轻量级等优点备受关注,也是目前最常用的图数据库17。节点、关系、属性和标签是构成Neo4j的4个基本组成部分,节点通常在Neo4j中是用“(ID:Label)”的形式来表示;用“”的形式来表示边。另外,Neo4j图数据库技术通过Cypher查询语言能够实现结构化编程,对节点、边进行增加、删除、修改和查询等基础性操作,从而实现了数据的导入、增加、删除、修改和查询等操作。2 基于Neo4

8、j的肺癌医案知识图谱的构建 2.1数据来源及构建思路本研究数据是选取中国知网(CNKI)数据库,以“TKA=(肺积+肺癌)AND SU=(名老中医+名老经验+经验)AND TKA=治疗”为检索式进行检索,检索时间为2016-2021年所有期刊文献,共检索376篇,共纳入符合要求的文献219篇。其中纳入标准:符合中医“肺癌”诊断标准的医案,诊断标准参照 中医内科学18教材;中医辩证、症状、方药组成明确的医案。排除标准:合并其他心脑血管及精神障碍等疾病的医案;中医辩证、症状、方药组成信息不完整的医案。本研究构建名老中医治疗肺癌医案知识图谱选取自底向上的方式,具体流程主要分为数据获取、知识抽取、知识

9、存储和知识可视化展示,构建思路首先是数据获取,对中国知网数据库检索名老中医治疗肺癌医案信息,对检索到的肺癌医案信息进行预处理,主要是剔除无效、无用、无关的数据;其次是将肺癌医案信息基于 BiLSTM-CRF 模型进行实体抽取和基于人工定义规则对实体关系抽取,接着将抽取后的知识基于内容分析法进行融合,最后利用Neo4j技术将实体和实体间的关系通过知识图谱形式展现出来,具体构建流程见图1。2.2基于BiLSTM-CRF和人工定义规则的肺癌医案知识抽取本研究针对名老中医治疗肺癌知识抽取,其目的是从清洗后的肺癌医案信息中抽取与肺癌诊疗相关知识,将肺癌医案词典与命名实体识别技术相结合,抽取出结构化的数据

10、,构造若干条型数据组合连接。本文采用 BiLSTM-CRF 模型对肺癌的医案信息进行实体抽取,抽取的实体主要包括证候、症状、方剂和中药。首先本文将收集到的医案信息进行jieba分词,如:“咳嗽咳痰,舌淡红”经过jieba分词后得“咳嗽”、“咳痰”、“,”、“舌淡红”。其次是将分词后的结果进行序列标注,采用BIO的表示方法,B代表的是开始的标记、I代表的是中间和结束的标记、O代表的是非实体的标记,如:“咳B-sym嗽I-sym咳B-sym痰I-sym,O舌B-sym淡I-sym红I-sym”。最后是生成字向量矩阵,采用word2vec方法对已经按要求完成相应标注的词进行嵌入19,在其作为BiLS

11、TM的输入层x,通过前向LSTM和后向LSTM将字组成词语,并获得每个词语对应实体类型的概率C,最终通过CRF层进行概率的计算,确定每个词语所属的实体类型,具体流程见图2。共抽取到5901个实体,其中证候图1名老中医治疗肺癌医案知识图谱构建流程图1457 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology 2023 第二十五卷 第四期 Vol.25 No.4 实体有280个,症状实体有1399个,中药实体有4501个,方剂实体有171个。表1为名老中医治疗肺癌

12、医案信息实体抽取结果示例20。实体关系抽取是构建名老中医治疗肺癌医案信息的知识图谱过程中的重要环节之一,通过查阅文献21,本文采用人工定义规则对医案信息中的实体关系抽取,定义的关系规则是采用“is_a”形式,定义了四类实体关系:is_ syn、is_ sym、is_ pre、is_tcm,其中定义is_ syn关系有280个,定义is_ sym关系有1698个,定义is_ pre关系有171个,定义is_tcm关系有901个。表2为名老中医治疗肺癌医案“实体-关系-实体”表。综上,基于BiLSTM-CRF和人工定义规则方法实现了对肺癌医案信息的实体抽取和实体关系抽取,图3为构建名老中医治疗肺癌

13、医案诊疗的“病-症-证-方-药”知识图谱的RDF模型。2.3基于内容分析法的肺癌医案知识融合本文通过 BiLSTM-CRF 和人工定义规则方法实现了对名老中医治疗肺癌医案信息的实体抽取和实体关系抽取,但由于名老中医治疗肺癌医案的文本复杂、隐晦的特殊性,这些数据可能还存在大量的冗余和错误信息,为此本文对其进行清理和整合,提高知识图谱的数据质量。通过翻阅相关文献,本文采用内容分析法22进行肺癌医案知识融合,结合国家制定中医临床诊疗术语标准23、中医临床常见症状术语规范24、中药学25和 中华人民共和国药典26,对抽取到的证候、症状等实体名称进行规范和统一,从而达到歧义、冗余和错误概念消除目的。如“

14、痰热阻肺证”、“痰热壅肺型”统一为“痰热壅肺证”。由于同种中药材经过不同方法处理会产生多种衍生药材,同类中药方剂由于制剂方法、药材成分的细微差异会衍生出不同的中药产品,为此参考 中药炮制学27,采用“实体-子实体”的知识融合方法28,如:法半夏、生半夏都是由半夏制备而成,炮制方法不同,具备不同功效(见表3)。2.4基于Neo4j的肺癌医案知识存储及可视化展示本研究采用Neo4j图数据库技术对RDF模型数据进行存储,构建名老中医治疗肺癌医案“病-证-症-方-药”知识图谱。利用Cypher语言命令对实体和实体关系进行设计并实现医案中医诊疗知识图谱的构建、查询和编辑,从而呈现出清晰的多元“病-证-症

15、-方-药”混合型知识图谱。Cypher语言命令的使用方法如下:用create命令将具体的疾病、证候、症状、方剂和中药节点创建,return命令用于检索节点的属性,如创建症状的多个节点并返回节点的属性:create(n:症状name:”胸痛”),(:症状name:”咳嗽”)return n。用match检索节点与节点的属性,再进行关系的创建,return 命令用于检索节点与关联关系的属性,如:match(a:证候 name:痰瘀互结证),(b:症状name:胸痛)create(a)-r:Symptom-(b)return r。除了这些命令外,以下命令也可以用于加工处理知识图谱,如where命令用

16、于提供条件过滤检索数据、delete命令用于删除节点及关系、remove命令用于删除节点和关系的属性。如删除节点关系:MATCH(n:疾病 name:肺癌)-r:上下位关系-(m:证候 name:阴虚毒热证)DELETE r。如用match、where和create创建节点关系:MATCH(a:疾病),(b:证候)WHERE a.name=肺癌 AND b.name=气血两虚证图2名老中医治疗肺癌医案知识抽取流程图1458 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Tec

17、hnology 世界科学技术-中医药现代化中医诊疗研究CREATE(a)-r:上下位关系-(b)RETURN r。图4为名老中医治疗肺癌医案知识图谱可视化展示,可以通过知识图谱展示发现,肺癌疾病可以关联到“气阴两虚证”、“痰热壅肺证”、“痰瘀互结证”等证候,证候可以关联到症状和方剂,方剂又可以关联到中药,从而构建出名老中医治疗肺癌医案的“病-证-症-方-药”的知识图谱。为了解决肺癌中医诊疗知识图谱关联过多的节点而影响可视化效果问题,为此,本研究将知识图谱按照中医疾病、证型、症状、方剂和中药分层次划分,并以不同颜色给予辨别,从而获得更清晰更有条理的展示效果。与常规的知识检索相比,知识图谱技术的优

18、势是能够快速地找到相关联的知识,构造出更加丰富、庞大的中医知识库,从而发掘出潜在关联的知识29。3 分析及讨论 名老中医治疗肺癌在中医药研究领域中产生大量的文献资料,同时随着医院信息化的发展和电子病历系统的普及,临床诊疗数据日益增多,名老中医治疗肺癌的证候、症状、方剂和中药等数据存在混乱、复杂的语义体系中,为此如何将这些零散、杂乱的医案信息进行挖掘并以可视化的方式直观地展示已成为中医药领域研究的热点问题。在当今大数据时代,知识图谱技术作为知识整合、储存、检索的有效工具,成为中医药领域必然的发展趋势。通过应用本文的研究方法和技术,构建出名老中医治疗肺癌医案的“病-证-症-方-药”的知识图谱,完成

19、了可视化展示和检索查询。该知识图谱能够将肺癌与辨证关联起来,通过肺癌和证候结合的方式来探讨肺癌的证候、症状,方剂,以及该方剂涉及到的药物组成,能够更好地挖掘出名老中医治疗肺癌的证候、症状的辨证及其用方、用药规律,为后续智能问答、辅助诊疗、决策支持研究进行初步探索。本研究是以名老中医治疗肺癌的医案为研究对象构建知识图谱,是对名老中医治疗肺癌的“病-证-症-方-药”知识进行结构化展示,更加直观、系统地展示肺癌知识间存在的关系,能够更加高效管理和利用中医药治疗肺癌的辨证方法及用药知识,为实现中医药治疗肺癌领域资源的整合和利用提供一定实践经验。因而未来研究将以本文所构建的肺癌中医诊治的“病-证-症-方

20、-药”知识为基础,进一步探索构建中医药治疗肺癌事理图谱,挖掘不同知识实体的核心处方,总结名老中医诊治肺癌用药规律和思路,为肺癌表1名老中医治疗肺癌医案信息实体抽取结果示例类别医案证候症状方剂中药数据信息患者手足少量红斑皮疹,神疲乏力,口干口渴,痰色黄量多质稠,胸闷气喘,舌暗红苔腻,脉细弱。辨证:气阴两伤,脾气亏虚,痰湿蕴肺。处方:黄芪30 g,麦冬15 g,紫菀20 g,浙贝母8 g,款冬花20 g,五味子30 g,桑白皮20 g,白花蛇舌草30 g,半枝莲30 g,莪术30 g,三七10 g,鳖甲25 g(先煎),党参50 g,旱莲草30 g,女贞子30 g,天龙3 g,蛇六谷3 g,薏苡仁

21、20 g,苍术30 g,茯苓30 g,白术30 g,制首乌30 g,浙贝母20 g气阴两伤证,脾气亏虚证,痰湿蕴肺证神疲、乏力、痰黄、口干、口渴,胸闷,气喘,舌暗红,舌苔腻,脉细弱无黄芪,麦冬,紫菀,浙贝母,款冬花,五味子,桑白皮,白花蛇舌草,半枝莲,莪术,三七,鳖甲,党参,旱莲草,女贞子,天龙,蛇六谷,薏苡仁,苍术,茯苓,白术,制首乌,浙贝母表2名老中医治疗肺癌医案“实体-关系-实体”表实体疾病证候证候方剂实体与实体关系is_synis_symis_preis_tcm实体证候症状方剂中药备注疾病-证候证候-症状证候-方剂方剂-中药图3构建名老中医治疗肺癌医案的知识图谱的RDF模型表3名老中医

22、治疗肺癌医案“实体-子实体”知识融合示例实体半夏白术白芍子实体生半夏、法半夏、清半夏、姜半夏生白术、炒白术、焦白术生白芍、酒炒白芍、土炒白芍、醋炒白芍1459 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology 2023 第二十五卷 第四期 Vol.25 No.4 的中医辨证及治疗提供一定的参考。4 结论 本研究通过对中国知网数据库中治疗肺癌文献检索,收集名老中医治疗肺癌的医案信息,并进行数据预处理,然后将处理好的医案信息通过BiLSTM-CRF模型对实体抽取

23、,通过人工定义规则对实体关系抽取,通过内容分析法对抽取到的知识进行融合,通过运用Neo4j技术建立了基于本体的知识库,对知识库进行结构化存储和可视化展示,并能进行多项查询和检索,为发掘和继承名老中医诊疗经验,为深入开展肺癌领域相关研究和实体间潜在的关系发掘奠定基础。参考文献 21王松,杨涛,胡孔法.基于CiteSpace的中医药治疗肺癌知识图谱可视化分析.世界科学技术-中医药现代化,2020,22(10):3549-3557.2兰央草,夏骏,王恬,等.中医药辅助化疗治疗晚期非小细胞肺癌的研究进展.中国医学创新,2021,18(36):184-188.3王翰华,杨扬,王强,等.基于痰证理论中医药

24、抗肺癌的研究进展.中成药,2021,43(11):3100-3104.4聂莉莉,李传富,许晓倩,等.人工智能在医学诊断知识图谱构建中的应用研究.医学信息学杂志,2018,39(6):7-12.5尹梓名,杜方芮,赵紫彤,等.基于临床指南的知识图谱构建技术研究.软件,2020,41(9):178-184.6王明强,张磊,崔一迪,等.利用Neo4j存储中医皮肤病“病-证-治”体方法的研究.世界科学技术-中医药现代化,2020,22(8):2914-2921.7陈善达,夏帅帅,邓文祥,等.基于Neo4j的冠心病中医辨证论治知识图谱研究.中国医药导报,2021,18(21):138-141.8邱均平,胡

25、文君,罗力.基于知识图谱的国际网络搜索引擎研究现状与前沿分析.图书情报工作,2010,54(24):89-94.9于彤,刘静,贾李蓉,等.大型中医药知识图谱构建研究.中国数字医学,2015,10(3):80-82.10 郎亚坤,苏超,王国中,等.基于Neo4j的C+课程知识图谱的构建和推理.智能计算机与应用,2021,17(7):144-150.11 刘峤,李杨,段宏,等.知识图谱构建技术综述.计算机研究与发展,图4名老中医治疗肺癌医案知识图谱可视化展示1460 Modernization of Traditional Chinese Medicine and Materia Medica-W

26、orld Science and Technology 世界科学技术-中医药现代化中医诊疗研究2016,53(3):582-600.12 曾伟桂.基于Neo4j的化工安全知识图谱构建研究.黑龙江科学,2021,12(16):17-19.13 徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述.电子科技大学学报,2016,45(4):589-606.14 曹皓伟,徐建良,窦方坤.基于Neo4j生物医药知识图谱的构建.计算机时代,2020,6:35-38.15 肖飞龙,张爽,胡志凌.基于Neo4j的疾病预防与控制知识图谱研究.电子技术与软件工程,2021,22:180-182.16 丁洪丽.基于 Neo

27、4 j图数据库的人员关系挖掘.电讯技术,2020,60(7):771-777.17 孙敏敏,毛雪岷.基于Neo4j的肺部疾病知识图谱构建.第十五届(2020)中国管理学年会论文集.2020:25-30.18 周仲瑛.中医内科学.北京:中国中医药出版社,2003:5-62.19 肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别.世界科学技术-中医药现代化,2020,22(7):2504-2510.20 蒋锐沅,莫春梅,满婷婷,等.全国名老中医荣远明教授运用益气养阴法治疗肺癌 EGFR-TKIs 耐药经验探析.时珍国医国药,2020,31(9):2265-2268.21 王菁薇,

28、肖莉,晏峻峰.基于Neo4j的 伤寒论 知识图谱构建研究.计算机与数字工程,2021,49(2):264-267.22 戎菲,佟旭,胡镜清.中医药知识图谱应用现状分析及痴呆痰瘀互结证知识图谱构建探索.世界科学技术(中医药现代化),2021,23(7):2454-2460.23 国家技术监督局.中医临床诊疗术语证候部分.1997:1-71.24 黎敬波,马力.中医临床常见症状术语规范.修订版.北京:中国医药科技出版社,2015:1-108.25 钟赣生.中药学.4版.北京:中国中医药出版社,2016:53-460.26 国家药典委员会.中华人民共和国药典.北京:中国医药科技出版社,2015:73

29、.27 郭建民,田源红.中药炮制学.北京:中医古籍出版社,2003:56-283.28 杨帅,王小红,赵志刚,等.COVID-19知识图谱构建与应用研究.青岛大学学报(工程技术版),2021,36(4):22-29.29 邓宇,周卫强,张振铭,等.基于名老中医医案的知识图谱构建.湖南中医杂志,2019,35(7):186-187.Construction of Knowledge Map of TCM Diagnosis and Treatment of Lung Cancer Based on Neo4jXu Anying1,Hu Kongfa1,2,Yang Tao1(1.School o

30、f Artificial Intelligence and Information Technology,Nanjing University of Chinese Medicine,Nanjing 210023,China;2.Jiangsu Collaborative Innovation Center of Traditional Chinese Medicine in Prevention and Treatment of Tumor,Nanjing 210013,China)Abstract:ObjectiveTo explore the construction of knowle

31、dge graph of TCM diagnosis and treatment of lung cancer based on Neo4j.MethodsThe literature on the treatment of lung cancer by famous veteran teran doctors of TCM in China Knowledge Network was collected and sorted,and the bottom-up construction method was adopted to construct the knowledge graph o

32、f lung cancer diagnosis and treatment of Chinese medicine by using BiLSTM-CRF,manual definition rules,content analysis method and Neo4j technology.ResultsA total of 376 literatures on the treatment of lung cancer by famous veteran teran doctors of TCM were retrieved,5901 entities were extracted,and

33、there were 5 kinds of defined relationships,and knowledge graph of disease-syndrome-symptom-recipe-drug of famous veteran teran doctors of TCM in the treatment of lung cancer was constructed.Conclusion The knowledge graph of famous old Chinese medicine treatment of lung cancer can more intuitively p

34、resent the relationship between diseases,syndromes,symptoms,prescriptions,and traditional Chinese medicines in lung cancer medical records,and lay a certain foundation for in-depth research on lung cancer and potential relationships between entities.Keywords:Neo4j,Lung cancer,Knowledge graph,Prestigious Chinese physician(责任编辑:刘玥辰)1461

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 综合论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报