收藏 分享(赏)

基于关联规则挖掘的多学科知...——以新冠肺炎研究领域为例_温芳芳.pdf

上传人:爱文献爱资料 文档编号:13944909 上传时间:2023-05-08 格式:PDF 页数:9 大小:665.32KB
下载 相关 举报
基于关联规则挖掘的多学科知...——以新冠肺炎研究领域为例_温芳芳.pdf_第1页
第1页 / 共9页
基于关联规则挖掘的多学科知...——以新冠肺炎研究领域为例_温芳芳.pdf_第2页
第2页 / 共9页
基于关联规则挖掘的多学科知...——以新冠肺炎研究领域为例_温芳芳.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、收稿日期:20220714基金项目:国家社会科学基金一般项目“自引视角下学者研究兴趣的演化路径与迁移规律研究”(项目编号:20BTQ089)。作者简介:温芳芳(1984),女,副院长,副教授,博士,硕士生导师,研究方向:信息计量与科学评价。郑诗嘉(2000),女,硕士研究生,研究方向:信息计量与科学评价。信息计量与科学评价基于关联规则挖掘的多学科知识融合研究 以新冠肺炎研究领域为例温芳芳郑诗嘉(河南科技大学管理学院,河南 洛阳 471023)摘要:目的/意义 挖掘高强度关联学科,揭示多学科知识融合规律,有助于更好地把握和推动多学科知识融合。方法/过程 从 Web of Science 核心集获

2、取新冠肺炎主题论文,采用 Apriori 算法挖掘参考文献所属学科的频繁项集和强关联规则,揭示知识融合特征。以一项强关联规则为例,结合关键词聚类分析,识别该学科组合在知识融合后形成的热门主题。结果/结论 新冠肺炎研究的知识来源非常广泛,跨学科知识融合十分普遍,关联规则挖掘提供了一种识别和预测强关联学科组合及其知识融合趋势的新方案。关键词:知识融合;学科交叉;关联规则挖掘;Apriori 算法DOI:103969/jissn10080821202303015中图分类号G203文献标识码A文章编号10080821(2023)03014809Study on Multidisciplinary Kn

3、owledge Fusion Based on Association ule Mining Taking the esearch Field of COVID19 as an ExampleWen FangfangZheng Shijia(School of Management,Henan University of Science and Technology,Luoyang 471023,China)Abstract:Purpose/Significance Mining highintensity related disciplines and revealing the law o

4、f multidisciplinaryknowledge fusion will help to better grasp and promote multidisciplinary knowledge fusion Methods/Process Based onCOVID19 papers obtained from Web of Science,this study used the Apriori algorithm to mine the association rules of thereference subject category transaction set,and ob

5、tained frequent itemsets and strong association rules to analyze and predictthe combination of strongly related disciplines and their knowledge fusion characteristics in the field of COVID19 Takingone of the strong association rules as an example,combined with keyword clustering analysis,this paper

6、further identifiedthe hot topics formed by the multidisciplinary combination after knowledge fusion esults/Conclusions The knowledgesources of COVID19 research are very extensive,and interdisciplinary knowledge fusion is very common Association rulemining applied to citation analysis provides a new

7、solution for predicting and identifying strongly related subject combinationsand their knowledge fusion trendsKey words:knowledge fusion;interdisciplinary;association rule mining;Apriori algorithm新冠病毒全球肆虐,全世界的科学家都在开展应对这一重大公共卫生危机的相关研究。鉴于新冠肺炎疫情的突发性、复杂性和多变性,单一学科无力应对,需要多学科的交叉与融合。挖掘新冠肺炎研究领域的强关联性学科组合,并揭示其

8、知识融合特征,有助于科学家更好地开展跨学科研究,通过广泛的知识融合以便有效地应对新冠肺炎疫情带来的挑战。跨学科研究是不同学科领域之间知识的相8412023 年 3 月第 43 卷第 3 期现 代 情 报Journal of Modern InformationMar,2023Vol.43No.3互影响和渗透,从知识来源的多学科角度可以展示这一属性,一篇论文中参考文献的学科分布可以在一定程度上反映该论文吸收和整合来自不同学科知识的程度,因此,引文分析成为考察多学科知识融合的常用方法1。在传统的共被引分析以外,关联规则作为数据挖掘的经典模型,提供了考察多学科知识融合的一种新思路。基于新冠病毒论文所

9、包含的参考文献及其来源学科信息,通过关联规则算法计算多个学科共现的概率,据此挖掘出强关联性学科组合,在此基础之上结合关键词聚类方法揭示多学科知识融合所形成的热门主题,从而为考察新冠病毒研究的跨学科性以及该领域的多学科知识融合的规律与趋向,开拓出一种新的分析维度。1文献综述1)关联规则挖掘在文献计量学中的应用。关联规则挖掘是从大量数据中发现事物的特征或数据之间频繁出现的相互依赖关系和关联关系。邱均平等2 基于 AltmetricTOP 榜文献,采用 KMeans 聚类及 Apriori 算法的关联规则探讨了不同情况下的文献传播特征。阮光册等3 利用 Apriori 算法提取高关联主题词集,通过对

10、这些关联规则进行共词分析,挖掘出文献之间的知识关联。Li M N4 基于关联规则挖掘将共词分析与突发术语检测相结合,通过挖掘热门关键词与突发术语间的联系,探索技术预见相关研究的前沿和趋势。屈文建等5 运用双聚类分析方法进行作者与主题双向聚类,再运用关联规则挖掘算法,揭示了核心作者与前沿主题之间的关联关系。李海林等6 运用 Apriori 算法探究期刊论文引用过程中隐藏的关联规则。Xu M 等7 综合采用 LDA 模型和关联规则挖掘进行了新兴主题检测。周磊等8 从专利 IPC 规模和专利前向引用两个角度分别构建加权关联规则,建立基于加权关联规则的技术融合探测方法。2)基于引文分析方法的知识融合研

11、究。理论发展的知识基础很大程度上是通过学术研究中所引用的文献来反映的。在一定时期内,一个学科领域被已发表的论文所反复引用的文献代表了该学科相对活跃的知识成分9。参考文献的多样性从逻辑上来说是知识整合的最好测度,研究领域的引文表达了其他领域的知识和信息输入该领域的情况,可以很好地测度该领域知识与信息的交叉融合情况10。黄颖等11 指出,知识融合度是跨学科的核心特征,揭示了相关跨学科研究的内在知识基础,参考文献视角下的跨学科测度是当前跨学科测度的主要思路。Porter A L 等12 基于论文参考文献学科分布的“知识融合度(Integration)”指标,结合“专业度(Specialization

12、)”指标对研究人员的“跨学科度”进行测度和分析。李长玲等团队开展了跨学科知识组合识别方法的系列研究,从跨学科引用13、弱引文关系14 等多个维度进行跨学科潜在知识组合以及知识生产点识别。3)研究述评与本文的创新之处。当前,学科交叉与知识融合研究的重心正在从单纯地测度学科交叉度和知识融合度转向预测和识别潜在的学科交叉与知识融合。关联规则是数据挖掘领域的经典模型,在预测实体之间关联性方面具有重要价值,可以作为探索知识融合趋势的有效工具。关联规则挖掘在文献计量学已经有所应用,但尚未用于考察多学科知识融合问题。学科交叉与知识融合的主流研究仍是以共引、共被引等传统的引文分析,再结合主题模型、社会网络分析

13、及可视化等手段来实现,通过计算学科两两之间的相似性与关联度来考察学科交叉和知识融合现象,研究维度和方法有待进一步革新。鉴于此,本文以国际期刊上发表的新冠肺炎主题论文为对象,依据其参考文献的学科分布,采用关联规则挖掘方法考察新冠病毒研究领域的多学科知识融合特征。相较于以往研究,本文的研究重点和创新之处主要包括:一是采用关联规则挖掘方法对引文数据进行处理,计算多学科(组合)的共现概率,而不是仅仅测度学科两两之间的关联性。二是挖掘具有强关联性的学科组合,建立起知识输入与知识输出的关联,预测知识融合的趋向,识别潜在的知识生长点。2数据与方法2.1数据来源从 Web of Science(WoS)的核心

14、集合(SCIE/SSCI/AHCI)中获取发文及引文数据,世界卫生组织和国际病毒分类委员会分别将新冠病毒命名为“COVID19”和“SASCoV2”,本文以此为检索词,采用“COVID19 or SASCoV2”进行主9412023 年 3 月第 43 卷第 3 期基于关联规则挖掘的多学科知识融合研究wwwxdqbnetMar,2023Vol.43No.3题检索,文献类型限定为“Article”,文献发表的时间区间不作限制。检索时间是 2022 年 2 月 24日,共获得检索记录115 267篇,将其题录信息以全记录形式下载并汇总。经初步筛选,其中 516 篇论文不提供参考文献信息,将其予以剔

15、除,最终获得目标文献114 751篇,从目标文献的 C 字段中提取出4 483 881篇参考文献,将其中著录信息不完整的情况予以剔除,保留4 365 012篇。科学研究的过程,参考文献和目标文献分别被视为知识输入和知识输出,其中,参考文献所对应的学科被称为知识来源学科。为确定参考文献的归属学科,从JC(期刊引证报告)中下载期刊目录。期刊论文类的参考文献能够根据其来源期刊判断学科归属,而其他类型的参考文献,如报纸、专著、报告等,因没有统一的学科分类标准而难以判定其所属学科。据统计,样本集合中期刊论文类的参考文献共3 555 637篇,其他类型的参考文献仅占全部参考文献的 18.54%,本文只将具

16、有确切学科来源的期刊论文类参考文献纳入计量分析。2.2数据处理WoS 核心集共涵盖 252 个学科,目标文献的归属学科根据其题录信息中 WC 字段判定,据统计,新冠主题论文涉及全部 252 个学科。参考文献的学科归属还需结合每篇文献来源期刊的学科类别来判定,从 JC 数据库获得期刊的全称、缩写和学科类别,部分期刊信息还需要访问其主页进行手工补充,最后建立起“期刊全称期刊缩写所属学科类别对照表”。基于该对照表,利用 MySQL 数据库将所下载的参考文献根据其来源期刊映射至 1 个或多个 WoS 学科类别中,若一篇参考文献的来源期刊同时归属多个学科,相应的该篇参考文献被分别计入多个学科。共得到4

17、838 020条映射记录,分布在113 779篇目标文献中,成功匹配的参考文献占样本集合中参考文献总量的 87.87%,参考文献涉及 229 个学科。2.3关联规则挖掘方法关联规则挖掘是当前数据挖掘的主要模式之一,是指在给定数据集中查找存在于项目集合之间的频繁模式、相关性或因果结构,可以发现隐藏在数据之中不易被发现,甚至与人的意识相违背的关联事件15。本文采用经典的关联规则 Apriori 算法进行挖掘分析,涉及到的核心概念包括:事务集(transactset):每一条数据称为一个事务 tk,所有事务组成的集合 D=t1,t2,tn 称为事物集 D,事务集中所包含的事务数量为事务集的长度 D。

18、项集(itemset):事务中的元素称为项目 i,事务集 D 中所出现的全体项目组成的集合 I=i1,i2,im 称为项目集。I 的任何子集 X 称为 D 中的项目子集,X 中项目的数量为项目子集的长度 X,若 X=k,则称项目子集 X 为 K项集。支持度(support):设 tk 和 X 分别为 D 中的事务和项目子集,如果 Xtk 称事务 tk 包含项目子集X。全体事务集 D 中包含项目子集 X 的事务数,记为 x,x 在事务集 D 中所占的百分数(D 包含 X 的概率)称为事务集 D 对项目子集 X 的支持度,用support(X)表示,即 support(X)=x/lDI*100%;

19、可以设定一个最小支持度用 minsupport 表示。频繁项目集:对于某项目子集 X,若满足 sup-port(X)minsupport,则称 X 为频繁项目集。且若XY,Y 是频繁项目集,则 X 也是频繁项目集。置信度(confidence):设 X1、X2 为项目子集,并且 X1X2=,则全体事务集 D 中同时支持 X1与 X2(即包含 X1X2 项目子集)的事务数,在支持 X1 的所有事务中所占的比值(包含 X1 的事务中也包含 X2 的条件概率),称为 X1 与 X2 关联的置信度,用 confidence(X1,X2)表示,即 confidence(X1,X2)=support(X1

20、X2)/support(X1)*100%;可以根据关联规则挖掘需要指定最小置信度用minconfidence 表示。关联规则:对于规则 X1=X2,X1 称为前件,X2 称为后件。大于或等于最小支持度阈值和最小置信度阈值的规则叫做强关联规则。即需满足 sup-port(X1X2)=support(X1X2)minsupport 且confidence(X1X2)=support(X1X2)/support(X1)minconfidence。关联分析的最终目标就是要找出强关联规则。提升度(Lift):即 X2 在包含 X1 的事务集中出现的概率与 X2 在事务集 D 中出现的概率的比值,Lift

21、(X1X2)=confidence(X1X2)/support(X2)。0512023 年 3 月第 43 卷第 3 期现 代 情 报Journal of Modern InformationMar,2023Vol.43No.3Lift 反映了关联规则中的 X1 与 X2 的相关性,Lift1 且越高表明正相关性越高,Lift1 且越低表明负相关性越高,Lift=1 表明没有相关性。3研究结果3.1目标文献与参考文献的学科分布提取目标文献和参考文献的来源学科,分别计算各个学科包含的目标文献和参考文献的数量,根据目标文献与参考文献之间的对应关系,绘制出新冠论文的知识来源分布图。因页面限制,在 2

22、52 个学科当中,只显示了发表新冠论文数量前 10%的主要学科 25 个。如图 1 所示,箭头由目标文献学科指向参考文献学科,整体展示了新冠研究领域的知识来源学科的组成情况。图 1新冠论文参考文献的学科分布图1)新冠肺炎疫情是人类社会百年未遇的全球重大灾难,自暴发以后迅速引起了各个学科的共同关注。从目标文献的学科分布来看,研究主题非常广泛,涉及 252 个学科,覆盖了 WoS 核心集的全部学科类别。其中,发文量最高的学科是公共、环境与职业卫生,其次是多学科科学,说明综合类和多学科科学类国际期刊是刊载新冠研究成果的主要平台。此外,免疫学、医学内科、环境科学、传染病学等学科也发表了大量的新冠论文。

23、整体而言,新冠研究主力来自于自然科学,研究重点仍在医学领域。2)由参考文献的学科分布来看,新冠论文的知识来源非常广泛,其中,医学内科是最主要的知识来源学科,其次是公共、环境与职业卫生和多学科科学。综合类和多学科科学类期刊是新冠研究的主要知识交流载体,知识的输出和输入都非常活跃,既承载着大量的研究成果,也是重要的知识来源学科。此外,免疫学、传染病学、生化与分子生物学等也是新冠研究的主要知识来源学科。除了医学类专业以外,新冠肺炎研究所需的知识还来自于环境科学、精神病学、心理学等一些相近和相关学科。此外,还有大量其他的知识来源学科在图中未能显示,如古生物学、逻辑学、地质学等,尽管来自这些学科的参考文

24、献比例很小,但同样构成了新冠研究的知识基础。3)从目标文献学科与参考文献学科的知识流向来看,每一个目标文献学科都对应着多个参考文献来源学科,平均值为 153 个,说明知识来源的广1512023 年 3 月第 43 卷第 3 期基于关联规则挖掘的多学科知识融合研究wwwxdqbnetMar,2023Vol.43No.3泛性。从各学科的知识来源学科的组成结构来看,一般而言来自本学科的参考文献比例最大,但该比例仍在 20%以下,多达 80%以上的参考文献来自其他学科。如:免疫学论文的参考文献共覆盖 219个学科,本学科的参考文献占 15.51%,剩余 84.49%来自医学内科、多学科科学、传染病学等

25、 218 个学科。可见各个学科所发表的新冠论文,尽管研究视角不同,但都建立在多学科交叉与知识融合的基础之上。不只综合类和多学科科学类如此,各学科所开展的新冠研究普遍存在着广泛的多学科交叉与知识融合。3.2知识来源学科的关联规则挖掘每篇目标文献的参考文献对应的所有学科类别构成一条事务,一条事务中重复出现的学科类别只记录 1 次,表示该篇目标文献的知识来源学科的集合。113 779篇目标文献对应113 779条事务,将其导入 语言,采用 Apriori 算法进行关联规则挖掘,相关参数设置为 support=0.2,confidence=0.8,即输出支持度大于 0.2、置信度大于 0.8 的强关联

26、规则。首先得到 53 个符合条件的频繁项集,含 14 个频繁一项集、27 个频繁二项集、11 个频繁三项集和 1 个频繁四项集。文中不再全部展示,仅以其中的 1 个频繁四项集作为示例予以介绍,如表 1 所示,count 表示该学科组合在多少个事务中共同出现,support 表示支持度。表 1频繁四项集示例itemssupportcount 免疫学,传染病学,医学内科,微生物学0.249633128 403由表 1 中频繁四项集 免疫学,传染病学,医学内科,微生物学的 count 值和 support 值可知,这 4 个学科同时出现在28 403篇目标文献的参考文献列表中,占目标文献总量的 24

27、.96%。说明这 4个学科之间存在较强的知识关联,结成了新冠领域较为稳定的知识来源学科组合,相应的,这 4 个学科之间更易于发生跨学科的知识融合。传统的共被引分析方法多用来揭示两个学科之间的关联,而关联规则挖掘则可以同时反映单个学科或者多个学科之间的关联及其强度,尤其两个以上学科的关联规则挖掘,更适合于揭示知识来源的学科组合情况。如表 1 所示的频繁四项集,同时揭示出免疫学、传染病学、医学内科和微生物学 4 个学科之间频繁的知识融合与深厚的知识关联。针对上述 53 个频繁项集进行关联规则挖掘,共生成 37 条关联规则,涉及 11 个学科,全部关联规则的 Lift(提升度)值都大于 1,说明这些

28、关联规则中的前件与后件之间存在正相关性,Lift 值越高表明其正相关度越高,即当前件存在时,后件出现的概率更大。将全部关联规则及其相关数据用 语言画图进行可视化展示,如图 2 所示,每根自下至上带箭头的折线代表着一条关联规则,折线将作为前件的学科(组合)串联起来,最终指向作为后件(rhs)的学科。连线的粗细代表该项关联规则的置信度(confidence),连线越粗表示置信度越高;连线的颜色深浅代表支持度(support),颜色越深表示支持度越高。图 2关联规则的平行坐标图本文挖掘出的 37 条关联规则的详细信息在图 2 予以集中展示,纵坐标轴上的数字代表每项关联规则中包含的前件学科的数量,从“

29、3”引发的折线表示该关联规则共有 3 个前项,从“2”引发的折线则表示共有两个前项,从“1”引发的折线2512023 年 3 月第 43 卷第 3 期现 代 情 报Journal of Modern InformationMar,2023Vol.43No.3表示仅有 1 个前项。如微生物学、传染病学和免疫学 3 个学科所结成的学科组合作为前件,可以推导出医学内科为后件学科,即 微生物学、传染病学、免疫学=医学内科,该关联规则的置信度较大,表示前后件学科间关联性较强。本身微生物学、传染病学和免疫学能够结成前件学科组合,就说明这 3 个学科之间存在着深厚的知识关联,它们组合在一起作为前件与后件(医

30、学内科)之间存在较强的相关性。基于该项关联规则可以判定,如果一篇新冠论文同时引用了微生物学、传染病学和免疫学 3 个学科的参考文献,则该论文很大概率也会引用医学内科的参考文献。强关联规则所包含的多个学科之间更易于发生跨学科知识融合,由前件学科(组合)能推导出后件学科(组合),这就为科学家在新冠研究中选择知识来源和合作伙伴指明了学科方向。再如,图 2 中所显示的两项关联规则,细胞生物学=生化与分子生物学 和 生化与分子生物学=细胞生物学,细胞生物学和生化与分子生物学互为前后件出现在两项关联规则中。引用生化与分子生物学文献的论文大概率会引用细胞生物学的文献,而引用细胞生物学文献的论文大概率也会引用

31、生化与分子生物学的文献。作为生物学的两个分支学科,细胞生物学和生化与分子生物学之间存在着稳固的知识关联,彼此交叉融合的概率很高。但两项规则的置信度并不相同,说明学科之间的相关性并非一定是对称的。本文挖掘出的 37 条关联规则,有些前件学科和后件学科非常接近,但也有一些,如:公共、环境与职业卫生=医学:内科,从表面上看,前件和后件学科的关联性似乎并不是很强。所以,关联规则挖掘方法能够突破对于学科关系的惯性认知局限,不仅能够挖掘出相近学科之间的知识关联,也能挖掘出那些学缘关系较远、看似关联性不大的学科之间的相关性,这对于潜在学科组合及其知识融合的发掘和预测来说很有价值。3.3关联规则下的知识融合主

32、题识别通过关联规则挖掘出了强知识关联的学科组合,但这样的分析仍然停留在较为宏观的学科层面,只能回答“哪些学科易于发生知识融合”,而无法回答“多学科知识融合后形成的研究主题是什么”。结合关键词聚类方法,从微观层面识别多学科知识融合的主题,从而能够更深入具体地揭示知识融合规律。本文共挖掘出 37 条关联规则,选择其中置信度最高的关联规则 免疫学,医学内科,微生物学=传染病学 为例,考察多学科知识融合所形成的热门研究主题。先从该项关联规则的目标文献集合(参考文献列表中同时出现这 4 个学科的28 403篇论文)中提取关键词,然后对关键词进行人工规范化处理,包括去除无效词、同义词合并、单复数合并等,随

33、后选取频次大于 30 的高频关键词构建共词网络导入VOSviewer 进行聚类和可视化展示。如图 3 所示,节点代表关键词,节点大小表征词频,连线代表共词关系。图 3 包含了 6 个聚类,分别用 6 种不同的颜色予以区分,说明该项关联规则所涉及的免疫学、医学内科、微生物学与传染病学进行多学科知识融合以后形成了 6 个热点主题。#1 聚类(红色标识)围绕核心关键词“pandemic”,探讨与新冠有关的公共卫生与心理问题,研究范围较为广泛,涉及病毒空气传播、气溶胶、心理健康、抑郁症、艾滋病、远程医疗等多个主题;#2 聚类(黄色标识)围绕核心关键词“mortality”,关注老年人和基础病患者等易感

34、人群的感染、症状、抗体、免疫、死亡等问题,还涉及人工智能、深度学习等新技术在新冠疫情中的应用;#3 聚类(蓝色标识)围绕核心关键词“vaccine”,研究新冠病毒的机理、毒株、变异、蛋白及 TPC 检测等,重点在于新冠病毒检测和疫苗研发;#4 聚类(绿色标识)围绕核心关键词“ACE2”,关注新冠临床药物研制,主要从分子、微生物、生物信息等角度展开;#5 聚类(浅蓝色标识)是母婴主题,规模相对较小,聚焦新冠疫情下孕产妇和新生儿等特殊人群;#6 聚类(紫色标识)规模最小,且与其他 5 个聚类之间的知识关联很弱,作为一个相对独立的小型主题,主要研究味觉问题,即新冠感染者因器官受损而导致味觉丧失或减退

35、。3512023 年 3 月第 43 卷第 3 期基于关联规则挖掘的多学科知识融合研究wwwxdqbnetMar,2023Vol.43No.3图 3强关联学科组合的关键词聚类图综上,通过关联规则挖掘,发现了免疫学、医学内科、微生物学与传染病学作为一个强关联学科组合,跨学科的知识融合非常活跃。结合关键词聚类方法进一步发现,这 4 个学科同时向新冠领域输出知识,经融合以后形成了公共卫生与心理健康、易感人群、疫苗研发、临床药物研制、母婴患者、味觉退化等几个热点主题。同理,新冠领域的学者们在围绕这些主题开展研究时也需要同时从上述 4个学科获取知识,每一个主题都依赖于多个知识来源学科所提供的知识基础。例

36、如,新冠疫苗原本属于免疫学的研究问题,但疫苗设计步骤包括了靶抗原的合理选择、免疫增强佐剂的设计、体液免疫及细胞免疫类型调控,以及免疫流程的临床学优化等一系列复杂问题16。所以新冠疫苗研发所依赖的研究基础突破了免疫学的学科边界,需广泛借鉴医学内科、微生物学、传染病学等多个学科的知识。综上,科学研究的过程并非知识的简单拼凑和组合,而是在知识融合中创造新知识。多学科知识融合提供了科学研究所需的宽广的知识基础,新知识不断涌现,也孕育出了一系列新的学科生长点。4结论与讨论1)新冠肺炎研究依赖于多学科知识融合新冠病毒及其变异毒株的致病性和传染性极强,其感染人群之多、影响范围之广、传播速度之快、病理之复杂多

37、变,成为史无前例的全球性大流行病,带给全球科学家前所未有的挑战。为了应对这一挑战,科学研究的过程中需要更为广泛而深入的多学科知识融合。本文经过计量分析发现,新冠4512023 年 3 月第 43 卷第 3 期现 代 情 报Journal of Modern InformationMar,2023Vol.43No.3研究领域的知识输入和知识输出所覆盖的学科范围都十分宽广。一方面,目标文献的学科分布非常广泛,自然科学、工程学、人文、社会科学等的科学家都在积极抗“疫”,从不同维度探讨如何应对新冠疫情,发表的新冠论文覆盖了全部 252 个学科。从发文量来看,研究重心仍在医学学科,但是研究视角具有明显的

38、多元性特征;另一方面,参考文献的学科分布也非常广泛,对于大多数学科而言,来自本学科的参考文献尚不足 20%,大部分的参考文献来源于其他学科,每个学科的研究工作都依赖于多学科交叉融合所提供的宽广的知识基础。综合目标文献和参考文献的学科分布可以证实,新冠研究具有鲜明的多学科交叉属性,在多学科知识融合的基础上进行新知识的创造,是科学家应对新冠挑战的必然选择。2)新冠疫情使得知识融合的趋势进一步增强围绕新冠主题各个学科之间的边界变得非常模糊,每个学科的研究工作都建立在多学科交叉基础之上,单纯借助本学科的知识并不足以支撑起新冠肺炎这样重大复杂问题的研究,而必须从多个学科汲取必要的思想、理论、理念、方法、

39、技术、工具等,在多元化的知识场域内开展知识创新,进而产生新成果。这些成果又会作为知识素材被很多学科吸收和采纳,从而构成其他学科开展相关研究的知识基础。大科学时代,学科交叉与知识融合变得非常普遍,科学研究的过程也是知识融合的过程,尤其对于新冠肺炎这样的事关全人类安全与命运的重大突发问题,更加依赖于多学科交叉融合所提供的宽广的知识基础。在新冠肺炎研究领域,广泛的知识融合使得各个学科之间的边界进一步模糊,学科之间的依存度更高,不只相近学科之间,那些原本学缘关系较远的学科之间,也因新冠疫情而建立起知识关联。新冠疫情背景下所开展的科学研究,不仅充分彰显了大科学时代多学科交叉融合的特色,也进一步增强了多学

40、科知识融合的趋势。展现出来的新冠研究正如同一个生态系统,鲜花、灌木、乔木和谐共生,不同的学科相互依存、彼此支撑,构成完整的有机生命体,该领域也因广泛而深入的学科交叉和知识融合而展现出勃勃生机。3)关联规则挖掘提供了考察学科交叉和知识融合的新方案学科交叉是跨越学科边界的知识相互作用17,通过学科交叉和知识融合而创造新知识并用于解决复杂的科学和社会问题,代表着科学发展的新趋向,也成为科学研究的新范式。知识融合是其本质内容,学科交叉是其表现形式,知识创造则是最终目的。文献计量学常以引文为线索来考察学科之间的交叉融合现象,施引文献和被引文献分别被视为知识的输入和输出,传统的分析手段主要包括:以引用与被

41、引用关系追踪学科之间的知识流动,以引文耦合衡量学科之间的研究相似度,以共被引表征多学科知识的交叉融合。本文提出的研究方案实际上是采用关联规则挖掘这种经典的机器学习算法对共被引分析方法进行升级改造,旨在通过大数据方法为传统的引文分析赋能。传统的共被引分析仅以共被引频次来度量学科两两之间的关联强度,再辅之以聚类分析等方法展现学科知识结构。本文采用的关联规则挖掘与其存在相似之处,本质上都是借助文献之间的共被引关系来考察学科之间的知识关联,且关联规则挖掘的第一步也需要计算不同学科的共被引频次。尽管如此,基于关联规则挖掘的研究方案在一些方面明显不同于传统的共被引分析:一是计算方法不同,关联规则挖掘并不止

42、步于计算共被引频次,而是藉由置信度、支持度和提升度等指标,由前件学科(组合)推导出后件学科(组合)参与知识融合的概率。二是功能目标不同,本方案的主要目的在于挖掘出强关联规则学科组合,而非揭示学科知识结构。关联规则算法计算出某个学科(组合)存在时另一个学科(组合)出现的概率,借助概率值可以预测知识融合的趋势,识别出适宜融合的潜在学科(组合)。三是分析原理不同,关联规则中包含的学科数量不等,能够同时揭示多学科(两个以上学科)的知识关联,而以往的引文分析通常只计算学科两两之间的共被引关系及强度,相比较而言,关联规则挖掘方法适宜进行多学科组合的知识关联分析。此外,本方案较之传统的共被引分析还做出了一定

43、的改进。共被引分析和关联规则挖掘都只是从5512023 年 3 月第 43 卷第 3 期基于关联规则挖掘的多学科知识融合研究wwwxdqbnetMar,2023Vol.43No.3知识输入的角度揭示学科关联。本研究在提取出强关联学科组合的基础上,又从知识输出角度入手,从目标文献中提取出关键词,通过共词分析揭示出强关联学科组合在知识融合后能够形成的研究主题。因此,本方案建立起从知识输入到知识输出的关联用于考察多学科知识融合现象,虽不能解密从多学科知识融合到新知识产生的完整过程,至少回答了“哪些学科易于发生知识融合以及融合以后会形成哪些研究主题”的问题,这为进一步认识和把握知识融合的机理提供了一定

44、的参考借鉴,也在一定程度上深化和拓展了传统的引文分析的内容与功能。5结束语本文以新冠肺炎研究领域为例,基于关联规则挖掘探讨了多学科知识融合问题,在传统的共被引分析以外,提供了一种考察多学科知识关联性的新方案,挖掘出了具有强关联性的学科组合,识别了多学科组合所形成的热点主题,获得的结论和发现有助于进一步认识和把握多学科知识融合的规律与趋势。对于广大的科研工作者来说,能够为他们寻找合适的知识来源和潜在的合作伙伴指明方向,为他们攻克科研难点提供新的思路与灵感;对于管理者和决策者来说,便于他们更有针对性采取措施推动多学科之间的交叉融合,为科技创新源源不断地注入能量。本文在研究过程中仍存在一些不足:一是

45、未能深入剖析多学科知识融合的机理;二是研究结论和发现仅限于新冠领域,能否推广至其他领域还需进一步验证;三是关联规则挖掘与传统共被引分析方法的分析结果是否存在明显差异,尚未通过实证分析进行直接比较。后续研究将针对上述不足进行不断完善。参考文献 1 Karunan K,Lathabai H H,Prabhakaran T Discovering Interdis-ciplinary Interactions Between Two esearch Fields Using CitationNetworks J Scientometrics,2017,113(1):335367 2 邱均平,崔腾腾,

46、陈仕吉 基于聚类和关联规则的 AltmetricTOP榜文献特征分析 J 现代情报,2021,41(9):1221,63 3 阮光册,夏磊 基于词共现关系的检索结果知识关联研究 J 情报学报,2017,36(12):12471254 4 Li M N An Exploration to Visualize the Emerging Trends of Tech-nology Foresight Based on an Improved Technique of Coword Anal-ysis and elevant Literature Data of WOS J Technology An

47、aly-sis Strategic Management,2017,29(6):655671 5 屈文建,朱丽,虞逸飞 学术交叉领域的双向聚类及主题关联特征分析 J 情报科学,2021,39(7):3037 6 李海林,叶益,杨丽彬 基于关联挖掘的图情类主要期刊参考文献分析 J 情报科学,2019,37(6):8795 7 Xu M,Li G J,Wang X D Detecting Emerging Topics By Exploi-ting Probability Burst and Association ule Mining:A Case Studyof Library and Inf

48、ormation Science J Malaysian Journal of Li-brary Information Science,2020,25(1):4766 8 周磊,杨威 基于加权关联规则的技术融合探测 J 情报杂志,2019,38(1):6772,60 9 Antonioafael ,Jos N Changes in the Intellectual Struc-ture of Strategic Management esearch J Strategic ManagementJournal,2004,25(10):9811004 10 Porter A L,oessner

49、J D,Cohen A S,et al Interdisciplinaryesearch:Meaning,Metrics and Nurture J esearch Evalua-tion,2006,15(3):187195 11 黄颖,张琳,孙蓓蓓,等 跨学科的三维测度 外部知识融合、内在知识会聚与科学合作模式 J 科学学研究,2019,37(1):2535 12 Porter A L,Cohen A S,oessner J D,et al Measuring e-searcher Interdisciplinarity J Scientometrics,2007,72(1):117147

50、13 李长玲,高峰,牌艳欣 试论跨学科潜在知识生长点及其识别方法 J 科学学研究,2021,39(6):10071014 14 牌艳欣,李长玲,徐璐 弱引文关系视角下跨学科相关知识组合识别方法探讨 以情报学为例 J 图书情报工作,2020,64(21):111119 15 孙仙阁 数据挖掘技术在图书情报领域的应用与影响 J 情报探索,2009,(8):8587 16 ueckert C,Guzmn C A Vaccines:From Empirical Develop-ment to ational Design J PLoS Pathogens,2017,8(11):e1003001 17

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 自然科学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报