收藏 分享(赏)

基于word2vec的内容过滤科技成果推荐模型研究.pdf

上传人:爱文献爱资料 文档编号:21790859 上传时间:2024-05-14 格式:PDF 页数:8 大小:1.11MB
下载 相关 举报
基于word2vec的内容过滤科技成果推荐模型研究.pdf_第1页
第1页 / 共8页
基于word2vec的内容过滤科技成果推荐模型研究.pdf_第2页
第2页 / 共8页
基于word2vec的内容过滤科技成果推荐模型研究.pdf_第3页
第3页 / 共8页
基于word2vec的内容过滤科技成果推荐模型研究.pdf_第4页
第4页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷 第 期 年 月武 汉理工大学学报(信息与管理工程版)().文章编号:()文献标志码:基于 的内容过滤科技成果推荐模型研究陈冬林吴天昊吴 江徐书情(.武汉理工大学 湖北省电子商务大数据工程技术中心湖北 武汉.武汉理工大学 经济学院湖北 武汉.武汉大学 信息资源研究中心湖北 武汉.武汉大学 电子商务研究与发展中心湖北 武汉)摘 要:针对科技成果转化难、提供方与需求方信息不对称等问题基于 构建了内容过滤推荐改进模型以期提高科技成果推荐效率和转化率 通过 对科技服务需求与科技成果的文本数据进行建模提取词向量再使用 方法提取关键词最后利用提取的关键词词向量的余弦相似度 值进行匹配以寻找出与科技服

2、务需求匹配的科技成果 利用公共科技服务平台“科惠网”的现代农业领域数据集对改进模型、均值 模型、模型、余弦相似度模型进行实验使用不同领域数据集进行对比分析 结果表明:改进模型在精确率、召回率、值、曲线及 值上表现较好具有较高的应用价值能够更好地帮助科技服务平台完成推荐关键词:科技成果内容过滤个性化推荐科技服务需求中图分类号:./.收稿日期:.作者简介:陈冬林()男教授研究方向为数字经济与产业数字化、商务智能、数字政府.基金项目:国家自然科学基金项目()国家自然科学基金青年项目().党的二十大报告指出:“创新是第一动力深入实施科教兴国战略、完善科技创新体系加快实施创新驱动发展战略”促进科技成果转

3、化对我国创新驱动发展战略具有重要意义 国家十分重视科技成果转化问题先后出台了一系列政策法规文件:年颁布了关于加强高等学校科技成果转移转化工作的若干意见 年发布了关于进一步加大授权力度促进科技成果转化的通知 科技成果包括专利、软著等具有实用价值的技术成果 随着科技成果数量不断增加海量的信息使用户难以筛选出需要的信息科技成果转化因此受阻 根据 年中国专利调查报告全国有效专利实施率仅为.依然有大量科技成果没有得到转化和产业化 同时企业也需要在重点领域获得科技成果增强企业竞争力 当前科技服务平台存在服务过程不规范、运营环境不确定等问题科技成果转化过程存在大量信息不对称导致难以直接进行转化科技成果推荐主

4、要基于题目、摘要或引文等内容完成推荐推荐内容往往无法满足用户需求一定程度上造成了科技成果转化困难 因此在科技成果领域内急需通过个性化推荐技术将相关科技成果推荐给具有实施产业化能力的需求方因此笔者结合已有研究基于 模型对内容过滤推荐模型进行改进改进模型能够向量化科技服务需求与科技成果的文本内容挖掘其潜在的语义信息并根据关键词的词向量相似性找出满足科技服务需求的科技成果以期将科技成果推荐给更多的需求方为科技服务需求提供精准的回应为科技成果转化提供有力支持 相关研究.科技成果推荐个性化推荐技术主要运用数据挖掘技术在用户活动记录中获取用户的兴趣特点再根据用户兴趣特点从数据库中搜索适合服务于用户需要的数

5、据进行推送 常见的推荐技术包括协同过滤推荐、内容过滤推荐、混合推荐 其中协同过滤具有适应性强、可解释性强等特点但目前科技服务平台中用户评分评价等反馈信息较少存在数据稀疏性问题且协同过滤单纯依靠评分进行计算无法保证推荐精度 内容过滤基于用户与项目的特征相似度进行推荐能够避免冷启动等问题但内容过滤往往存在过度特化和缺乏偶然性的问题 混合推荐方法缓解了协同过滤存在的数据稀疏性等问题同时具有精确度和多样性高的特点但存在难以建立数学模型、推荐过程较复杂等问题在科技成果领域徐勇等将内容过滤与概念泛化度量结合通过文献特征向量化帮助推荐具有一定的开创性为文献推荐提供了新思路冉从敬等引入了主题建模方法帮助推荐能

6、够兼顾技术重点和技术薄弱环节从而实现更好的推荐效果 等开创性地通过提取关键词并结合国际专利分类法为用户推荐相似度高的科技成果 等率先将层次索引引入到科技成果推荐系统中大幅提高了推荐的效率但上述方法大多未对推荐准确度提出要求且未深度挖掘科技服务需求的语义信息针对科技服务需求提供科技成果的推荐技术研究依然处于起步阶段 科技成果与科技服务需求数据集中包含大量的非结构化数据常用模型很难通过非结构化数据进行推荐 因此将内容过滤的思想引入深度学习 模型方法将非结构化的数据词向量化有望实现更加精准的推荐.词向量与 早期的文本信息处理方法主要为词袋模型即基于词频统计与词语位置构建词向量但当其应用到大的数据集时

7、向量维度会过高从而导致维度灾难 随着深度学习的大量实践应用基于词嵌入的文档表示法逐渐成为主流 年 等提 出 了 深 度 学 习 模 型“”来表示词向量该模型因具有非常高的实用价值而得到广泛应用 包含 和 两种词向量训练方法 其中 模型可以根据参数允许跳过一些词语与符号有助于理解复杂的语句 科技服务领域的语义较为复杂因此尝试使用 模型进行科技成果推荐模型训练科技服务数据集由大量的词语组成但只有小部分词语能代表文档大部分词语为噪声词语为了进行更精准的推荐需要进行文本分类提取文本关键词 笔者采用经典的文本分类方法即 提取科技服务需求与科技成果的关键词去掉噪音信息并通过词向量的相似度计算排序完成科技成

8、果推荐 基于 的内容过滤科技成果推荐框架 科技成果推荐框架如图 所示主要有两个模块:科技服务词向量处理模块、科技成果推荐计图 科技服务个性化推荐方法武汉理工大学学报(信息与管理工程版)年 月算模块 其中科技服务词向量处理模块包含两个部分:科技服务数据集的词向量训练、科技服务需求与科技成果的关键词词向量提取 成果推荐计算模块用来计算科技服务需求与科技成果的匹配度值.科技服务词向量处理模块.数据预处理对搜集的科技服务数据进行分词、词性标注使其能够被应用到模型中 分词与词性标注通过分词器来实现 选择 分词器采用默认精准模式同时对科技服务数据进行词性标注由于连词、方位词、叹词等词性难以展现科技服务需求

9、与科技成果的关键信息选择剔除掉这些词性再利用通用停用词表剔除停用词最后对分词结果做数据统计分析词频等以此作为关键词抽取的参考依据.法生成关键词在 算法中 表示词频即词语出现在文档中的次数 表示逆文档频率则权重 的计算公式为:():()()式中:表示词 归一化处理后的值表示词出现在文档中的总次数表示文档 中全部词语的总个数 为语料库中的文件总数:为包含词的文档数目为避免分母为零令分母为 :.词向量训练与提取 使用文本数据作为训练数据学习词的高维向量表示将词映射至指定维的高维空间中 改进模型使用 模型对科技服务数据集进行词向量训练得到词向量模型及科技服务词向量库然后从中提取关键词的词向量分别构成科

10、技成果关键词词向量库和科技服务需求关键词词向量库并进行后续处理.科技成果推荐计算模块改进模型利用开源工具 训练科技服务需求与科技成果的关键词的词向量并通过词向量计算余弦相似度 由式()和式()计算科技服务需求与科技成果的平均词向量()()式中:为该项科技服务需求的关键词词向量库中第 个关键词的词向量为该项科技成果的关键词词向量库中第 个关键词的词向量为该项科技服务需求关键词词向量在第 维度的平均值为该项科技成果关键词词向量的在第 维度的平均值 为该项科技服务需求的关键词词向量库的关键词数量 为该项科技成果的关键词词向量库的关键词数量然后利用式()计算任一项科技服务需求词向量 与任一项科技成果词

11、向量 的匹配度值()()()()式中:为向量的维度 代表向量 与向量 的数量积 最后将 值较大的前 个科技成果推荐给科技服务需求方个性化推荐模型的流程顺序为:遍历所有的文本数据对其进行数据预处理并分为科技服务需求文本数据与科技成果文本数据 利用 技术分别提取每个科技服务需求的前 个关键词及科技成果的前 个关键词 利用 技术对所有处理后的文本数据进行训练得到词向量库 使用提取出的 与 个关键词从训练出的词向量库中找到对应的词向量再计算科技服务需求及科技成果的平均词向量计算科技服务需求与科技成果的匹配度值将前 个科技成果推荐给科技服务需求方最后的推荐结果深度挖掘了科技成果与科技服务需求的潜在语义信

12、息解决了非结构化数据难以精准推荐的难题 实验及结果分析.实验评价指标为了验证算法的有效性采用 语言及 自然语言处理框架开展验证研究 科惠网是国内较为知名的科技服务平台使用科惠网的第 卷 第 期陈冬林等:基于 的内容过滤科技成果推荐模型研究相关数据计算改进模型下科技服务推荐性能指标基于相同的数据再利用均值 模型、模型、余弦相似度模型进行推荐分析对比 种推荐模型的精确率、召回率、值、曲线与 值等评价指标 其中精确率可以衡量推荐结果的正确性召回率可以衡量需求是否被推荐满足值则可以综合衡量推荐系统 曲线中纵坐标表示真样本中被判断为真的概率横坐标表示为假样本中被误判为真的概率 曲线可直观地展示结果值为

13、曲线下的面积 值越大预测精确度越高 在推荐系统中可以将推荐结果分为 类:是正类且被预测为正类即为真正类()是正类但被预测成为负类即为假负类()是负类但被预测成为正类即为假正类()是负类且被预测成为负类即为真负类()由此给出精确率()、召回率()、值的计算公式:()()().实验数据在科技服务领域交易形式往往为线上线下结合线上平台展示的描述往往较模糊且文本不完备在科惠网平台爬取了 个科技服务需求剔除了需求描述不完整的科技服务需求选择了现代农业领域的 个科技服务需求作为实验数据通过科技服务专家人工匹配科技服务平台中符合需求的科技成果形成数据集最终 个科技服务需求与 个科技成果完成匹配分别如表 和表

14、 所示.实验过程.实验环境与参数设置使用(.)对文本数据进行分析分别使用(.)、(.)对文本进行分词及词向量训练 训练参数设置如表 所示 由于科技成果为 条科技服务需求为 条每个需求推荐数量约为 故令推荐数量 .实验步骤具体实验步骤:将所有 格式的科技服务需求与科技成果放入文件夹对文件夹表 需求数据一览需求编号需求鲜食葡萄深加工、葡萄酒、果酒、饮料的生产技术高档优质水稻新品种培育及保优技术研发柑橘皮渣高效利用开发低热量食品关键技术研究与应用示范蔬菜集约化健康种苗生产技术大面积蔬菜栽培采收技术和加工技术蔬菜泡制关键技术研究及应用蛋鸡集约化养殖区域粪污生物有机肥资源化利用技术叶菜营养富硒稳控技术富

15、硒马铃薯规范化种植及深加工技术禽蛋加工副产物高值化绿色利用技术一种无公害增加土壤有机质的种植肥料硝基复合肥料新产品的研究开发核桃种植技术关键技术研究香菇智能化生产技术研究及品种选育香菇高效生产关键技术及精深加工产业化应用富硒香菇生产技术有机肥料生产工艺技术表 成果数据一览成果编号成果武汉地区葡萄设施栽培关键技术研究与示范一种便携式葡萄糖度近红外检测装置方便无损伤多用采果袋一种适用于流水线的葡萄粒径分类装置一种自动实现葡萄等级分类的装置高抗优质酿酒葡萄新品种产业化示范与推广高抗逆酿酒葡萄新品种及配套栽培、酿造技术新生料栽培香菇方法香菇智能工厂生产线一种香菇开放式及以菌柱式栽培方法一种工厂化生产香

16、菇透气菌包的方法表 参数设置参数参数含义设置值算法选择(为 为 )词向量的维数上下文窗口的大小词语出现的最小阈值内的科技服务文本数据用 分词器进行分词得到语料库()合并语料库形成总语料库 使用 对总语料库 训练词向量形成词向量库 利用 提取文件夹 内所有科技服务武汉理工大学学报(信息与管理工程版)年 月需求与科技成果文本数据的关键词并提取前、个关键词基于词向量库 计算每个科技服务需求与科技成果的平均词向量、通过词向量、计算每个科技服务需求与每个科技成果的匹配度值 并将科技成果按匹配度值 排序取 个形成推荐列表计算推荐精确率、召回率、值.实验结果面对不同领域关键词提取数量存在不同的最优策略为了提

17、高模型精确率首先提取不同数量的关键词进行实验通过控制变量来确定提取的关键词的数量 令 依次取、计算出推荐精确率如图 所示可以看出随着 值的不断增大推荐精确率逐步提高当 为 时推荐精确率达到最大随后当 为 时精确率下降因此取 图 时推荐精确率变化趋势当 时令 依次取、计算出推荐精确率如图 所示可知当 时随着 值增大推荐精确率逐步降低因此取 此时改进模型达到最优的推荐精确率图 时推荐精确率变化趋势取 观察改进模型在推荐科技成果数量为、时精确率、召回率、值 在同等条件下对均值 模型的推荐进行实验利用 模型对文本数据进行向量化即将科技服务需求与科技成果分别表示成词向量的形式计算词向量的匹配度为科技服务

18、需求推荐科技成果 此外基于相同的数据利用 提取科技服务需求与科技成果的关键词同样使用 建模的词向量进行匹配值计算并以此进行排序推荐最后利用 统计词频并向量化基于余弦相似度进行排序推荐 种推荐模型的精确率、召回率、值变化趋势分别如图 图 所示 由图 可知随着推荐数量的增加 种推荐模型的精确率都在下降当数量高于 时均值 模型推荐精确率无明显变化 模型缓慢下降而改进模型下降趋势逐渐减缓由此可见改进模型在推荐科技成果时总体精确率更高 由图 和图 可知在推荐科技成果数量为 时改进模型召回率和 值均优于其他 个模型图 种推荐模型的精确率变化情况图 种推荐模型的召回率变化情况图 种推荐模型的 值的变化情况第

19、 卷 第 期陈冬林等:基于 的内容过滤科技成果推荐模型研究为了更好地展示实验结果绘制 种模型的 曲线并计算了 值如图 所示可知改进模型展现了更好的推荐精度与稳定性值图 种推荐模型的 曲线与 值达到了.显著优于其他 种推荐模型为了验证改进模型在不同数据集下的一致性与有效性重新选取了 个不同行业领域的 个科技服务需求通过科技服务专家人工匹配科技服务平台中符合需求的科技成果形成数据集如表 所示 最终 个科技服务需求与 个科技成果完成匹配使用改进模型进行实验在参数调优后与农业领域数据集的结果进行对比验证改进模型在不同数据集中的一致性将 模型、模型、余弦相似度模型进行对比从而验证改进模型在不同数据集中的

20、有效性表 多种领域数据集需求编号需求行业领域相关科技成果/个发动机辅助制动系统先进制造与自动化鲜食葡萄深加工、葡萄酒、果酒、饮料的生产技术现代农业高档优质水稻新品种培育及保优技术研发现代农业阻燃防潮涂料新材料磷化工废水治理与循环利用关键技术研究环境与资源柑橘皮渣高效利用开发低热量食品关键技术研究与应用示范现代农业便于散热的电动车制动器先进制造与自动化蔬菜集约化健康种苗生产技术现代农业湖北长江源制药有限公司 配方颗粒和经典名方研究生物与新医药智能车灯技术先进制造与自动化新能源汽车整车控制器关键技术研究电子信息组网关键技术深化研究电子信息合计 改进模型在不同数据集中的精确率、召回率和 值如图 图

21、所示可知改进模型在农业领域及多种领域混合的数据集中都表现出了较好的精确率、召回率和 值其中在精确率上两种数据集表现相似但在召回率与 值上农业领域数据集表现出了更好的推荐效果因此改进模型在单一领域中推荐效果更佳多种领域数据集中种推荐模型的精确率、图 改进模型在不同数据集中的精确率图 改进模型在不同数据集中的召回率召回率和 值随推荐数量的变化如图 图 所示可知改进模型的精确率、召回率、值的表现都显著优于其他模型 因此改进模型不同数据集中均展现了较好的推荐性能综上当 为、为 时改进模型表现最优相 比 均 值 推 荐 模 型、模型、余弦相似度模型改进模型在精确率、召回率、值、曲线与 值武汉理工大学学报

22、(信息与管理工程版)年 月图 改进模型在不同数据集中的 值图 多种领域数据集中 种推荐模型的精确率随推荐数量的变化图 多种领域数据集中 种推荐模型的召回率随推荐数量的变化图 多种领域数据集中 种推荐模型的值随推荐数量的变化上展现了更好的推荐效果并且改进模型在不同的数据集中均展现了较好的推荐效果因此改进模型在现实中具有较高的应用价值 结论()针对科技成果转化难、提供方与需求方信息不对称等问题基于传统的内容过滤思想并引入深度学习 模型方法将非结构化的科技服务资源数据词向量化同时通过 方法提取科技服务资源的关键词并利用关键词词向量计算余弦相似度进行匹配更精确地寻找出与科技服务需求匹配的科技成果()改

23、进模型在科技服务需求关键词为 个、科技成果关键词为 个时精确率表现最佳在推荐科技成果数量为 个时精确率与 值表现最佳在推荐数量逐渐增加后精确率与 值逐渐下降而召回率逐渐上升在推荐精确率、召回率、值、曲线与 值上较传统方法均取得更优异的效果能够更好地满足科技服务平台的需求()改进模型在农业领域数据集与多种领域数据集中均取得了较好的推荐效果能够较好地满足科技服务平台的需求有助于解决科技成果转化过程中的大量信息不对称等问题帮助科技成果转化最终促进科研创新、企业发展()改 进 模 型 还 可 以 进 一 步 扩 展 在 建模的过程中还可以考虑各个参数的变化如维度、和 模型等从而进一步提高模型的推荐性能

24、同时改进模型还未应用到大的数据集中在大的数据集中验证后能够更加证明模型的实用性参考文献:习近平.高举中国特色社会主义伟大旗帜为全面建设社会主义现代化国家而团结奋斗:在中国共产党第二十次全国代表大会上的报告(年 月 日).求是():.王丽平代赓.科技服务对科技成果转化质量的作用过程.科技管理研究():.张喜征蔡月月罗文.基于模糊概念格的领先用户个性化知识推荐研究.科技管理研究():.杨欣曾珍香孙道贺.面向供需匹配的科技服务平台结构创新及特性研究.科学管理研究():.第 卷 第 期陈冬林等:基于 的内容过滤科技成果推荐模型研究 刘瑞明金田林葛晶等.唤醒“沉睡”的科技成果:中国科技成果转化的困境与出

25、路.西北大学学报(哲学社会科学版)():.赵辉化柏林何鸿魏.科技情报用户画像标签生成与推荐.情报学报():.耿立校晋高杰李亚函等.基于改进内容过滤算法的高校图书馆文献资源个性化推荐研究.图书情报工作():.刘君良李晓光.个性化推荐系统技术进展.计算机科学():.魏玲郭新悦.融合用户画像与协同过滤的知识付费平台个性化推荐模型.情报理论与实践():.查鲁.阿加沃尔.推荐系统原理与实践.北京:机械工业出版社:.陈伶红徐华中李鲍等.一种基于用户对项目属性偏好的推荐算法.武汉理工大学学报(信息与管理工程版)():.李冰王虎王锐.基于多样性选择因子的多目标混合推荐研究.武汉理工大学学报(信息与管理工程版)():.于蒙何文涛周绪川等.推荐系统综述.计算机应用():.徐勇司凤山吴延辉等.基于概念泛化的科技文献推荐算法.图书情报工作():.冉从敬宋凯.基于混合方法的高校专利个性化推荐模型构建.情报理论与实践():.():.:.:.:.王子一徐苏平商琳.非结构化数据的多粒度集成分类方法.南京航空航天大学学报():.彭俊利 谷 雨 张 震 等.融 合 单 词 贡 献 度 与 词向量的文档表示.计算机工程():.:.赵琳琳吴安彪袁野等.位置社交网络上的图表示学习.计算机学报():.:.:.武汉理工大学学报(信息与管理工程版)年 月

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 综合论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报