收藏 分享(赏)

《信息检索与利用》课件网络信息资源检索.ppt

上传人:bubibi 文档编号:21726845 上传时间:2024-04-14 格式:PPT 页数:102 大小:9.28MB
下载 相关 举报
《信息检索与利用》课件网络信息资源检索.ppt_第1页
第1页 / 共102页
《信息检索与利用》课件网络信息资源检索.ppt_第2页
第2页 / 共102页
《信息检索与利用》课件网络信息资源检索.ppt_第3页
第3页 / 共102页
《信息检索与利用》课件网络信息资源检索.ppt_第4页
第4页 / 共102页
《信息检索与利用》课件网络信息资源检索.ppt_第5页
第5页 / 共102页
亲,该文档总共102页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、4网络信息资源检索n n4.1 网络信息资源概述n n4.2 搜索引擎n n4.3 开放获取4.1 网络信息资源概述网络信息资源概述 1.1.网络信息资源的定义:网络信息资源的定义:n n字面理解:“通过计算机网络可以利用的各种信息资源的总和”。n n具体理解:以数字化形式记录的,以多媒体形式表达的,分布式存储在网络计算机的存储介质以及各类通信介质上,并通过计算机网络通信方式进行传递的信息内容的集合。n n主体是internet 2.网络信息资源的特点网络信息资源的特点(1)数量庞大,增长迅速;(2)内容丰富,形式多样;(3)变化频繁,价值不一;(4)结构复杂,分布广泛;(5)信息分散、无序;

2、3.Internet3.Internet信息资源类型信息资源类型按信息查询方式按信息查询方式按信息查询方式按信息查询方式:(1 1)互联网(互联网(互联网(互联网(WWWWWW)信息)信息)信息)信息。(2 2)FTPFTP信息。信息。信息。信息。(远程服务器上可上传和下载的文远程服务器上可上传和下载的文件件信息信息)(3 3)TelnetTelnet信息信息信息信息(远程登录计算机上对外开放的(远程登录计算机上对外开放的信息)。信息)。(4 4)USENET/NewsgroupUSENET/Newsgroup信息信息信息信息(专题讨论(专题讨论组组/新闻组信息)。新闻组信息)。(5 5)US

3、TSERV/Mailing ListUSTSERV/Mailing List信息信息信息信息(电子邮件电子邮件群群/邮件列表信息邮件列表信息)。(6 6)GopherGopher信息信息信息信息。(菜单式(菜单式InternetInternet信息检索信息检索系统)系统)4.4.网络信息资源检索的一般方法网络信息资源检索的一般方法n n 网络信息网络信息检索方法检索方法分类目录分类目录偶尔发现偶尔发现顺顺“链链”而而行行主题检索主题检索RSS阅读阅读网上浏览网上浏览(目录型检索工具)搜索引擎搜索引擎(1)(1)布尔逻辑检索技术布尔逻辑检索技术就是布尔检索是将多个关键词按照一就是布尔检索是将多个

4、关键词按照一定的逻辑关系组合在一起形成的组合定的逻辑关系组合在一起形成的组合检索检索.这是计算机信息检索中最基本的这是计算机信息检索中最基本的也是最常用的技术。也是最常用的技术。5.计算机检索技术计算机检索技术布尔逻辑运算符布尔逻辑运算符逻辑逻辑“与与”逻辑逻辑“或或”逻辑逻辑“非非”逻辑逻辑“与与”AB用符号用符号“and”或或“*”表示,其逻辑表达式为:表示,其逻辑表达式为:A*B 或或 A and B 其意义为检索记录中必须同时含有检索词其意义为检索记录中必须同时含有检索词A和和B的文献,才算命中文献。的文献,才算命中文献。逻辑逻辑“或或”AB用符号用符号“or”或或“+”表示,其逻辑表

5、达式为:表示,其逻辑表达式为:A or B 或或 A+B 其意义为检索记录中凡含有检索词其意义为检索记录中凡含有检索词A或检索词或检索词B,或同时含有检索词,或同时含有检索词A和和B的,均为命中文献。的,均为命中文献。逻辑逻辑“非非”AB用符号用符号“not”或或“-”,其逻辑表达式为:,其逻辑表达式为:A not B 或或 A-B 其意义为:检索记录中含有检索词其意义为:检索记录中含有检索词A,但不能,但不能含有检索词含有检索词B的文献,才算命中文献。的文献,才算命中文献。举例:要检索“非儿童的心理测试”,对用户来说,需要包含“心理测试”的文献,但去掉那些包含儿童研究的文献。在心理学数据库可

6、检索到:心理测试43150 儿童11560 心理测试 NOT 儿童 1500 从图中可以看出从图中可以看出:逻辑“与”的组配缩小了检索的范围。参加逻辑“与”的检索词越多,检索的结果范围限制得越小,命中的文献也就越少。逻辑“或”的关系扩大了检索范围。用逻辑“或”组配相当于增加了检索词的同义词和近义词,从而扩大了检索范围。逻辑“非”的检索也是一种缩小检索范围的组配方式。但是使用逻辑“非”的组配时需要特别小心,常常会把有用的文献也排除掉。(2)(2)截词检索技术截词检索技术 截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。截词检索是一种常用

7、的检索技术,是防止漏检的有效手段。特别是在西文检索中,更是广泛使用。西文的构词比较灵活,在词干上加上不同性质的前、后缀就可以派生出许多新的词汇,而且这些词汇在意义上都比较相近。按截断的位置区分,可以有后截断、前截断以及中间截断(中间屏蔽)。也叫做右截断右截断,即将一个词的后方或右方截去有限或无限个字符,后截断检索也叫“前方一致前方一致”检索。如:comput*为无限后截断,可以检索包含以下词汇的文献:computable、computation、compute、computer、computers、computing、computerise、computerize后截断后截断n n如:comp

8、ut?则表示有限后截断,截03个字母,可检索出包含compute、computer、computers、computing等词汇的文献 前截断也叫左截断前截断也叫左截断。前截断的检索方法也叫“后方一致后方一致”检索。前截断检索常用于复合词。如:如:*magneticmagnetic(有磁性的,有吸引力的):(有磁性的,有吸引力的):为无限前截断的表达式,可检出包含下列词汇的文为无限前截断的表达式,可检出包含下列词汇的文献:献:magneticmagnetic、electromagneticelectromagnetic、electro-electro-magneticmagnetic、para

9、magneticparamagnetic(顺磁的)、(顺磁的)、thermo-thermo-magneticmagnetic(热磁的)等(热磁的)等。前截断前截断pp如:?经济 则数据库中含有经济、工业经济、农业经济等方面的文献均为命中文献。n n前截断与后截断也可以组合起来使用。如:*chemi*可以检出下列词汇:chemical、chemistry、chemist、eletrochemical、electrochemistry、physicochemistry、thermochemistry等。就是将提问字符串中间的字符用通配符代替,主要用于英式美式不同拼法的英文单词,或单复数不同的单词。

10、如:man woman organization defenseman woman organization defense men women organisation defence men women organisation defence 检索时为防止漏检可用中间屏蔽的检索方法:检索时为防止漏检可用中间屏蔽的检索方法:m?n wom?n organi?ation defen?em?n wom?n organi?ation defen?e中间屏蔽中间屏蔽注意:注意:pp无论是前截断、后截断和中间屏蔽,从根本上来说,无论是前截断、后截断和中间屏蔽,从根本上来说,它们是逻辑它们是逻辑“或或

11、”的运算,因此能扩大检索范围,的运算,因此能扩大检索范围,提高查全率。此外还能减少输入检索词的工作量,提高查全率。此外还能减少输入检索词的工作量,简化检索步骤,节省机时和费用。在中文数据库中简化检索步骤,节省机时和费用。在中文数据库中使用最多的是后截断检索。使用最多的是后截断检索。n n截词检索在不同的计算机检索系统中规定不同,使截词检索在不同的计算机检索系统中规定不同,使用时请注意。用时请注意。(3)字段限制检索字段限制检索 在检索系统中,为了提高检索的查准率,缩小检索的范围,通常有一些限制的手段和方法。使用这些方法进行的检索通常称为限制检索限制检索。常用的限制方法是字段限定。n n 数据库

12、中每条记录都有许多字段,将检索词限定在特定的字段中进行检索就叫做字段限定检索字段限定检索。n n各个检索系统的字段限制符可能并不一样,字段的标识符也有不同。有的系统不分前缀后缀限定,一律采用前缀或后缀检索。n n在菜单式驱动检索界面中,通常用户不需使在菜单式驱动检索界面中,通常用户不需使用限制符,只要在下拉菜单中选择某个字段用限制符,只要在下拉菜单中选择某个字段名称,在提问框中输入检索词,就可完成字名称,在提问框中输入检索词,就可完成字段限定检索段限定检索。4.2 搜索引擎搜索引擎1.什么是搜索引擎?什么是搜索引擎?搜索引擎其实是一个搜索引擎其实是一个网站,只不过该网站专门为你提供信息网站,只

13、不过该网站专门为你提供信息“检索检索”服务,是对互联网上的信息资服务,是对互联网上的信息资源进行搜集整理,并提供查询的系统。源进行搜集整理,并提供查询的系统。它包括信息搜集、信息整理和用户查询它包括信息搜集、信息整理和用户查询三部分。三部分。用户系统用户接口搜索器索引器检索器WWW信息资源FTP信息资源Telent信息资源Ghopher信息资源WAIS信息资源用户服务组信息资源搜索引擎网络网络2.搜索引擎的构成及工作原理搜索引擎的构成及工作原理n n 搜索引擎有两个主要的功能:搜索引擎有两个主要的功能:1、收集网络信息资源,对其进行索引并建立数据库。2、提供网络的信息导航与检索服务(主要的功能

14、)。3.搜索引擎的发展历史n n第一代搜索引擎是基于人工分类目录搜索,以早第一代搜索引擎是基于人工分类目录搜索,以早期的期的YahooYahoo、AltaVistaAltaVista和和InfoseekInfoseek等为代表等为代表n n第二代搜索引擎的主要特征是运用第二代搜索引擎的主要特征是运用“符号计算符号计算”,基于关键词搜索以及以关键词组合为基础的全,基于关键词搜索以及以关键词组合为基础的全文搜索和模糊搜索。以文搜索和模糊搜索。以GoogleGoogle、DirectHitDirectHit等为等为代表。代表。基于关键词搜索的优势是使用方便,搜基于关键词搜索的优势是使用方便,搜索速度

15、快,直接搜索内容,这是第一代搜索引擎索速度快,直接搜索内容,这是第一代搜索引擎无法比拟的。无法比拟的。n n第三代搜索引擎。第三代搜索引擎。不仅索引规模大,而且更多地不仅索引规模大,而且更多地结合了自然语言理解、个性化等智能化技术,有结合了自然语言理解、个性化等智能化技术,有人亦称这一时期的搜索引擎为人亦称这一时期的搜索引擎为4.发展中的搜索引擎n n整合搜索整合搜索 n n社区搜索社区搜索 n n移动搜索移动搜索 n n垂直搜索垂直搜索 5.搜索引擎的种类搜索引擎的种类 按信息搜集方法和服务提供方式目录型搜索引擎目录型搜索引擎关键词型搜索引擎关键词型搜索引擎元搜索引擎元搜索引擎(1 1)目录

16、型搜索引擎)目录型搜索引擎 以人工方式或半自动方式搜集信息,人工形成信息摘要,并将信息置于事先确定的分类框架中。使用户能通过浏览该目录,发现、检索到有关的信息。这种目录索引并非严格意义上的搜索引擎,仅仅是按一定标准分类的网站目录列表链接而已。这种目录浏览服务,信息大多面向网站。(2 2)关键词型(索引型)搜索引擎)关键词型(索引型)搜索引擎 是通过用户录入关键词来查找有关信息,这是通过用户录入关键词来查找有关信息,这种方式直接方便,并可使用逻辑运算符编制检索式,种方式直接方便,并可使用逻辑运算符编制检索式,对选定条件的资源准确定位。对选定条件的资源准确定位。n n优点优点 范围广范围广 更新快

17、,能及时向用户提供新增信息更新快,能及时向用户提供新增信息 检索方便、直接检索方便、直接n n缺点缺点 检索结果准确性差检索结果准确性差 有较多重复、虚假信息有较多重复、虚假信息 不同的搜索引擎检索界面、检索策略的构造和输入方不同的搜索引擎检索界面、检索策略的构造和输入方式不同式不同(2 2)关键词型(索引型)搜索引擎)关键词型(索引型)搜索引擎n n适合于检索特定的信息及较为专、深、具体或类属不明确的课题。n n典型代表:Google Google http:/www.google.chttp:/om 百度百度 http:/ 超搜索:http:/(已停用)(3)元搜索引擎元搜索引擎:6.6.

18、百度n n1999年底由李彦宏、徐勇创建于美国硅谷。n n2001年10月22日,百度正式发布Baidu搜索引擎。n n先进的超级链接分析技术、;n n内容相关度评价技术;n nWAP与PDA搜索服务;17.7.谷歌设置搜索偏好,包括每个网页上默认的搜索结果数量、界面语言,以及查询语言Google 的查询界面直接进入最符合搜索条件的网页短语搜索短语搜索逻辑逻辑“与与”功功能能逻辑逻辑“或或”功功能能逻辑逻辑“非非”功功能能上机题:利用谷歌检索内容包含上机题:利用谷歌检索内容包含“建筑设计建筑设计”,但不包括,但不包括“室内设计室内设计”的资料的资料 Google的高级命令检索的高级命令检索1.

19、site表示搜索结果局限于某个具体网站或者网站频道,如、,或者是某个域名,如、com等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。示例示例:搜索三联学院网站搜索三联学院网站()上所有包含上所有包含“金会庆金会庆”的页面。的页面。检索表达式:金会庆检索表达式:金会庆 site:site:。指定网域上机题:检索上机题:检索兰州工业高等专科学校网兰州工业高等专科学校网兰州工业高等专科学校网兰州工业高等专科学校网站内有关站内有关站内有关站内有关“毕业论文毕业论文毕业论文毕业论文”的所有信息。的所有信息。的所有信息。的所有信息。Google的高级命令检索的高级命令检索2.filet

20、ype:搜索特定类型的文件,格式为“关键词 filetype:文件的扩展名”。示例示例:(1)搜索包含关键词“电子商务”的word文件。检索表达式:电子商务 filetype:doc。(2)搜索包含关键词“搜索引擎”的PDF文件。检索表达式:搜索引擎 filetype:pdf。指定文件类型上机题:利用谷歌检索上机题:利用谷歌检索“建筑设计建筑设计“方面的方面的Word文档文档 Google的高级命令检索的高级命令检索(3)intitle:限制你搜索的关键词出现在网页标题中。示例示例:搜索网页标题中含有“信息检索”的网页。检索表达式:intitle:信息检索。(4)inurl:限制你搜索的关键词

21、出现在网页的url链接中。示例:示例:搜索网页url中含有“mp3”的网页。检索表达式:inurl:mp3。Google的高级命令检索的高级命令检索(5)link:表示可以得到一个包含了所有某个指定URL的页面列表。示例示例:搜索所有链接到google的页面。检索表达式:link:。Google“更多更多”功能功能GOOGLE其他功能GOOGLE翻译点击进入图像搜索图像搜索地图搜索地图搜索Google学术搜索学术搜索n nGoogle 学术搜索提供了一种可广泛搜索学术文献的简便方法,可以从一个位置搜索众多学科和资料的来源。n nGoogle 学术搜索的每一个搜索结果都代表一组学术研究成果。将这

22、些文章组合在一起,可以比较准确地衡量研究工作的影响力,并且更好地展现某一领域内的各项研究成果。学术搜索引擎学术搜索引擎GOOGLE大学搜索GOOGLE图书搜索GOOGLE音乐搜索GOOGLE视频搜索限定网域限定网域限定语种限定语种限定更新日期限定字词出现的位置检索相似网页键连功能限定检索词的匹配方式GOOGLE高级搜索GOOGLEGOOGLE使用注意事项使用注意事项n n简繁转换简繁转换简繁转换简繁转换 GoogleGoogle运用智能型汉字简繁自动转换系运用智能型汉字简繁自动转换系统,不是简单的字符变换,而是简体和繁体文本统,不是简单的字符变换,而是简体和繁体文本之间的之间的“翻译翻译”转换

23、。例如简体的转换。例如简体的“计算机计算机”会会对应于繁体的对应于繁体的“电脑电脑”。当您搜索所有中文网页。当您搜索所有中文网页时,时,GoogleGoogle会同时检索简体和繁体网页,并将搜会同时检索简体和繁体网页,并将搜索结果的标题和摘要转换成与搜索项相同的文本,索结果的标题和摘要转换成与搜索项相同的文本,便于您阅读。便于您阅读。n n词干法词干法词干法词干法 Google Google 现在使用现在使用“词干法词干法”。也就是说,。也就是说,在合适的情况下,在合适的情况下,GoogleGoogle会同时搜索关键词和与会同时搜索关键词和与关键词相近的字词。词干法对英文搜索尤其有效。关键词相

24、近的字词。词干法对英文搜索尤其有效。例如:搜索例如:搜索“dietary needsdietary needs”,Google,Google会同时搜会同时搜索索“diet needsdiet needs”和其它该词的变种。和其它该词的变种。GOOGLEGOOGLE使用注意事项使用注意事项n n忽略词忽略词忽略词忽略词:Google Google对一些网络上出现频率极高的英文单词,对一些网络上出现频率极高的英文单词,如如“i i”、“comcom”、“wwwwww”等,以及一些符号如等,以及一些符号如“*”、“.”等,作忽略处理。等,作忽略处理。使用英文双引号可使用英文双引号可使用英文双引号可使

25、用英文双引号可将这些忽略词强加于搜索项将这些忽略词强加于搜索项将这些忽略词强加于搜索项将这些忽略词强加于搜索项,例如:输入,例如:输入“WWWWWW的历的历史史”或或+WWW+WWW+的历史,会使的历史,会使“WWWWWW”强加于搜索项中。强加于搜索项中。n n通配符通配符通配符通配符 Google Google 不支持传统的通配符搜索,但可以用不支持传统的通配符搜索,但可以用“*”来替代单个完整字符,而且来替代单个完整字符,而且 “*”必须用必须用“”引起来。引起来。n n不区分英文大小写不区分英文大小写不区分英文大小写不区分英文大小写 Google Google 搜索不区分英文字母大小写。

26、所有的字搜索不区分英文字母大小写。所有的字母均当作小写处理。母均当作小写处理。GOOGLEGOOGLE使用注意事项使用注意事项n n自自动使用使用“andand”进行行查询:不需要在关键词之间加上“and”或“+”。如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行。n n用大写的用大写的“OR”表示逻辑表示逻辑“或或”操作操作。“或”操作必须用大写的“OR”,而不是小写的“or”。其他搜索引擎n n北大天网http:/ n狗狗http:/ n搜狗http:/ n新浪资料搜索检索技巧n n明确检索目的和要求,确定查询策略n n选择合适的网络检索工具 1、更换搜索引擎;2、区

27、分学术性检索工具和商业性检索工具,如Google Scholar/网络数据库。网络信息检索技巧n n提高检索的精度、准确性 1 1、选择合适的检索词选择合适的检索词选择合适的检索词选择合适的检索词,尽量使用专指词、特定概念,尽量使用专指词、特定概念或非常用词,避免普通词、泛指概念;或非常用词,避免普通词、泛指概念;2 2、构造恰当的检索提问构造恰当的检索提问构造恰当的检索提问构造恰当的检索提问,学会利用检索工具所规定,学会利用检索工具所规定的的ANDAND、OROR、NOTNOT等逻辑符、引号等检索符号。等逻辑符、引号等检索符号。3 3、使用限定条件、限定词使用限定条件、限定词使用限定条件、限

28、定词使用限定条件、限定词,充分利用检索界面上提,充分利用检索界面上提供的限制条件,如语种、时间、类型、数量等。供的限制条件,如语种、时间、类型、数量等。4 4、利用进阶、精练检索功能利用进阶、精练检索功能利用进阶、精练检索功能利用进阶、精练检索功能,“RefineRefine”或或“二次二次检索检索”。网络信息检索技巧n n扩大检索范围 1、使用同义词、近义词;2、使用多个搜索引擎或者元搜索引擎(All-In-One);3、利用某些搜索引擎的自动扩检功能,如“More like this”、“相关网页”等 网络信息检索技巧n n加快检索速度 1 1、直接进入相关站点;、直接进入相关站点;平日的

29、积累平日的积累 收藏夹和书签的利用收藏夹和书签的利用 2 2、利用特殊型网络检索工具和一些特色服务站点;、利用特殊型网络检索工具和一些特色服务站点;新闻、天气、交通、地图等新闻、天气、交通、地图等 3 3、多窗口浏览、检索;、多窗口浏览、检索;4.3开放存取n n开放存取(开放存取(Open AccessOpen Access)是国际科技界、学术界、出)是国际科技界、学术界、出版界、图书馆界为推动科研成果自由传播而发起的运动,版界、图书馆界为推动科研成果自由传播而发起的运动,其目的是促进科学信息的广泛传播,促进学术信息的交流其目的是促进科学信息的广泛传播,促进学术信息的交流与出版,提升科学研究

30、的公共利用程度,保障科学信息的与出版,提升科学研究的公共利用程度,保障科学信息的长期保存。长期保存。n n美国研究图书馆协会(美国研究图书馆协会(Association of Research Association of Research LibrariesLibraries,简称,简称ARLARL)将开放存取解释为在基于订阅的传)将开放存取解释为在基于订阅的传统出版模式以外的另一种选择,即通过新的数字技术和网统出版模式以外的另一种选择,即通过新的数字技术和网络化通信,任何人都可以及时、免费、不受任何限制地通络化通信,任何人都可以及时、免费、不受任何限制地通过网络获取各类文献,包括经过同行评

31、议过的期刊文章、过网络获取各类文献,包括经过同行评议过的期刊文章、参考文献、技术报告、学位论文等全文信息,用于科研教参考文献、技术报告、学位论文等全文信息,用于科研教育及其他活动,从而促进科学信息的广泛传播和学术信息育及其他活动,从而促进科学信息的广泛传播和学术信息的交流与出版,提升科学研究的被利用程度,保障科学信的交流与出版,提升科学研究的被利用程度,保障科学信息的长期保存。息的长期保存。开放存取主要实现途径开放存取主要实现途径n n开放存取期刊开放存取期刊 n n开放存取知识库开放存取知识库 上机实习题n n1 1、利用搜索引擎检索本专业某一专题的、利用搜索引擎检索本专业某一专题的doc/

32、pdf/pptdoc/pdf/pptdoc/pdf/pptdoc/pdf/ppt格式格式格式格式的文件各的文件各1 1篇(要求写出检索表达篇(要求写出检索表达式并注明命中文献的题名、作者、详细网址)。式并注明命中文献的题名、作者、详细网址)。n n2 2、利用搜索引擎搜索、利用搜索引擎搜索兰州工业高等专科学校兰州工业高等专科学校兰州工业高等专科学校兰州工业高等专科学校网站内网站内有关有关“毕业论文毕业论文毕业论文毕业论文”的所有信息,共有几条?写出检的所有信息,共有几条?写出检索检索步骤和表达式。索检索步骤和表达式。n n3、通过通过bbmao bbmao、Google Google 分别检索与专业相关的某分别检索与专业相关的某一专题,写出检索表达式及检索结果数;再用一专题,写出检索表达式及检索结果数;再用Google ScholarGoogle Scholar检索同一表达式,记录检索结果数,检索同一表达式,记录检索结果数,浏览并比较检索结果内容,说明其差别。浏览并比较检索结果内容,说明其差别。n n4.4.检索了解检索了解OCLCOCLC、DialogDialog系统。(要求用系统。(要求用200200以内以内汉字介绍其概况)。汉字介绍其概况)。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格考试 > 教师资格

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报