文献信息检索与利用??

2020-09-17 教育 101阅读
1、文献信息检索: 文献检索含义
(Information Retrieval),是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,所以它的全称又叫“信息的存储与检索(Information Storage and Retrieval),这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。
计算机信息检索,是指以计算机技术为手段,通过光盘和联机等现代检索方式进行信息检索的方法。与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要,一个善于从电子信息系统中获取信息的科研人员,必定比不具备这一能力的人有更多的成功机会,美国报道生活新方式的期刊POV 也将交互网络检索专家作为未来十大热门职业之一,这些情况都说明了计算机信息检索越来越重要,故值得大家对这一技术予以重视。
一次文献
(primary document):是指作者以本人的研究成果为基本素材而创作或撰写的文献,不管创作时是否参考或引用了他人的著作,也不管该文献以何种物质形式出现,均属一次文献。大部分期刊上发表的文章和在科技会议上发表的论文均属一次文献。
二次文献
(secondary document):是指文献工作者对一次文献进行加工、提炼和压缩之后所得到的产物,是为了便于管理和利用一次文献而编辑、出版和累积起来的工具性文献。检索工具书和网上检索引擎是典型的二次文献。
三次文献
(tertiary document):是指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的产物。如大百科全书、辞典等。
也有研究者在以上分类基础上再加上零次文献,它是指未经过任何加工的原始文献,如实验记录、手稿、原始录音、原始录像、谈话记录等。零次文献在原始文献的保存、原始数据的核对、原始构思的核定(权利人)等方面有着重要的作用。
文献信息检索或情报检索,是指将文献信息按一定的方式组织和储存起来,并能根据用户的需要取出所需特定信息的整个过程。它的全名为信息存储与检索。通常所说的信息查询或检索只是名称的后一半,或是"狭义"的信息检索。文献检索分为数据检索:以文献中的数据为对象的一种检索。如某公式、某化学分子式等。事实检索:以文献中的事实为对象,检索某一事物发生的时间、地点或过程 文献检索:以文献为对象,查找某个课题的有关文献的一种检索。
用检索标识与文献的存储标识相比,如果能够取得一致,就叫"匹配",就可得到"命中文献"。
文献检索语言
文献检索语言是一种人工语言,用于各种检索工具的编制和使用、并为检索系统提供一种统一的、作为基准的、用于信息交流的一种符号化或语词化的专用语言。因其使用的场合不同,检索语言也有不同的叫法。例如在存储文献的过程中用来标引文献,叫标引语言;用来索引文献则叫索引语言;在检索文献过程中则为检索语言。检索语言按原理可分为3大类:
(1)、分类语言
它是将表达文献信息内容和检索课题的大量概念,按其所属的学科性质进行分类和排列,成为基本反映通常科学知识分类体系的逻辑系统,并用号码(分类号)来表示概念及其在系统中的位置,甚至还表示概念与概念之间关系的检索语言。 《中国图书馆图书分类法》是我国图书分类法的基础,中图法把一切知识门类按"五分法"分为马列、毛泽东思想;哲学;社会科学;自然科学;综合性图书这五大部类。在此基础上建成由22个大类组成的体系系列。
(2)、主题语言
是指经过控制的,表达文献信息内容的语词。主题词需规范,主题词表是主题词语言的体现,词表中的词作为文献内容的标识和查找文献的依据
(3)、关键词语言
指从文献内容中抽出来的关键的词,这些词作为文献内容的标识和查找目录索引的依据关键词不需要规范化,也不需要关键词表作为标引和查找图书资料的工具。 (4)、自然语言:
指文献中出现的任意词。
文献检索途径
(1)、著者途径
许多检索系统备有著者索引、机构(机构著者或著者所在机构)索引,专利文献检索系统有专利权人索引,利用这些索引从著者、编者、译者、专利权人的姓名或机关团体名称字顺进行检索的途径统称为著者途径。
(2)、题名包括书名、刊名、篇名等途径。
一些检索系统中提供按题名字顺检索的途径,如书名目录和刊名目录。
(3)、分类途径
按学科分类体系来检索文献。这一途径是以知识体系为中心分类排检的,因此,比较能体现学科系统性,反映学科与事物的隶属、派生与平行的关系,便于我们从学科所属范围来查找文献资料,并且可以起到"触类旁通"的作用。从分类途经检索文献资料,主要是利用分类目录和分类索引。
(4)、主题途径
通过反映文献资料内容的主题词来检索文献。由于主题法能集中反映一个主题的各方面文献资料,因而便于读者对某一问题、某一事物和对象作全面系统的专题性研究。我们通过主题目录或索引,即可查到同一主题的各方面文献资料。
(5)、引文途径
文献所附参考文献或引用文献,是文献的外表特征之一。利用这种引文而编制的索引系统,称为引文索引系统,它提供从被引论文去检索引用论文的一种途径,称为引文途径。
(6)、序号途径
有些文献有特定的序号,如专利号、报告号、合同号、标准号、国际标准书号和刊号等。文献序号对于识别一定的文献,具有明确、简短、唯一性特点。依此编成的各种序号索引可以提供按序号自身顺序检索文献信息的途径。
(7)、代码途径
利用事物的某种代码编成的索引,如分子式索引、环系索引等,可以从特定代码顺序进行检索。
(8)、专门项目途径
从文献信息所包含的或有关的名词术语、地名、人名、机构名、商品名、生物属名、年代等的特定顺序进行检索,可以解决某些特别的问题。
文献检索方法
(1)、直接法
又称常用法,是指直接利用检索系统(工具)检索文献信息的方法。它又分为顺查法、倒查法和抽查法。
(1)顺查法
顺查法是指按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献,它适用于较大课题的文献检索。例如,已知某课题的起始年代,现在需要了解其发展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查找。
(2)倒查法
倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献检索的方法。此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。
(3)抽查法
抽查法是指针对项目的特点,选择有关该项目的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。
(2)、追溯法
是指不利用一般的检索系统,而是利用文献后面所列的参考文献,逐一追查原文(被引用文献),然后再从这些原文后所列的参考文献目录逐一扩大文献信息范围,一环扣一环地追查下去的方法。它可以像滚雪球一样,依据文献间的引用关系,获得更好的检索结果。
(3)、循环法
又称分段法或综合法。它是分期分交替使用直接法和追溯法,以期取长补短,相互配合,获得更好的检索结果。
文献检索步骤
文献检索是一项实践性很强的活动,它要求我们善于思考,并通过经常性的实践,逐步掌握文献检索的规律,从而迅速、准确地获得所需文献。一般来说,文献检索可分为以下步骤:
(1)明确查找目的与要求。
(2)选择检索工具
(3)确定检索途径和方法
(4)根据文献线索,查阅原始文献
手工检索工具
指印刷型检索工具,主要有以下类型:
(1)、目录、索引、文摘 目录,也称书目。它是著录一批相关图书或其它类型的出版物,并按一定次序编排而成的一种检索工具。 索引,是记录一批或一种图书、报刊等所载的文章篇名、著者、主题、人名、地名、名词术语等,并标明出处,按一定排检方法组织起来的一种检索工具。索引不同于目录,它是对出版物(书、报、刊等)内的文献单元、知识单元、内容事项等的揭示,并注明出处,方便进行细致深入的检索。 文摘,是以提供文献内容梗概为目的,不加评论和补充解释,简明、确切在记述文献重要内容的短文。汇集大量文献的文摘,并配上相应的文献题录,按一定的方法编排而成的检索工具,称为文摘型检索工具,简称为文摘。
(2)、百科全书 参考工具书之王。它是概述人类一切门类或某一门类知识的完备工具书,是知识的总汇。它是对人类已有知识进行汇集、浓缩并使其条理化的产物。百科全书一般按条目(词条)字顺编排,另附有相应的索引,可供迅速查检。
(3)、年鉴 按年度系统汇集一定范围内的重大事件、新进展、新知识和新资料,供读者查阅的工具书。它按年度连续出版,所收内容一般以当年为限。它可用来查阅特定领域在当年发生的事件、进展、成果、活动、会议、人物、机构、统计资料、重要文件或文献等方面的信息。
(4)、手册名录 手册,是汇集经常需要查考的文献、资料、信息及有关专业知识的工具书。 名录,是提供有关专名(人名、地名、机构名等)的简明信息的工具书。
(5)、词典(字典) 词典是最常用的一类工具书。分为语言性词典(字典)和知识性词典。
(6)、表谱、图录 表谱,采用图表、谱系形式编写的工具书,大多按时间顺序编排。主要用于查检时间、历史事件、人物信息等。 图录,包括地图和图录两类。
(7)、类书、政书
文献检索的类型:
1.数据检索:以文献中的数据为对象的一种检索。如查找某种材料的电阻,某种金属的熔点;
2.事实检索:以文献中的事实为对象,检索某一事件发生的时间,地点,或过程;如查找鲁迅生于某年?
3.文献检索:以文献原文为检索对象的一种检索。
文献检索的手段:
1.手工检索。
2.计算机检索。
中国期刊网
1 中国期刊网专题全文数据库包括有几个专辑?中国期刊网专题全文数据库共包括理工A、理工B、理工C、农业、医药卫生、文史哲、经济政治与法律、教育与社会科学、电子技术与信息科学等九个专辑。
2 中国期刊网专题全文数据库共有几个检索字段?中国期刊网的检索方法包括13个检索字段,它们是篇名字段、作者字段、关键词字段、主题词字段、机构字段、中文刊名字段、中文摘要字段、引文字段、基金字段、全文字段、年份字段、期数字段和ISSN字段。
3 中国期刊网专题全文数据库共有几个基本检索字段?在13个检索字段中,篇名、文摘、关键词、主题词和全文字段属于基本字段,可用于从主题角度查找相关文献。
4 中国期刊网专题全文数据库共有几种检索方法?共有三种检索方法。它们是: 1)分类导航。利用系统提供的专辑栏目及其展开的分类导航树查找相关文献,适用于对一个学科的文献做全面调查的场合。 2)初级检索。是利用检索项对某个指定字段进行的检索。 3)高级检索。是指设置多个检索条件和逻辑组合关系,查找同时满足这些条件和逻辑关系的文献。
5 什么是中国期刊网专题全文数据库的二次检索?它是否只能检索二次?二次检索是在前次检索结果的范围内再次进行查找,以达到缩小检索范围,使检索结果逐步接近课题要求的目的。其作用相当于在前后两次检索之间做逻辑与(AND)运算。不管是初级还是高级检索界面,只要检索结果的篇数允许,二次检索可以反复做,直到满足课题要求为止。
6 中国期刊网专题全文数据库的初级检索和高级检索的区别在那里?区别在二个方面: 1)检索的字段数量不同。初级检索的字段数量只有一个,因此,它每次只能检索对一个检索字段的检索词进行检索。高级检索的字段有两个,它可以同时对两个不同的检索字段的检索词进行检索。 2)检索的布尔逻辑算符不同。初级检索的字段数量只有一个,即利用二次检索对前一次检索结果的"与"检索。在高级检索中除了可以利用的字段有两个,利用二次检索对前一次检索结果的"与"检索之外,它可以同时对两个不同的检索字段的检索词进行"或"和检索。
7 中国期刊网专题全文数据库的全文浏览器有什么作用?中国期刊网的CAJ 全文浏览器的作用是为了浏览这个数据库的全文使用的。支持中国期刊网全文数据库中全文CAJ文件的浏览器(需要WINZIP解压),它可以在该数据库首页上下载。如果事先在计算机上没有安装这个浏览器,将无法阅读该数据库的全文。
互联网信息检索原理
1.从信息利用的角度考察,互联网信息资源由哪三方面构成?答:从信息利用的角度考察,互联网信息资源由连接在网上的计算机中的无数信息、网上的各种信息工具以及网络通信渠道三方面构成。
2.简述网络信息资源的特点。答:网络信息资源的特点是数量庞大、增长迅速;更新频繁、变化无常、分布散乱;良莠混杂。
3.如何正确认识网络信息与印刷性出版物在出版类型上的对应关系?按照出版类型区分,网络信息资源有着和印刷型出版物类似的对应关系。例如,印刷型的期刊有网络期刊与其相对应,印刷型的图书有网络图书与其相对应,印刷型的报告有网络报告与其相对应,如此等等。这种对应关系,仅限于我们对网络文献信息类型的认识,不能应用于具体的文献。例如,早期的印刷型文献一般不会有网络形式,多数的当前印刷型学术文献也不太可能找到对应的网上电子版本。
4.何谓原创性网络信息和二次网络信息?按照内容是否具有原创性,网络信息资源有一次资源和二次资源的区分。一次资源是指首次发表的原创性信息,二次资源是转载已有的信息。
5.何谓可见网络信息和不可见网络信息?按照是否属于搜索引擎检索范围,网络信息资源可分为可见资源和不可见资源两类。
6.简述网络可见信息的两个条件。可见资源是搜索引擎可搜索到的资源。这种资源要满足两个条件:一是必须含有HTML超链接,二是没有设置口令,
7.简述网站和网页的关系。网页是用HTML或DHTML、XML等语言写成的文本文件。而网站则是有独立的域名,由若干相关网页组成的一个站点。按照微软公司的比喻,如果把WWW当作是Internet上的大型图书馆,则每个Web站点就是一本书,每个Web页面就是书的一页。
8.为什么说网络学术信息不能唾手可得?原因主要有三:一是查找主页信息通常要通过查找搜索引擎之类的中介数据库才能进行。而使用这些工具需要一些专门的技术,希望高效率地查找网络信息时尤其如此。二是一般情况下只使用一两种搜索引擎所得的结果往往是沧海一粟。三是互联网上学术类与非学术类信息的比例是1:10。再则,网上学术信息很多是以不可见资源形式存在着。因此查找网上信息的难度更大一些。9.按工作方式区分的搜索引擎有哪三类搜索引擎?按照工作方式的不同,搜索引擎可以分为主题引擎、目录引擎和多元引擎。
10.简述主题引擎的三个组成部分。主题引擎由三个主要部分构成:Robot、Index和搜索软件。
11.请举出典型的国外和国内主题引擎各一个。国外主题引擎的代表是Google,国内代表为百度。
12.为什么主题引擎的分类途径不如目录指南型引擎?主题搜索引擎提供的分类途径或者为自动分类的结果,或是借用其他目录引擎的分类数据(例如Google利用网景公司的Open Directory分类),因而分类检索效果不如由人工仔细分类的目录指南型搜索引擎。
13.简述主题引擎与目录指南型引擎的主要区别。(1)信息处理深度,目录指南型引擎为网站,主题型引擎为网页;(2)信息处理方式,目录指南型引擎为有人工参与,主题型引擎为全自动化;(3)信息的质量和数量,目录指南型引擎质量上相对较高,主题型引擎数量上相对较多。
14.为什么目录指南型引擎的主题查找效果不如主题型引擎?目录指南型引擎的主题检索只在对站点人工描述语言中进行,查找范围有限,所得结果通常是分类类名和网站名称,结果数量远不如主题引擎。
15.举出国内外目录指南型引擎典型代表各一个。目录引擎的国外代表是Yahoo!,国内代表有新浪网。
16.什么是多元搜索引擎?简述其工作原理。多元引擎是一种起检索中介作用的搜索引擎。多元引擎本身没有存放网页信息的数据库。当用户查询一个关键词时,它把查询请求转换成其他数个搜索引擎能够接受的命令格式,并行地或者有选择性地访问这些搜索引擎并查询这个关键词,处理这些搜索引擎返回的结果,然后再返回给用户。
17.举出国内外多元引擎典型代表各一个。国外多元搜索引擎的代表是Dogpile,国内的代表是万纬等。
18.简述中外问搜索引擎的主要区别。中文引擎可以使用英语等外文查找信息,外文引擎也可以使用中文;因而这两种引擎的区别不在于使用的语言,而在于收集和处理信息的侧重点。中文引擎主要收集和处理的信息是中文网页,查找中文资料的效果通常胜过外文引擎。反之,如果需要查找英文信息,直接使用境外英文引擎效果更好。
19.百度引擎的网页快照可以起什么作用?百度服务器通过程序收集网页时,在缓存器中保留了网页备份。“网页快照”即是网页备份的链接。当点击检索结果标题没有结果时,“网页快照”可以用于帮助获取某些“消失”了的网页信息。
20.分别给出百度引擎限制于URL字段、标题字段和网站字段的检索命令。他们分别是inurl, intitle和site.
21.简述百度引擎的三种逻辑运算符。逻辑与为空格,逻辑或为“|”,逻辑非为“ -”.
22.什么是虚拟图书馆?虚拟图书馆是一种网络信息利用工具。它针对某一学科或领域的研究者的需要,将互联网上与之有关的各种资源线索,包括与该学科或领域有关的研究机构、实验室、电子书籍、学术期刊、会议论坛、专家学者等的URL,进行系统地收集、核实并加以组织,以网站、网页或数据库形式提供给用户浏览或者检索。
23.简述使用虚拟图书馆的场合。使用虚拟图书馆查找信息的场合为:当时间短促,不允许浏览由搜索引擎查得的巨量的信息时;当希望看到比较可靠的网络信息;当希望对某个领域有个整体的、较全面的了解时。
23.能否以网上信息资源完全代替印刷型文献。哪一些文献的全文更适合从网上获得?目前,网上信息资源不能完全代替印刷型文献,尤其是学术型文献。近几年的国内学术期刊文献、部分国外学术期刊文献和部分专利文献,比较适合于通过网络获取。
24.通过搜索引擎获得的未经审查的各种非正式出版物称为什么文献?通过搜索引擎获得的未经审查的各种非正式出版物称为灰色文献。
计算机信息检索原理
1 请比较手工检索和计算机检索的优缺点和适用范围。计算机信息检索的优点在于速度快,耗时少,查阅范围广,甚至可以查到国外刚刚出版的期刊论文的信息。计算机信息检索的优点还在于检索内容的专指性强,可以从文献型数据库中以文献的发表年份、文献中提及的人名等查找相关文献。计算机信息检索的缺点是追溯时间受到一定限制,检索费用比较昂贵,检索的时间也有一定的限制。计算机信息检索主要适用于已经数字化的近期文献信息和动态性信息的查找。手工检索的优缺点差不多正好与计算机信息检索的相反。手工检索的优点是时间检索和检索范围都不受限制。但是手工检索耗时多,效率低,检索入口少,因此查找效果往往不如计算机信息检索的好。手工检索主要适用于纸质印刷书刊文献,特别是早期文献信息的查找。
2什么是数据库,它的结构由哪几部分组成?按照国际标准组织标准ISO/DIS5127规定,数据库是指至少由一种文档(file)组成,能满足特定目的或特定功能数据处理系统需要的数据集合。从使用者观点观察, 数据库主要由“文档——记录——字段”三个层次构成。
3 什么是文档?数据库包含哪几种类型的文档?从数据库的内部结构来看,文档的概念是指数据库内容的组织形式。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。顺排文档是将数据库的全部记录按照记录号的大小排列而成的文献集合,它构成了数据库的主体内容。在倒排文档中,记录的特征标识作为排列依据,其后列出含有此标识的记录号,使用倒排文档可以大大提高检索的效率。
4 什么是记录?记录是文档的基本单元。它是对某一实体的全部属性进行描述的结果。
5 字段有几种类型?字段是记录的基本单元。它是对实体的具体属性进行描述的结果。
6 如何区别基本字段和辅助字段?基本字段和辅助字段的区别是是否与文献内容相关。基本字段与文献内容相关,辅助字段与与文献内容无关或者关系不大。
7 如何使用基于同一概念的方法扩展检索概念?基于同一概念的检索词的扩展法,可以寻找同一事物的学名和俗名等,寻找同一事物的简称、全称、音译意译以及反义词。如果是英语,可以寻找同一事物名词的单复数、不同词性、英美语的不同形式等。
8 以基于内容分析方法扩展检索概念具体有哪几种方法?基于内容分析的概念扩展法分为上位概念扩展法、下位概念扩展法和隐含概念扩展法。上位概念扩展法是分析检索对象的学科归属。下位概念扩展法是分析检索对象的学科分支。隐含概念扩展法是指文献或课题中,未用显而易见的方式表达,因而需要认真进行由表及里、由此及彼的深入分析才能找出的主题。
9如何使用基于检索结果方法扩展概念?对初步检索结果进行分析,往往能够得到与课题相关的新的检索概念,将这些概念经过重新组合,就可以达到扩展检索结果的目的。
10 什么场合可以使用截词方法?当某些英语检索词词干相同、词义相近,但词尾或词中间有变化时(多数英语单词的单复数变化和英美不同拼写形式),可以采用截词符,或称通配符扩展检索词。截词检索可以扩大检索结果。
12 使用截词检索应注意的哪些问题?使用截词方法时需注意四个问题:一是截词符要紧接在词干后面,截词符和词干之间不能有空格。二是避免将检索词的词干截得过短,一般应在三个字母以上。三是截词应该合理使用。一般不可能出现词尾变化的单词其后不必再使用截词。四是从希望出现的单词中取尽可能多的公共字母作为词干,以提高查准率。
13 什么是布尔逻辑算符? 布尔逻辑算符一般有哪几种?规定检索词之间的逻辑关系的算符,称为布尔逻辑算符。布尔逻辑算符包括逻辑或(OR)、逻辑与(AND)和逻辑非(NOT)。
14 简述布尔算符(OR)的作用。布尔算符或(OR),是用来组配具有并列关系、概念相同或相近的词。OR算符的基本作用是扩大检索范围,增加命中文献量,提高检索结果的查全率,OR运算符还有一个去重的功能。在实际检索中,同一概念组面中含义相同或者相近的词,相互之间都使用OR运算符。
15 简述布尔算符(AND)的含义和作用。与(AND)运算符用来组配具有相互交叉限定关系的检索概念。其含义是检出的记录必须同时含有前后两个检索词。AND算符的基本作用是缩小检索范围,减少命中文献量,提高检索结果的查准率。
16 简述布尔算符(NOT)的作用。非(NOT)运算符是排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。NOT算符的基本作用是缩小检索范围,提高检索结果的查准率。 17 优先算符“( )”有什么作用?优先算符“( )”的作用是在多个逻辑符号混合使用时,改变它们的运算顺序。
18 什么是位置算符?它在文献检索中起什么作用?位置算符又称邻接算符,适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。位置算符是提高检索查准率的一种重要手段。
19 字段限制有什么作用?适用于什么场合?字段限制是调整检索策略的一种重要的手段。多数检索系统对不指定字段的检索词,通常在基本字段中进行搜索,如果想指定在题目等字段中查找所希望的检索词,就需要使用字段限制。字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率的场合。
20 需要扩大检索范围时,如何调整检索策略?需要扩大检索范围,调整策略的方法有:①减少“与(AND)”算符,增加同义词或同族相关词用逻辑或(OR)将它们连接起来;②在词干相同的单词后使用截词符“?”;③去除已有的字段限制、位置算符限制(或者改用限制程度较小的位置算符)。
21 需要缩小检索范围时,如何调整检索策略?缩小检索范围,调整策略的方法有:①减少同义词或同族相关词;②增加限制概念,用逻辑与(AND)将它们连接起来;③使用字段限制,或者限制检索词在指定的基本字段出现,或者指定辅助字段,限制结果的文献类型、语种、出版国家;④使用适当的位置算符;⑤使用逻辑非(NOT)算符,排除无关概念。
声明:你问我答网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系fangmu6661024@163.com