截词检索:预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。尤其在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。 截词检索一般是指右截词,部分支持中间截词。截词检索能够帮助提高检索的查全率。
分类
在截词检索技术中,较常用的是后截词和中截词两种方法。如果按所截断的字符数目来分,有无限截词和有限截词两种。截词算符在不同的系统中有不同的表达形式,需要说明的是并不是所有的搜索引擎都支持这种技术。
截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。
不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。下面以无限截词举例说明:
(1)后截断,前方一致。如:comput?表示computer,computers,computing等。
(2)前截断,后方一致。如:?computer表示minicomputer,microcomputers等。
(3)中截断,中间一致。如?comput?表示minicomputer,microcomputers等。
截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。
折叠后截词
是指检索结果中单词的前面几个字符要与关键字中截词符前面的字符相一致的检索。具体包括:
(1)有限后截词 主要用于词的单、复数,动词的词尾变化等。如books可用book?代表,其中截词符?(也称为通配符)可以用来代替0个或1个字符,因此,book?可检索出包含有book或books词的记录;acid??可检索出含有acid,acidic 和acids的记录。
(2)无限后截词 主要用于同根词。如solubilit用solub?处理,可检索出含有solubilize,solubilization,soluble等同根词的记录。由此可知,在词根后加一个"?",表示无限截词符号。
折叠中截词
中截词也称屏蔽词。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。如organi?ation可检索出含有organisation和organization的记录。由此可知,中截词使用的符号为"?",即用"?"代替那个不同拼写的字符。
从以上各例可知,使用截词检索具有隐含的布尔逻辑或(OR)运算的功能,可简化检索过程。