检索式的构建
检索式是搜索引擎能够理解和运算的查询串,由关键词、逻辑运算符、搜索指令(搜索语法)等构成。关键词是检索式的主体,逻辑运算符和搜索指令根据具体的查询要求从不同的角度对关键词进行搜索限定。
1、关键词
关键词是描述搜索内容的关键性词语。网络搜索中的关键词是一个广义的概念,属于非受控自由词,凡是具有实际意义的表达及其书写形式,如字、词、词组、短语和字母、数字、符号、公式等,都可以用作搜索关键词。
网络搜索,实际上是在搜索引擎的索引数据库中进行匹配检索。搜索引擎并不对其数据库进行可控语言标引,而只是机械地输出与关键词形式匹配的网页,随着数据库规模的不断增长,符合形式匹配条件的结果输出将会越来越多,尽管一些搜索引擎采用了智能分词技术,具有一定程度的概念检索功能,但仍然不可避免地会出现大量的无用信息。在形式匹配的技术条件下,关键词优化是最大限度地消除无用信息的主要方法。关键词在网络搜索中起着“关键”的作用,关键词选择准确与否直接关系到搜索的成败,而成功搜索的标志是在结果列表的首页就能够满足查询需求。
从形式上看,关键词的数量与结果输出成反比,使用关键词越多结果输出越少,如用“搜索引擎优化”在GOOGLE中搜索,“约有603,000项符合搜索引擎优化的查询结果”、“搜索引擎优化网站推广”搜索,“约有215,000项符合搜索引擎优化网站推广的查询结果”、“搜索引擎优化网站推广竞价排名”搜索,“约有30,800项符合搜索引擎优化网站推广竞价排名的查询结果”。从语义上分析,关键词的外延越小结果越趋于准确,如用“图书馆参考咨询工作”、“图书馆读者服务工作”等搜索,要比用“图书馆工作”更有实际搜索意义,结果也更加具体、适用。从词间的逻辑关系讲,“与”和“非”(and¬)采用多词限制和无关排除的方法缩小搜索范围,用于提高查准率,如“刘德华and身高and体重and籍贯”、“天龙八部–电视剧”等。“或”(OR)利用多词扩展的方法扩大搜索范围,如用“刘德华OR"AndyLau"”搜索,可以得到较高的查全率。
准确选择关键词需要从表述方式、行文习惯、书写规则等方面揣度查询内容,力求关键词与内容描述词的一致。由于搜索引擎的形式匹配原理,使用同一概念的不同词语搜索的结果截然不同。例如,用“北京”搜索不会出现“首都”字样,“北京图书馆”找不到“国图”的有关内容,“WTO”与“世界贸易组织”的搜索结果大向径庭等等。因此,必须注意对习惯用语、专业术语、全称、简称、同义词、近义词,以及拼音文字的前缀、后缀的了解和运用,尽可能地提高关键词的形式匹配几率,最大限度地减少误检和漏检。
关键词可以分为主题关键词和特征关键词。主题关键词是指表述主要搜索内容的必用的词语,不使用主题关键词就不能准确地搜索到特定的内容。特征关键词是指在内容描述中与主题关键词同时出现且位置较近的量词、形容词、名词等进一步说明和限定主题关键词的词语,特征关键词可以有效地缩小搜索范围,使结果排序更加趋前。在搜索实践中经常会遇到这样的情况:即尽管主题关键词选择准确、使用得当,查询内容仍然不在结果首页或前三页之中,这时如果增加使用特征关键词,搜索结果就会明显改善。例如,查找国际象棋有几个棋子,在百度中用“国际象棋棋子”搜索,有42,600项结果,前几页结果均无明确的答案,而增加特征关键词“个”,以“国际象棋个棋子”搜索,结果减少至1,270项,结果首页第一项即有“国际象棋共有32个棋子,分为两方,浅色的棋子称为白棋,深色的棋子称为黑棋……”的网页摘要。
正确选择关键词,需要对查询内容有一定了解,有一个根据搜索结果从模糊到准确的逐步调整关键词的练习过程。例如,查找有关“电动玩具”的英文资料,一般会选择“Electricaltoy”搜索,但通过对其搜索结果进行分析,可以发现“Electricallyoperatedtoy”、“Batteryoperatedtoy”等也是查找“电动玩具”的必用关键词。又如,查找国外“指甲剪生产厂家”的信息,从“"nailscissors"factory”的搜索结果可以了解到,“指甲剪”和“厂家”习惯用“NailClippers”和“Manufacturer”表示,使用“"NailClippers"Manufacturer”搜索可以更好地满足查询需求。搜索的过程是一个学习和信息甄别的过程,要学会在搜索中选择和提炼关键词,丰富的搜索实践是成为搜索高手的必由之路。
2、逻辑运算符
网络搜索中有“与(and)”、“或(or)”、“非(not)”三种逻辑关系,分别用“+”、“OR”、“-”表示,它们称为布尔逻辑符或逻辑运算符。
“与”关系为“A+B”形式,表示A和B必须同时出现在网页之中;“或”关系为“AORB”形式,表示结果中,要么有A,要么有B,要么同时有A和B;“非”为“A–B”形式,表示B一定不会出现在搜索结果之中。
在搜索引擎中,表示“与”关系的“+”通常可以省略,以词间空格代替,或者说,词间空格默认为“and”运算。“或”关系多以“OR”表示,但不同的搜索引擎对其大小写有严格的要求(如在GOOGLE中必须大写),或采用其它的符号表示(如“百度”以“|”表示)。“非”关系用“not”或“andnot”表示,减号“-”是“not”运算的唯一符号形式。
使用逻辑运算符之前,须阅读搜索引擎的“帮助(Help)”文件,确认其支持何种逻辑运算,了解和掌握逻辑符号的形式及其用法。
3、通配符
通配符(wildcard)是一类键盘字符,用来代替规定的对象。搜索引擎最常用的通配符有星号(*)和问号(?)等,通常星号(*)表示替代若干字母,问号(?)表示替代一个字母。
通配符又可以分为“词间通配符”(partial-wordwildcard)和“全词通配符”(full-wordwildcard)两种。词间通配符只能代替单词中的一个或几个字母,而不是整个单词;全词通配符用来代替一个单词,而不是单词中的某个或几个字母。
截词检索(truncation)是网络搜索的常用方法,它使用“词间通配符”,用截断的词的一个局部进行的检索,按截断的位置可分为前截断、中截断和后截断三种,搜索引擎多支持中截断和后截断检索。例如,“wom?n”可以搜索到包含woman、women、womyn、womin等单词的网页,“Comput*”对Computer、Computing、Computation等以Comput开头的单词进行搜索。
Google使用的通配符属于“全词通配符”,通配符为星号(*),一次检索可以使用若干个*。全词通配符虽不及词间通配符常用,但它在实际搜索中的功能是不可忽视和替代的。如解答“HowoftendoesHalley'scometappear?”(哈雷彗星多少年出现一次?),用“Halley'scometappearsevery*years”搜索,可以轻而易举地得到答案:Halley'scometappearsevery76years。
搜索引擎对截词检索的支持程度和通配符的规定多有不同,了解和使用通配符,请参阅搜索引擎的帮助文件。
4、搜索指令
搜索指令是从不同角度限定网络搜索的功能性词语和符号,对搜索结果起着定向和控制的作用。搜索引擎使用不同的搜索指令实现不同的搜索功能,即使是相同或相似的搜索功能也可能采用不同的搜索指令。搜索指令形式的多样化给实际的搜索应用带来一定的困难。在搜索实践中,我们可以按照搜索功能对常用的搜索指令进行区分与归纳,以便于了解、掌握和正确使用搜索指令。
⑴、标题搜索(TitleSearch)
[title:]AltaVista、AllTheWeb、Inktomi、MSN、一搜……。
[intitle:]Google、Teoma、yahoo、百度……。
[allintitle:]Google……。
⑵网站搜索(SiteSearch)
[host:]AltaVista……。
[hostname:]Yahoo……。
[site:]Excite、Google、Netscape、Yahoo、Teoma、百度、一搜、中搜……。
[domain:]Inktomi、HotBot、iWon,LookSmart、MSN、AltaVista、百度、一搜……。