ccidnet????

出版日期:2000-05-08 总期号:919 本年期号:31

本期导读
要闻综合
电脑工作室
市场
硬件
软件
infotimes
走出搜索引擎认识上的误区

张蕊

  当你从搜索引擎开始你的web旅行的时候,当你对搜索引擎又爱又恨不能自主的时候,也许没有意识到你已经步入了搜索引擎认识上的误区中。掀起搜索引擎的盖头来,让我们看看它们更加真实的脸,掉转头从误区中走出来。


  误区之一:“web搜索”就是在web中搜索。


  当你利用yahoo!等搜索引擎进行web搜索的时候,你可能根本没有怀疑过,你是不是就是在web中搜索。可以明确地说,搜索引擎搜索的是包含着大量web信息的引擎数据库,而决不是整个web。看看下面这些数字:据统计,目前网上有大约3500万个web,分布于世界各地3千万个不同的主机上,即使使用性能非常强大的计算机要进行一次全面的web普查,也需要几天甚至是几个星期的时间,何况网络又是在不停息的十倍速的发展中,没有一种软硬件环境能够维持这样一种系统。目前,所有搜索引擎加在一起仅仅覆盖了大约1000万个web文件,最大的搜索引擎fast不过只拥有其中38%的文件。那么,搜索引擎是怎样在运行的呢?搜索引擎首先利用一种俗称“蜘蛛”或“爬虫”的软件,定期地、有目的地在网上漫步并随时抓取有用的web页面,然后形成一个包含了web页相关信息的索引文件,再通过一定的分析软件实现用户的信息查询服务。由于网络存在极大的不确定性和引擎数据库的不能实时更新,必然带来了一定的时滞,所以很难避免“死链”问题的困扰。


  误区之二:所有的搜索引擎都是一样的,即使存在差异,也是八九不离十。


  从用户界面和查询形式来说,所有的搜索引擎虽然不能说是一个模子里刻出来的,但确实相差不大。俗话说,“知人知面不知心”,它们本质上的差别却很大。搜索范围、搜索机制、服务对象、匹配算法、检索结果相关度指标体系、输出记录格式等等,都可能是完全不同的。可以做一个试验,用同样一个检索式在几个搜索引擎中进行搜索试验,对输出的结果进行比较,也许你会大吃一惊,原来差异这么大呢!据专家统计,不同搜索引擎检索结果间的重复率不足35%。想一想实际上也不难理解,我们不是常说“各有所长,各尽所能”吗,我想搜索引擎的世界是一样的吧。但是,丰富多彩的搜索引擎在赋予我们更多的选择和更好的搜索结果的同时,也带来了选择上的疑惑和更多的时间、精力的付出。“知己知彼,百战不殆”,不拘泥于已习惯的东西,多听一些专家的意见,必然会有意想不到的效果。


  误区之三:yahoo!是最大的,我只要有yahoo!什么都能解决。


  人往往很容易受到“先入为主”的思想的影响,因为是yahoo!开创了搜索引擎的先河,人人知道好像是人人都用yahoo!,自然不会再瞧别人一眼了。应当搞清楚的是,yahoo!是目录式分类搜索引擎,基本不保存什么具体的网页,仅提供一份由人工按类别编排的网站目录,下面排列着属于这一类别的网站的站名和网址链接,从数据库大小来说它是主要搜索引擎中比较小的一个。它的优势在于能够帮助用户挖掘某一研究方向上的相关资源,由于是由人工控制和组织的,可靠性相对高一些。但是假如要查询一些不常用的信息,追求查全率的话,应当选择那些覆盖面更广的搜索引擎或某一专业领域的搜索引擎。另外,随着yahoo!自身发展方向的变化,由单一的搜索引擎服务商发展成为综合性门户网站,涉足的服务越来越多,一定程度上必然影响了其在搜索引擎上的投入,而且更新速度慢,“死链”的问题也比较严重。


  误区之四:今天找到的信息,明天或以后还能找得到,何必非得今天把它记下来。


  这是一个在搜索引擎的一致性、准确性上很容易产生的错误认识。面对飞速增长的网络资源,搜索引擎也在飞快变化以适应网络的发展。这种变化往往又充满着众多不可预测的因素,曾经住在这里的网爷(页)可能已经搬走或消失了,也可能“整形”或“毁容”了,再也认不出来了。搜索引擎开发商可能突发什么奇想,推出了什么新的理念或机制,使原来好像随时可见的东西瞬间消失得无影无踪了。也可能引擎数据库得了“流感”从而行为异常,也可能是网络传输速度惹的祸等等,总之不能完全信赖搜索引擎。随时准备按下ctrl—d,还是自己保存着最可靠。提醒你,可不要将它们胡乱堆在一起,时间长了要找点什么可就不容易了,和垃圾也差不多了。还好,现在有不少的书签管理工具,不妨一试。


  误区之五:搜索引擎是真正免费的,是该放弃那些收费的信息服务的时候了。


  相信吧,没有真正免费的午餐。免费得来的东西往往是靠不住的,尤其是在真真假假、鱼目混珠的网络资源大杂烩中,而且一般人又没有足够的精力、时间和知识去判断它们的真伪。当要获取准确可靠的信息时,还是别忘了图书馆、信息中心或那些真正权威的数据库资源,如dialog、ei、uncover等等,当然你是要付出金钱了。实际上,目前许多搜索引擎推出的一些服务内容,如“即时通知服务”、“个人资源中心”等也是要收费的。