
| 出版日期:2000-10-01 总期号:164 本年期号:10 |
|
中文搜索引擎的比较研究
进入20世纪90年代后,网上的中文信息资源和上网的中文用户大量增加,迫切需要一个能提供中文界面,能搜索网上中文站点资源的搜索引擎,以满足广大用户对中文信息的查询需求。在这样的形势下,中文搜索引擎便应运而生了。 1.中文搜索引擎的发展现状 我国于1994年4月正式联入因特网,发展时间较短,加之中文信息的处理较英文信息更为复杂,因而中文搜索引擎的研制开发、投入使用也是近两三年才开始的。但它的发展却十分迅速,据“中文导航及搜索引擎指南”网页统计,目前国内较完备的搜索引擎有131个,其中较好的有搜狐、网易、天网、常青藤、若比邻等。 我国港台地区拥有更为普及的因特网基础,台湾地区的网络用户有200多万,其网上采用big5编码的中文信息也十分丰富,并有一批著名的搜索引擎:哇塞、蕃薯藤、盖世引擎等。香港较优秀的搜索引擎有茉莉之窗、添达等。 近年来随着互联网在中国的迅速发展,国外一些网络企业开始瞄准中国互联网这一未来的巨大市场。一些西方大型搜索引擎公司也纷纷进入中国市场,如Yahoo和Altavista于1998年5月先后推出了其中文版的搜索引擎。 2.几种著名中文搜索引擎的对比及分析 评价一个中文搜索引擎的质量优劣一般有以下标准:其收录的网站(或网页)是否完备充分;对于分类目录式搜索,还要看其分类是否科学合理,分类的广度及深度是否合适;对于输入关键词查询,则要看除了支持简单搜索,是否还支持高级搜索(或复杂搜索);以及能否自动识别中英文,能否自动进行中文简繁体置换;其他还有是否响应时间短,返回结果描述是否详尽、合理,是否按相关性大小输出等。结合这些标准,笔者从国内外的中文搜索引擎中选择了较有代表性的几种,对它们进行了对比分析。(见表1) 表1
(1)搜索方式 搜索引擎的搜索方式主要有两种:分类目录导航式搜索和全文网页式搜索。Yahoo、搜狐等搜索引擎是分类式搜索引擎的代表。这种搜索方式的原理是通过人工建立一个结构化的分类目录体系,将搜索到的网站划分到各个类别及子类下,并将每个网址抽象为一段摘要性信息,作为对该网站的概括介绍。有些分类搜索引擎的各级类目下还伴有一个搜索框,用户可输入关键词检索,但检索的范围仅限于各网站的摘要。这种检索方式的优点是系统、层次清楚,方便用户简单准确地查找某一方面的信息,设计上也更简单、容易实现,缺点是靠人工操作工作量太大,因而搜索的站点少,更新慢;如果用户对查询问题的类目划分与该分类体系不一致,则有可能找不到相应的类目;搜索只在网站摘要而不是全文中进行,不够全面。Yahoo 在这一点上的设计是当用户输入关键词时,系统自动地在网站全文中进行搜索,从而一定程度地弥补了分类式搜索的不足。目前大部分中文搜索引擎都是采用分类搜索方式。网易、茉莉之窗、悠游也是在分类的基础上再辅之以全文检索。 天网搜索引擎采用搜索网页全文的方式,只要用户输入的关键词在某个网页上出现过,不管是出现在网页上的什么地方,都会把这一页检索出来。因此全文式搜索的范围要比分类式大得多。这种搜索的结果全面、广泛,但有时会过于繁多和杂乱,反而不够准确。因而,这些搜索引擎大都提供了高级(或复杂)搜索功能,通过对关键词的各种限制来使检索结果更加准确。 (2)搜索范围 搜索引擎的搜索范围是否广泛,即收集的网站(或网页)数目大小,直接影响到搜索结果的完备性。表中所选的搜索引擎都是大型的中文搜索引擎,但网页数量也只在几十万到一百多万之间,还难以称得上全面。当然这在客观上也与网上的中文信息太少有关。 搜索引擎本是专为搜索WWW资源而设计的,随着万维网的急速发展,搜索引擎也被赋予了许多新的功能,开始提供更全面的查询服务,如天网既可以提供WWW网页全文的检索,又可以检索Newsgroup,同时还能提供 FTP查询与下载服务,而不必启动专门的FTP检索软件Archie 等。 (3)关键词查询方式 表中所选的搜索引擎均能支持关键词的简单查询,而全文式搜索引擎则更增加了一些高级查询功能,即通过对关键词的各种修饰限制,来使检索的结果更加精确。比如天网、悠游、Yahoo都采用了布尔算符,来限制关键词是否在检索结果中出现;悠游、Yahoo还提供了字段限制,指定关键词出现的位置,如网址、网页标题;天网还能将选择在WWW、Newsgroup、FTP这三种不同的信息类别中搜索。一般来说,越是优秀的搜索引擎,提供的查询限制功能越多、越合理。从这点来看,天网、Yahoo、悠游表现略为突出。 (4)查询界面 表中选择的搜索引擎大都能同时提供GB码、BIG5码两种码字的检索界面。尤其是悠游,它具有汉字内码的自动转换和跟踪功能,如果用户使用的汉字环境与正要查看的网页代码不同,它会自动地插入一个中文网页过滤器,保证用户屏幕上出现正确的代码,甚至一直追踪用户的漫游路线,直至用户离开中文区域。 3.发展中文搜索引擎的几点建议 (1)建立若干大型综合性中文搜索引擎 应当建立几个大型的综合性搜索引擎,一方面收集尽可能全的中文网页,另一方面开展多类别、多样化的信息查询服务,如集成BBS、Gopher、 Newsgroup 等的搜索,使用户可以在搜索引擎这一种查询工具中,查到以往需要调用不同的工具才能查到的信息,从而实现大规模、多功能,最终树立“品牌”。 (2)发展各种专题性搜索引擎和集搜索引擎 目前网上各种大大小小的中文搜索引擎已有不少,但真正有影响的不多,说明中文搜索引擎的开发比较分散,重复研究较多。而国外的情形是Altavista、Infoseek、Lycos、Webcrawler这四种大型搜索引擎占整个网络检索系统80%的市场份额。因此笔者中小型搜索引擎转向各个专题性信息的搜索。 (3)研究、开发中文信息处理技术 从技术的角度看,中文搜索引擎往往需要应用中文信息处理技术的多项成果,发展中文搜索引擎,还应当大力加强这方面的研究。当前研究与开发的技术重点是中文自动分词技术、自动摘要技术、中文信息的自动过滤、自然语言的理解识别技术,汉字内码的自动转换等技术。 |
|||||||||||||||