
| 出版日期:2004-09-06 总期号:1345 本年期号:66 |
|
深圳乐思:摸索在Web IE市场的前沿
邹燕
Web IE工作原理图 Web IE:Web Information Extraction——Web信息抽取,一门应用型的新兴信息处理技术,已经得到越来越多的关注。深圳市乐思软件技术有限公司是全球从事此行业为数不多的公司之一。 Google与Web IE 如果问Google是什么,大多数人都会回答:网络搜索工具;如果问WEB IE是什么,可能大多数人是一头雾水了。深圳市乐思软件技术有限公司的总经理徐勇向记者介绍,与Google提供的网络搜索技术完全不同,Web信息抽取是采用软件技术对互联网上的Web资源信息实施批量地、精确地关键信息抽取,如URL、标题、数据库字段文本、Email地址、数字、日期、图片、文档文件、声音文件、多媒体文件,形成可查询的数据库。 互联网上的Web资源信息都有两个共同的特征:文本内容以html形式发布;通过浏览方式或基于格式的查询方式来实现对其内容的存取。由于html标记更关注字体大小、颜色、位置等,而文档的结构却隐含在这些标记中,故html页中的大量信息都是半结构化的。基于这种半结构化信息的查询,即Web查询,与传统的基于结构化信息的数据库查询是不同的,无法实现页面上的精确信息的直接查询。 为了解决这个问题,需要针对各种类型的Web资源集构建相应的wrapper,利用该wrapper 去抽取html页中的半结构化信息,并转化成结构化数据,供其它信息集成系统利用。开发自动构建wrapper的技术和软件系统,是Web IE技术的市场趋势,全球致力于Web IE产品开发和技术研究的公司有Kapow、Connotate、Google、IBM等几家。 Web信息抽取服务 打造独特商业模式 走在Web IE市场前沿的深圳乐思公司,目前已经开发了可以自动生成wrapper的软件产品BlueWhale信息抽取系统1.0 ,并于2004年6月份正式面向最终用户,提供Web信息抽取服务。 徐勇介绍:“Web信息抽取技术在国外市场较为成熟些,国外对此的认识较早,需求也较多。国内市场的需求也是潜力巨大,不过人们还没有意识到有这样一种技术、还有公司可以提供这样的服务。目前,在网上查询资料,大家第一时间想到的就是到Google、百度上面去搜寻,但如果需要精确的、大量的信息,采取这种查询方法并人工加工成数据库是较困难的。” 在Web IE这新鲜无比的市场,深圳乐思采取了一种与众不同产品推广方式:产品销售压后,用户服务提前。徐勇告诉记者:“我们目前的客户主要是来自国外,象美国、希腊等国家的客户通过网络找到我们,在网上提交服务申请,我们就根据需求为其抽取目标网站的信息,最后以数据库形式提交给他们。”因为所有交易都在网上虚拟进行,取得客户信任是非常重要的,乐思采取“Think for our customers Work for our promises”的服务思想,在完成用户需求期间,每一个工作进度都会及时以E-mail方式提交用户,让服务的进度对于客户透明化。 目前,乐思刚完成了希腊的一个客户在网上提交的服务请求,用两周时间获取了超过800M的数据库、20G的图片与技术文件。徐勇说:“这位希腊客户已决定与乐思保持长期的合作关系,这对于我们采取此种商业模式是个很大的鼓励。” |
|||||||||||||||||||||||||