
| 出版日期:2000-05-08 总期号:919 本年期号:31 |
|
互联网上的信息地图
欧阳宁 目前,互联网上的信息爆炸是每个上网的人都能体会到的,面对浩淼的信息常常会使人感到茫然不知所云。信息量日益增加,而获取、消化信息的时间却在相对减少,并且这种差距正在日益扩大。众所周知,在互联网上要寻找到自己所需要的资料,最常用的方式是通过搜索引擎和关键字来实现,但搜索引擎的无奈想必每个人都体会过。要么搜索出无数个结果来,让你再作n次筛选,要么搜索出来的结果答非所问,风马牛不相及,让人哭笑不得,常常空耗了许多时间和精力而一无所获。那么,有没有其它的方法在最短的时间内找到自己所需要的信息呢?这里向您介绍一种信息组织的新的方法———themescape技术以及它的应用的实例newsmap.com,themescape技术正是减小上述这种差距的新一代技术。通过这种技术,您会获得新的启示和一种不同的浏览体验。
图示:信息地图示意图 创建信息地图 利用themescape技术创建信息地图的基本过程如下: 1.空间化和概念化:收集文档,转换成为概念上的空间结构。 其中文档资料的概念表述是最重要的。文档的关键主题词通过上下文分析系统进行识别,有关系的主题、话题则成为相互关联的,并因此形成基于文档内容的概念或主题。这里,上下文是重要的,而非单个的字或词。这是同大多数搜索引擎的重要区别。例如,通过分析上下文中的雪、雨、风暴、洪水等主题就可以得出有关天气的概念,但上述词汇并非表述天气概念所必须的,例如那些关于热气流的文档并不会提及雪或洪水的,而实际这些文档也是描述天气概念的。但利用themescape的专利算法,就可以分析所有这些文档的上下文的主题以及他们所表述的概念,并在这些不同的描述天气的文档之间建立一种关联关系。相应的,所有这些描述天气的文章也在信息地图上被绘成相互接近的点。 2.空间压缩、摘要、成图:将经过空间化和概念化组织的文档压缩、摘要后,转换成为二维空间。 概念接近的会在二维信息地图上一起定位在接近的位置,表示主题是相关的,而主题不同的会定位在相距较远的不同点。在信息地图上,两点之间的距离越近,表示文档的主题、概念相关程度越高;反之,两点之间的距离越远,表示文档的主题、概念相关程度越低。 3.接口绘图:将上一步的结果绘制成为信息世界的地形图。 在信息地图中,高度代表所包含内容的密度。等高线和其他标志可以为读者提供可视的线索,使读者轻松地实现信息导航。 themescape将收集到的文档进行筛选和摘录,并使文档的主要内容和相互之间的内在关系用最直观的方式呈现出来,这样用户就能够迅速并简单地来估量(测量)哪些是最重要的主题,并定位哪些是有用的信息。通俗地说,themescape就是采用抽筋扒皮的方法,将大量文章中的精华抽取出来,利用视觉效果表现出来,同时将不同文章之间的关联关系也表现出来,可能后者才是更重要的。 themescape溯源 themescape技术源于美国的人工智能研究,用于解决智能分析当中的信息过量问题。它是由一组软件产品套件构成,可以自动将基于文本的材料、文档转换成为交互式的信息地图,可以帮助用户快速理解文档中包含的主要内容,找到感兴趣的信息,通过这种对信息的重组来挖掘出各种信息中所包含的真正的、更丰富的内涵。 之所以采用“信息地图”的概念是因为信息地图与我们日常生活中使用的普通地图有许多相通的地方。正如一般地图是描绘显示地球表面的自然地理、行政区域状况的图,并能指导使用者找到物理空间上与之相对应的地方一样,信息地图则描述了大量文档的主要内容,并指导使用者快速找到在电子信息空间里所需要的最相关的信息。这样,我们就可以在由庞大的互联网构成的电子时空中像使用地图一样按图索骥,快速定位到我们最需要的信息。 theme的接口与构成 相对于大多数搜索引擎基于目录式的列表而言,信息地图的特点就是:信息本身就是用户接口,即大量的内容通过信息地图这种直观的方式提交给用户。信息地图上的符号、信息的高度图、信息的(内在关系)距离以及信息地图上的其他构成要素共同传递出各种信息的重要程度。 themescape系统的构成如下: ·themeserver(信息主题服务器):最基本的引擎,采用windows nt服务器,负责收集文本,文本识别,生成信息地图,分发信息地图。 ·themepublisher(信息出版工作站):基本的控制中心,采用java技术的windows客户端,可编写、绘制新的信息地图,修改现存的信息地图。 ·webmanager(网络管理器):负责分发信息地图浏览器,控制信息地图的浏览接入。 ·themescape web viewer(客户端浏览器):客户端计算机,作为进入信息地图的接口,可浏览信息地图。 领略themescape技术———newsmaps 网站: newsmaps网站就是利用themescape来实现新闻信息服务的网站,它将来源于多家新闻网站的基于文本的新闻资料信息进行整理,利用themescape技术来将各类新闻转换为信息地图上对应的各种信息标志,使读者能够快速发现自己感兴趣的文章,不只是一篇,而是相关内容的所有文章。 任何两篇文章的主题越接近,他们在信息地图中的相距距离也越短或越接近。某种主题的文章集合到一起,就会形成某种概念或意义上的“山峰”,而山峰之间的距离则显示不同主题的相关程度,距离越接近,则相关程度越高;反之,距离越遥远,则相关程度越低。 信息地图的图解见附图所示。 the newsmaps viewer是一个java小程序(applet),当你初次访问newsmaps网站时它会被下载。你可以选择将其安装在你的机子上,这样,当你再次访问newsmaps网站,就会提高下载和浏览信息地图的速度。 在互联网上描述信息的方式可谓多种多样,基于互联网的创新也会永不停息,themescape技术在这方面就给我们提供了有益的启示。 相关的网址: |
|||||||||||||||||