ccidnet????

出版日期:1998-11-16 总期号:777 本年期号:87

本期导读
综合消息
硬件
软件
电脑工作室
从数据中挖掘知识

尤小霞

  “从堆积如山的数据中挖掘信息”,这种说法听上去虽然像是陈词滥调,却符合目前企业信息化的实际。企业在业务过程中积攒了大量的数据,希望这些数据能够提供更深入的信息,以辅助业务决策。但是,我们并不一定知道这些有价值的信息是什么,结论是什么。而当今市场上大多数分析工具都只能验证假设,这些假设局限于分析者自身的经验、知识背景,甚至是想象。


   信息挖掘提供知识


  信息挖掘能够提取以前未知、但可以理解的、可以采取行动的知识,从而克服以验证假设为主的分析的局限性。一个完整的信息解决方案应该可以将它发现的知识,以用户可以使用的形式交付给用户,不管用户身在何处,都可以让他们能够在战略和战术中应用知识。

  一些捷足先登的企业已经在信息挖掘中尝到了甜头。经营大型超级市场的企业safeway uk在应用ibm intelligent miner for data后,发现一批本来已经打算撤出货架的滞销产品,居然是高收入消费者群的购买对象,safeway uk因此迅速作出决策:保留这些产品,避免遭受损失。类似地,ibm intelligent miner for text帮助一家电子公司从文档中获得信息精确衡量公众的意向。


   到数据库以外获取全面的知识


  企业的信息越广泛,决策就越深入。因此,企业应该充分利用所有能够利用的信息资源,除了数据库之外,客户的信件、web网页、电子邮件、在线新闻服务以及其它文档中都可能包含大量丰富的信息。然而,迄今为止,这些资源并没有得到充分的利用,因为它们与数据库不同,这些资源没有适用于传统查询方法的有组织的结构。

  正在出现的新信息技术可以发掘隐藏在这些非结构化资源中的知识,可以说,这个市场是一片埋藏着丰富宝藏的处女地。根据业界分析家的估计,有80%的企业信息包含在非结构化数据中;另外,当企业将结构化数据和非结构化数据的采集结果相结合时,企业将可以通过协作,得到更有意义、更可行的结果。


   文本挖掘解决方案的目标


  文本是最普遍的非结构化数据形式,文本的采集因此成为知识发掘最重要的途径。人们通常将文本与文档搜索相提并论,事实上,文档搜索只是发掘过程的一个步骤,文本还包含下列重要的功能:

  *特性提取:在一个或多个文档中寻找关键的单字词(或多字词)概念;

  *集群:在一组文档中发现关键的主题;

  *文档分类。

  例如,在客户联系管理项目中,企业用户可能需要知道服务中哪些是成功的,哪些需要改进。为了达到此目的,企业可以使用特性提取和集群功能,在它的客户信件和电话中建筑相应的主题,并据此将信息进行分类。

  甚至搜索功能本身也不再完全依靠于关键词和参数。先进的搜索(又称知识提取)功能使用概念和用户参考,就可以帮助企业精确找到所需的信息。对于一家希望更有效地跟踪本行业发展态势的咨询公司而言,它可以使用文本采集技术,归类和分析获取的新闻,可以应用先进的搜索机制,系统地从internet上获取最需要的信息,然后将这些条目自动归入有关业务档案。

  文本采集的优势之一是其丰富的功能结合。一个完整、集成化的文本挖掘方案应该包含分析、归类、集群、搜索功能,以及web搜索工具,而且所有这些都应该包含在一个单一框架中。

  一个使用最新分析和搜索技术的文本挖掘方案应该能够确保用户得到最精确、最有用的结果,优秀的显示工具应该可以以用户能够理解的方式提交这些结果,易用的文档集浏览功能应该能够引导用户直接获得所需的结果,从而节省用户的时间。企业期望文本采集能够消化和分析大量的文档,减轻信息压力,能够同时执行多种任务,如搜索和分析等。

  ibm intelligent miner for text以db2通用数据库udb为后盾,可以从文本文档和数据源获取信息。数据源可以包括客户反馈、在线新闻服务、电子邮件和web页面,能够高效率地将知识发掘从数据中心扩展到企业机构中的每一位信息工作人员的桌面上,提供能够应用于语言识别、集群、归类和特性提取的文本分析工具,还包括一个全功能的先进文本搜索引擎和非常高效的web文本搜索功能,系统支持的服务器平台包括aix和windows nt、os/390和sunsolaris,有效缩短信息查询和获取的时间。


   数据挖掘———更上层楼


  数据挖掘已应用多年,最近,挖掘技术和应用程序在精确度、功能和易用性等方面又迈进一大步,在许多行业中都得到了更广泛的应用。下面是一些例子:

  *当作为客户联系管理下面的一部分时,数据挖掘可以帮助企业理解用户的需求和行为,策划更有针对性的市场活动。

  *许多拥有广泛销售渠道的企业使用数据挖掘技术来预测每个零售点的需求情况,以尽可能避免库存不足或库存积压,实现最大利润。

  *对需要避免诈骗或滥用服务的行业,数据挖掘技术有助于确定正常的使用方式,察觉偏离正常方式的行为,检测滥用的发生。

  像文本挖掘一样,数据挖掘技术可以从多个数据源获取信息,这些数据源包括企业事务处理系统、外来的统计数据和市场信息,以及文本挖掘过程中生成的文档。但是,只有具有以下功能的解决方案,才能帮助企业迅速提高数据挖掘的效率:

  *可以充分利用并行处理的数据库。它能帮助企业加速信息发掘过程,同时保持信息的质量。

  *强大的数据处理和分析功能,提高了挖掘效率,减少对其它工具的需求。

  *在单一软件包中提供丰富、可靠的集算法,以支持企业日益广泛的业务问题。

  *直观的用户界面和易用性,帮助业务专家免受挖掘复杂性的困扰。

  *有用的显示工具。

  ibm intelligent miner for data能够建立归类和预测模式,发现大型数据库中的联系和后续模式,自动将数据库分为相关记录组,在特定时间序列中发现类似的行为模式,还集成了数据处理、统计分析和结果显示工具,寻找包含于传统文件、数据库、数据仓库和数据中心中的隐含信息,帮助用户充分利用传统数据库或普通文件中的结构化数据,其采集算法已成功应用于客户及贸易伙伴之中,满足市场分析、诈骗行为监测、客户联系管理等业务领域的需求。


   结论


  在现今竞争激烈的环境中,商业智能已经成为许多企业关注的新技术领域。如何选择合适的工具、可靠的厂商来帮助自己开展数据挖掘,进而实现企业的稳固与扩展,是每一位决策人员都不能忽视的问题。

  ibm intelligent miner通过典型数据集自动造成、关联发现、序列规律发现、概念性分类和可视化呈现等独有技术,可以自动实现数据选择、数据转换、数据发掘和结果呈现等一整套数据发掘操作。根据idc的统计,ibmintelligentminer是目前数据发掘领域最先进的产品,可以为企业用户提供适当的工具、人员和应用程序。

  *适当的工具:ibm的挖掘技术是其商业智能和内容管理工具家庭中的强大生力军,如ibm visual warehouse、ibm db2 olap server、ibm digital library和ibm edmsuite。

  *适当的人员:ibm信息采集顾问和ibm全球商业智能解决方案专家可以在用户信息采集项目的全过程中提供帮助,从概念和规划一直到实现、培训和技术支持。

  *适当的应用程序:ibm和ibm业务伙伴提供了丰富的特定行业应用程序,可以充分利用intelligent miner工具,其中包括ibm discovery series、ibm customer relationship intelligence和ibm text knowledge server。






  商业智能的信息架构