
| 出版日期:2004-09-06 总期号:626 本年期号:33 |
|
语法开发平台,我们落后了
中国科技信息研究所研培中心 化柏林 一部完整的语法通常有上千条规则,几万甚至十几万个词条。以完全的人工模式开发这样一部语法,大约需要几年至十几年的时间,语法开发平台则可以实现从人工到自动化的转变。国外对语法开发平台的研究,已经取得了很大的成果,而我们国内还没有起步。 基于词频分布与词语共现的统计技术,目前并不能满足对自然语言深层次分析的需要。要对文本进行理解,必须从语法语义层次上进行分析。而要对自然语言进行深层次分析,就要有一部完整的语法。开发一部完整的语法需要较大规模的投入,并需要一个完整的开发平台。 语法开发平台(Grammar Development Platform,简称GDP)主要提供一个语法开发的工作平台。以语法分析为主,通过对自然语言的文本进行分析,然后进行抽取,得到面向实用的计算语法。语法工作者可以利用此平台进行实用语法的开发工作。信息技术人员可以在此基础上构建自然语言,处理相关的应用系统,比如机器翻译系统、知识管理系统等。 语法本身具有经验性,语法开发平台除具有语种无关、范例无关、平台开放、界面友好、程序接口方便等特性外,更重要的是基于逻辑的验证,经过不断地循环修正与扩充,最终实现自动化。 国外许多著名大学和IT行业的巨头都纷纷投入自然语言处理的研发工作。他们纷纷建立了语法开发平台并开始生产大规模语法。 Xerox公司的XLE 项目简介:XLE(Xerox Linguistic Environment)起源于1993年10月PARC(Palo Alto Research Center)的 NLTT(Natural Language Theory and Technology)组和法国格勒诺布尔的MLTT组的一个合作项目。1996年,XLE由Ron Kaplan 和John Maxwell发展为语法开发平台。 功能目标:XLE通过广泛覆盖的LFG语法研究自然语言的分析和生成算法。依据这些算法进行语法开发,并促进自然语言处理的应用。XLE能利用自然语言的上下文无关文法,对自然语言进行立体分析、线性生成。XLE基于合一运算,可以自动生成LFG词典与规则。XLE语法开发平台提供许多机制(如最优论等),以进行语法的扩展,而不需要改变核心语法。 应用项目:ParGram(Parallel Grammar Project)是由加利福尼亚的PARC,德国的斯图加特大学,挪威的卑尔根大学,日本的富士施乐实验室和曼彻斯特理工大学合作开发的语法工程。目标是为英语、法语、德语、挪威语、日语和乌尔都语生产大规模LFG语法,这些语法是基于XLE系统开发并由XLE系统解释的。 XTE(Xerox Translation Environment)是构建在XLE的基础上,利用ParGram的语法、XLE的分析和生成器、通过增加转换部分而实现多语种自然语言处理(Natural Language Process,简称NLP)的应用系统。这一系列项目验证了语法工程的可行性和实用性。 宾西法尼亚大学的XTAG 项目简介:XTAG起源于1987年的美国宾西法尼亚大学认知科学研究院的一个语法生产工具。 在1998年得到了较大发展。 系统目标:XTAG主要由一个词汇化的TAG分析器构成,其目标是进行基于TAG的自然语言资源开发。XTAG是一个英文句子分析系统,目的是把一个符合文法的英文句子按词汇之间的关系分析成一棵句法树,从而表示句子的句法结构。 功能结构:输入的句子经过词法分析器和词类标注器以后,进入词类混合器, 得到词类及属性信息,然后进入分析器,分析器由树选择器和树拼接器两部分构成,最终得到句子的推导结构。词法分析器需要借助于词法数据库,词类标注器需要借助于词汇概率数据库(如图1)。
XTAG分析器借助于树数据库、统计数据库和句法库的信息,加上两个树的操作器进行工作。XTAG使用两种方法进行过滤:结构过滤,用来去掉不可能覆盖输入句子的树;统计过滤,用非词汇化树的一元概率来实现。实验表明,这两种方法可以使运行速度提高87%。 句法库是含有词干和已存入树库的树模板或树族之间进行的结构映射。词性混合器的输出就是用于查找句法库与数的属性一致的一组词汇化的树。 树库是含有多个词汇树模板的库。插入到树模板不同结点的词汇项称为基结点,句子中每个词的词性对应于树中基结点的标号。 结果与测试:英文XTAG语法的开发用了大约15年。该语法由1200棵基本树组成并用真实文本测试过。 微软研究院的大规模多语种开发平台 系统特点与结构:开发平台由两大工具构成:辅助书写语言规则工具和对大规模语料的回溯测试工具,这两个工具都是在大规模分析系统实际开发时所必需的。利用这两个工具,进行了七种语言(汉语、英语、法语、德语、日语、韩语和西班牙语)的语法开发。 所有语言共用一个分析引擎,基于Unicode,采用自底向上的分析算法。语言本身的代码也是模块化的,能被转换成一个特定的语言(如语法规则)或者能转成许多共享的交叉语言(如语义映射规则)。 功能结构:系统有三个基本功能:文本切分成句子,语素词汇分析和分析算法。系统中为交叉语言开发的工具由三部分组成:表达部件,进行单词切分(汉语和日语的情况)和词法分析;分析部件,进行短语结构分析并生成分析树;逻辑形式部件,计算分析树的基本的谓词歧义结构。 系统提供三种类型的工具,语言规则书写的工具:包括让语言学家对最终的和中间的分析树进行操作并回溯规则应用的工具;语法测试工具:允许语言学家比较两个版本的语法结果,并更新预期输出结构的数据库(称为regression suites);一个快速处理的环境。 英德联合开发的GTU 项目简介:GTU(德文:Grammatik-Testum-Gebun; 英文:Grammar test environment)由苏黎世大学计算机科学与计算语言学系的Martin Volk和科布伦次-兰道大学计算语言研究所的Dirk Richarz开发。 GTU是一种用于开发和测试自然语言语法的工具。GTU提供一个面向Windows的用户接口,允许在三种形式文法下开发和测试自然语言语法。它包含一个由德语测试句子和两种类型的德语词典组成的一个集合。两种词典都通过一个集成的词典接口来适应于某种语法。 功能结构:GTU允许语法开发者执行以下操作:书写多种语法;添加句子进行并行测试;通过NL分析器来检查句子结构,然后通过分析过的句子来调整NL分析器;从测试语料中通过点击来选择句子并把它反馈给NL分析器;提供给定词条的词汇信息;在不同的形式文法之间进行切换,回溯并输出模型(如图2)。
法国的XLFG 项目简介:XLFG起始于1996年,是一个广泛覆盖LFG的分析器,用C语言书写,采用LR(词汇功能)分析算法。XLFG项目运用元语法自动生成普通的LFG法语语法。 系统目标:XLFG采取Tcl/Tk的图形用户接口(GUI),为编写和测试LFG语法提供了良好的环境,并加快了开发速度。 XLFG允许在线或脱机使用,可用来开发和测试法语语法。XLFG的分析器有三种输入文件:模板文件、词典文件、规则文件;输出内容有:一对或多对成份与功能结构。 测试结果:为验证XLFG的准确性,所用法语语法由78条语法规则和450,000词条组成,将这部语法和XLFG一起用于对1200个没有经过消歧的句子进行分析。不经过消歧XLFG产生很好的分析算法,正确率达81.5%,平均每个句子有3.36个功能结构,80.3%的句子有歧义。经过消歧,XLFG分析这些句子的正确率仍然达81.5%,但每个句子仅产生1.29个功能结构,分析过的句子中仅38%有歧义。 东京大学的XHPSG系统 项目简介:XHPSG是基于HPSG、面向英文广泛覆盖的分析系统,由东京大学开发。XHPSG系统是一个有通用算法的系统,能够用于多种自然语言处理。 功能目标:RenTAL(Renderer Engine for Tree Adjoining Languages)是一个把已存在的LTAG语法转成HPSG形式语法的引擎。通过对栈内树结构编码把LTAG基本树转变成HPSG特征结构,转换后得到HPSG语法,然后再生成和GB-LTAG语法同样的推导树。RenTAL还可以从计算和语言两个方面对两种形式文法进行精确的比较。语法的比较转换通过CFG进行过滤。 斯坦福大学的LinGO和LKB 项目简介:LinGO(Linguistic Grammar Online)是一个网络在线语法开发系统。LinGO ERG(LinGO English Resource Grammar)从开发到现在一直运行在PAGE系统上。ERG是基于HPSG的英语语法。语法的核心部分属于高层次类型(high-level),用于结构化的词汇和规则,目前的语法超过15,000行编码。 项目简介:LKB(Linguistic Knowledge Building)最初由剑桥大学开发,是EU ACQUILEX项目的一部分,后来得到了NSF(Natural Science Foundation)的支持。LKB是一个用受限语法来开发语法和词典的平台,用来表达和验证高度结构化的词汇信息。LKB系统不仅是为了分析大规模语法,还涉及基于合一运算的自然语言处理的分析与生成。 功能目标:LKB系统和LinGO语法在Web上是开放的资源,可以由学术机构和商业团队使用或修改。LKB系统由普通的LISP解释执行,可以运行于Linux, Windows98/NT和Sun Solaris操作系统上。LKB系统和LinGO ERG 的开发由数个国家的大学研究人员和斯坦福大学的一些学生共同开发。 德国人工智能研究中心的PAGE 项目简介:PAGE是一个语法开发环境,是由德国人工智能研究中心研制并从DISCO项目发展起来的系统。 功能目标:语言能力的规范必须有研究行为模式,建立在编辑、学习、子语言和控制策略的基础上。通过深层与浅层处理策略的结合来使得处理有效而健壮。语言工程要求语法开发有一个合适的环境,调试和进展评估。 国外的语法开发工作已经开展多年,而且有许多成功的平台,部分平台已经开始面向实用,如Xerox公司的机器翻译平台。 平台的开发周期长(从几年到二十几年不同)、难度大、参与人员多,而且好多平台都是跨国性合作项目。到目前为止,国内还没有比较成功的语法开发平台。其实,语法开发平台的研究与实现是自然语言处理中一项非常重要的工作,语法开发平台的研究与应用还有很大的发展空间。 知识链接 流行的语法模型 TGG-Transformational Generative Grammar,转换生成语法 TAG-Tree Adjoining Grammar,树邻接语法和基于合一运算的语法模型。 HPSG-Head-driven Phrase Structure Grammar,中心词驱动的短语结构语法 GPSG-Generalized Phrase Structure Grammar,广义短语结构语法 LFG-Lexical Functional Grammar,词汇功能语法 FUG-Functional Unification Grammar,功能合一语法 PAGE-Platform for Advanced Grammar Engineering,高级语法工程开发平台 |
|||||||||||||||||||||||