ccidnet????

出版日期:2000-01-10 总期号:891 本年期号:03

本期导读
要闻综合
电脑工作室
市场
硬件
软件
infotimes
自然高效的中文输入

李开复


  李开复博士,于1998年11月出任微软中国研究院院长,并被北京大学、清华大学和中科院自动化所聘为客座教授。李博士在语音识别、人工智能、三维图形及国际互联网多媒体等领域享有很高声誉。加盟微软公司前,李博士曾担任sgi公司的多媒体软件子公司———cosmosoftware的总裁。李博士曾以最高荣誉毕业于哥伦比亚大学,获计算机学士学位,后获卡内基-梅隆大学计算机学博士学位,并担任副教授,开发出了世界上第一个非特定人连续语音识别系统。1988年,《商业周刊》授予该系统“最重要科学创新奖”。在校期间,李博士还开发了奥赛罗棋的世界冠军计算机系统,该系统于1988年击败了人类的世界冠军。

  在信息技术高速发展的今天,计算机的应用已经渗透到各个领域,成为人们交流的重要工具。而对中国人来说,中文输入无疑已经成为利用计算机进行信息处理的瓶颈。由于语音是人最自然的表达方式,所以研究语音技术,尤其是如何改善语音技术,使之更适合于中文,将是我们未来继续研究的方向。但是由于客观条件的限制,短期内语音识别还不能成为主要的输入方式。在未来5年里,键盘很可能仍然是主流的输入方式。

  近年来,虽然中文输入的速度有显著的改善,但是仍然比英文慢数倍。因此,我们希望将最新的自然语言技术加上键盘、语音和手写体识别技术,结合成一个最人性化、最迅速的输入方式,以多通道的输入方式给计算机的中文输入带来革命性的变化。

  目前,中文输入有很多种方法,如五笔、仓颉、双拼等。从上海的一家权威机构对70万中文用户进行的调查中可以发现,目前约有97%的人使用拼音作为主要的输入方式。相比其他输入法,拼音输入法非常简单,无需另外培训。但目前的拼音输入方法也存在着许多问题:由于拼音输入不包含音调的信息,所以输入有很大程度的歧义;目前拼音输入界面也非所见即所得,修改、选择都很不方便。这浪费了中国人很多时间,而且输入的困难也会间接影响其他方向的发展,如internet的发展(网页的内容、搜索的方便、电子商务的普及、电子邮件等)。所以,建立一个适合中文用户的拼音输入方法非常必要。


  拼音输入中的问题及解决


  我们运用语言学、信息论和概率论统计的方法,从超大规模的语料库中挖掘不同颗粒度的各种语言知识,研究新的语言模型和算法,以实现真实文本的分析、处理和理解。我们搜集了大量的数据,用来研究中文分词、四声、声学模型等特殊问题,运用语音识别较成熟的统计框架,实现与其他输入输出方式和多通道输入技术的结合。

  中文(汉语)输入之所以困难,其中最大的问题就是中文没有字母表。中文常用的字有6763个,不可能设计一个如此大的键盘用来输入,所以必须寻找合适的输入方法。拼音输入作为目前使用较多的一种输入方法,其最大的问题是拼音输入的音节只有406个,而我们希望计算机能将这406个音节转换成6763个常用的汉字,这就意味着平均一个音节需要对应17个字。问题的关键是如何知道一个音节对应的是17个同音字中的哪一个。

  我们进行中文输入时,通常希望能靠上下文来分析这个音节是哪个字。但是,还有一些看起来不直接但很难解决的问题,如汉语中关于词的概念是不清晰的,对此,语言学家也无法达成共识。

  要解决拼音输入中存在的这些问题,需要从以下几个方面着手:

  1.需要一个强大的语言模型,利用语言学和统计学的知识,以及非常大的语料库,训练出一个系统来实现音字转换,靠上下文和语言的信息辅助转换。我们使用了trigram模型,计算每个词在前面两个词之后出现的概率。

  2.这个方法运用在英文上很简单,因为英文有很多高质量的语料库可用来训练trigram,但是应用在中文上就有几个问题:由于目前中文的大语料库质量都不如英文的,必须经过筛选才能成为高质量的数据库,再运用这个数据库切分词:(1)筛选的问题,如何知道哪些语料好,哪些语料不好,如何筛选是个很重要的问题;(2)标准的词典从何处得来?(3)如何训练和怎样才能对语料库进行合适的剪裁。

  3.我们希望每一个系统做出来,都能适应同一个目标函数,并能有效地降低系统的混乱度。优化词典和分词系统,将其与trigram一起训练。


  拼音输入的用户界面


  其实,中文输入时,我们的目的不应该只是降低错误率,而应以用户为中心,将他们的需求放在首位。因此,做一个易用、高效的用户界面是很重要的。目前在拼音输入时,用户需要在打开的多个窗口中进行操作,界面的不停切换令用户感到非常不方便。另外,中文用户无法享受到如英文中的自动修改等非常方便的功能。实际上,用户在输入时,希望界面是所见即所得的,即像英文一样,非常简单,无模式,敲什么即可看到什么,一目了然,头脑中不需要有任何模式,甚至都不知道其存在的系统,而且系统能够自动帮助用户修改一些输入错误。

  我们认为:新的中文拼音输入可能看起来与英文的word一样,用户可以利用同一个用户界面做英文和中文输入,系统支持中英文混打,能够自动区分中英文,当输入的字符串比较像拼音的时候,就自动转换成汉字;用户可以方便地直接在句子上对拼音或汉字进行修改,无需切换窗口;对于同音字提供更方便的选字表;提供如英文输入中的错误自动纠正,利用足够的上下文自动分析、改正;而且这些功能可以同时使用,也可以根据需要自选。

  在这个方面,我们已取得了一些初步的成果,并开发出了一个技术原型。它体现了一个单窗口的、无模式的、所见即所得的用户界面特点,而且这个原型可以完成自动纠错,并可自动识别中英文的输入。


  多通道输入更适合中国人


  语音作为输入方法是很自然的,平均一分钟可以输入100字,所以语音输入应是从键盘到多通道的第一步。语音输入在未来的汉语中将有很大的希望,其中声学模型和打字模型将是进一步研究的方向。随着crt逐渐被lcd取代,pc可以不必再站在桌面上,而可以躺在桌面上,我们可以用笔来替代鼠标更简单、方便地输入。但是,由于笔输入的速度较慢,而且不是一个好的指令工具,所以让语音和笔相辅相成,不只是简单地拼凑在一起,而是完美地结合,这将是未来的趋势。(根据李开复博士11月19日在清华大学的演讲整理)