
| 出版日期:2004-08-02 总期号:1335 本年期号:56 |
|
中文域名简繁体等效文
中国专家参与撰写的第二个IETF标准:RFC3743 李晓东 2004年4月14日,以中国互联网络信息中心(CNNIC)钱华林教授作为作者之一的IETF标准RFC3743《中日韩多语种域名注册标准》(Guidelines for Internationalized Domain Names Registration and Administration for Chinese, Japanese, and Korean)正式发布,这是自1996年以来,我国技术人员主导制定并发布的唯一一个有关互联网基础技术的IETF标准。这一标准直接涉及互联网域名系统这一基础层面,是我国参与互联网国际技术标准制定的一个重大突破。这个RFC是IETF历史上由来自中国大陆专家参与撰写的第二个RFC。 中国互联网络信息中心(CNNIC)作为我国域名注册管理机构,自1998年就开展了中文域名的研究工作,并积极参与有关多语种域名国际标准的制定工作。在此RFC3743之前,国际互联网标准制定组织IETF先后发布的关于国际化域名的技术规范RFC3454、RFC3490、RFC3491、RFC3492没有能够解决中文域名异体等效,特别是中文域名简繁体等效的问题,因此中国互联网络信息中心(CNNIC)联合亚洲其他主要使用汉字的国家和地区(日本、韩国以及我国台湾地区)一起撰写了标准草案,期望从域名注册管理的层面来力图解决这一难题,以保护注册者的利益,并使得用户既可以通过输入简体也可以通过输入繁体来访问中文域名网站。 背景 RFC3743撰写的初衷是一个为中日韩(CJK,Chinese, Japanese, Korean)语言设计的有关IDN注册和管理的指导方针,是以技术手段来保持注册管理方式的实施,主要是包含一个注册和管理的技术解决方案以及与技术解决方案算法相配套的异体字对照表。这个处理方案一样可以被其他具有同样异体等效处理需求的语种所使用。 设计原则 RFC3743的设计基于以下的原则: ·域名字段应当与特定语言相绑定。域名字段可能与很多种语言绑定,但是应该尽量避免这种情况,因为与多种语言绑定的结果可能直接导致这个域名是不可被注册的,因为要根据特定语言的字符集范围来检查域名字段在特定语言集合内的合法性。 ·定义特定语言的有效字符集。虽然Unicode收录非常多的字符,但是并不是任何国家都会使用所有的字符,尤其是没有任何国家将所有字符都定义为合法的字符或者是官方使用的字符。因此对于一个域名字段,应该检查它在所有绑定语言中的正确性,即这个字段中字符的组合是否在所有绑定语言中都是合法的。 ·保留域名的变体。由于在特定语言里,一个名字通常具有很多的异体,因此以此名字作为域名字段的异体应当被保留,以保障拥有者的权益,并在适当的时机由拥有者激活(Activation)或者去活(Deactivation),即加入域名数据库提供域名解析,或者从数据库中移出。 ·常用变体加入解析服务。域名可能有多种异体,但是并不是所有的异体都是常使用的或者正式使用的,其中经常使用的可能只有一小部分,甚至只有一到两个,而只有这些常用异体才应该被加入DNS系统的Zone文件提供解析服务。 ·异体数量应该进行适当收敛。名字可能会有极多的异体或者没有意义的异体组合。比如一个具有10个汉字的名字,如果每个字符都具有一个除本身之外的异体形式,那么它就有1024(1k)个异体形式,而这些异体中,有些是有意义的,有些是无意义的,对这些异体的保留或者解析会导致增加系统的负担,因此,可以采取合理的方式来收敛限制减少这些异体的数量,以减少系统复杂性。 ·名字和异体集合的原子特性。一个名字和它的变体一旦被生成之后,那么就是紧密相关的,应该作为一个包(IDL Package)进行操作,而不能分开操作,以保证它的原子特性。 核心算法和对照表 RFC3743的核心在于一个注册和管理的算法以及算法所使用的异体对照表。 注册和管理算法是这个注册和管理方案的核心,它的核心思想是: 输入是一个域名字段(IDL)以及与之绑定的语言特征,然后根据对照表得到需要加入DNS系统 Zone文件提供解析的建议值,以及要为注册用户保留的保留值。具体到解决中文繁简体等效问题,就是用户输入一个要注册的域名,根据算法,可以得到它的符合使用习惯和相关标准的全繁体以及全简体域名,以及其他的一些变体(包括繁简混杂形式)。 这个算法还有两个配合算法:激活算法和去活算法,用来将保留集合中的域名加入DNS系统Zone文件提供解析,或者将已经加入Zone文件提供解析的域名再转移回到保留集合。 异体对照表是这个注册和管理方案的基础,表中所有码点采用Unicode方式进行表示,每种语言都有与其对应的对照表。对照表的格式为三栏: ·第一栏为有效码点栏:这一栏中所有字符的集合构成了特定语言的有效码点集合,这个集合用来检查用户注册域名的合法性,只有域名所有码点均属于这个集合,这个域名才被认为是在此语言中是合法的; ·第二栏为建议码点栏:这一栏被用来生成IDL的建议值,它表明了有效码点在特定语言环境中的建议值(通常为常用形式或者官方形式);(对于中文而言,就是常用的繁体字或者简体字) ·第三栏是异体码点栏:是指对应于有效码点在特定语言中的所有异体,这一栏被用来生成IDL的所有异体形式。 国际意义 RFC3743发布的意义在于有关国际化域名特别是中文域名的注册和管理将会参照此标准进行实施,比如CNNIC和TWNIC已经开始实施,未来其他NIC,比如Verisign(.com, .net)也可以会参考此RFC进行实施。 IPV6成下一代互联网标准,将从根本上解决目前网络地址面临短缺的问题,未来每个人每个上网设备都会拥有一个属于自己的地址和属于自己的域名。中文字符极为丰富,中文将成为21世纪最为热门和通用的语言,采用中文来作为域名也将会十分有利于记忆和使用,也比较容易解决人们选名的障碍。曾有人担心在国际化域名(IDNs)的发展的问题上,中文字符的差异将会使编制使用中文字符的域名时遇到严重的技术难题,而RFC3743异体字等效互通的技术解决方案可以较好地解决此问题。 IETF主席Fred Baker说:“发展基于Unicode的域名是一项困难的、需要多年艰苦钻研的工作。这对于使用源于汉字文字的亚洲人民而言,更为困难,因为汉字系统和其他互联网上使用的类罗马字符差别很大。我祝贺RFC3743的参与者们,他们通过协作,成功建立了一套发挥DNS优势的系统。” |
|||||||||||||||||||||||||