学会通讯
中国语文现代化学会【第八十四期】通讯

发布: 2016-11-04 20:56 | 作者: 中国语文现代化学会 | 查看: 11178次

迈开汉语拼音走向世界的新步伐(摘编

 

冯 志 伟

教育部语言文字应用研究所研究员  中国语文现代化学会顾问 

 

一、引言

汉语拼音大大提高了汉字学习效率,在电报拼音化、视觉通信、文献编目、排序检索、人力资源管理、人名地名拼写中也得到了很好的应用,在中国受到普遍的欢迎。

1982年在南京召开的ISO/TC 4619届会议上,正式通过了《ISO 7098 文献工作——中文罗马字母拼写法》,汉语拼音从中国的国家规范成为了国际标准。1991年,在巴黎召开的ISO/TC 4624届会议上,对“ISO 7098”进行了技术修改,成为了《ISO 7098信息与文献——中文罗马字母拼写法(1991)》,简称“ISO 70981991)”,ISO 70981991)成为了汉字输入输出的一种便捷的手段。国际标准ISO 70981991)是在《汉语拼音方案》的基础上制定的,为了在国际范围内进一步扩大《汉语拼音方案》的影响,有必要修改ISO 70981991)。ISO 70981991)对于全世界的信息与文献工作具有重要的意义,为了满足当前国内外对汉语拼音实际应用的迫切需要,也有必要修改ISO 70981991)。为此,教育部于20113月成立了ISO 7098修订工作组,启动了ISO 70981991)的修订工作。

201156日,ISO/TC 4638届会议在澳大利亚悉尼召开,我国代表冯志伟在会议上提出了修改ISO 70981991)以便反映当前中文罗马化的新发展和实际应用需要的建议。会后,我国国家标准化委员会(SAC)正式向ISO国际标准化组织提出了修订ISO 70981991)的新工作项目(New Working Item Proposal,简称NWIP)的提案。20125月,ISO/TC 4639届会议在德国柏林举行,ISO 70981991)的修订便正式列入了国际标准化组织的工作日程。2013年6月在巴黎召开ISO/TC 46第40届全体会议,冯志伟在会议上正式向ISO/TC 46秘书处提交了ISO 7098的委员会草案。2014年5月,冯志伟在ISO/TC 46第41届会议上就ISO 7098(1991)的修订问题重申中国的立场。20156月的ISO/TC4642届全会在北京召开,冯志伟做了“ISO7098国际标准及其在人机交互中的应用”的报告,这个报告受到了各国代表的热烈欢迎。在63日上午的WG3会议上,冯志伟又介绍了各国对于ISO 7098DIS稿提出了意见以及我国对于这些意见的处理情况,向与会人员出示了DIS的修改稿。会后,冯志伟把经过修改的DIS稿正式提交ISO TC 46秘书处,根据ISO/TC4641届全会的决议,ISO TC 46秘书处于20157 27日把DIS的修改稿分发给ISO/TC 46的各成员国进行委员会内部投票并获得全票通过。

 2015 1112日,我国代表冯志伟向ISO/TC 46秘书处提交了ISO 70982015的最终版本,并转ISO总部出版。20151215日,ISO总部正式出版了ISO 70982015,作为新的国际标准向全世界公布了。这是汉语拼音迈向世界的新步伐,将进一步扩大汉语拼音在国际上的影响。20151215日由ISO总部正式出版的ISO 70982015有两个最为引人注目的特点,一是把汉语拼音按词连写的规则引入到国际标准中,二是把汉字-拼音转写的自动译音方法引入到国际标准中。这样就有助于大大地提高文献自动化工作的水平,使汉语拼音在国际文献工作中发挥更大的作用,进一步推动汉语拼音走向世界。

 

二、把汉语拼音按词连写的规则引入到国际标准中

汉语中大多数的常用词都是多音节词,因此,在国际文献和信息工作中,把单音节的拼音连写为多音节的汉语单词是理所当然的事情,有必要把按词连写的规则引入到国际标准中。在单词与单词之间插入空白成为了在书面上使用字母的语言的一个标准,在汉语拼音中,也有必要使用空白来分割单词而不是分割音节。为此,冯志伟在ISO 70982015中提出了拼音“歧义指数”(ambiguity index)的概念。

目前,在汉语语言学中,普通单词的边界的区分还比较困难,不过,专有名词中的单词的界限还是相对清楚的。在国际文献和信息工作中,把不同的汉语拼音单音节连接起来构成多音节的专有名词,从而避免拼音的歧义,不仅是必要的,而且也是可能的。

由于这样的考虑,在国际标准ISO 70982015中,增加了命名实体(naming entities)按词进行音节连写的规定:在汉语拼音中,对于人名、地名、语言名、民族名、宗教名这5种命名实体,都要按词进行连写。这样就把“按词连写这个重要的方法引进了国际标准中,与ISO 70981991)比起来,是一个重大的进展。

1967年第2届联合国地名标准化会议做出决议,要求世界各国、各地区在国际交往中都使用罗马字母拼写地名,做到每个地名的专名部分只有一种罗马字母的拼写形式。这就是“单一罗马化”原则。

地名的单一罗马化,对使用非罗马字母文字的国家来说,就必须制定一个本国地名罗马化方案,经联合国地名标准化会议通过后,作为地名罗马字母拼写的国际标准。1977年9月,在雅典召开的联合国第3届地名标准化会议上,我国代表提出“采用汉语拼音作为中国地名罗马字母拼法的国际标准”的提案,获得会议通过。第3届联合国地名标准化会议决定中指出,“注意到《汉语拼音方案》在语言学上是完善的,用于中国地名的罗马字母拼法是最合适的”,“建议采用汉语拼音方案作为中国地名罗马字母拼法的国际标准”。从此,用《汉语拼音方案》拼写我国地名成为中国地名单一罗马字母拼写的国际标准,在以罗马字母为文字(例如英文、德文、法文等)的各国出版物上,都应当根据《汉语拼音方案》来拼写中文地名中的专名部分。

根据“单一罗马化”原则,在对中文地名进行罗马字母拼写的时候,只能选择单一的罗马化的拼音形式,这就是《汉语拼音方案》规定的拼音形式。

在国际标准ISO 70982015中,还对于“译音”(transcription)做了说明。ISO 70982015为把汉字路名正确地译音为拼音路名提供了明确的规范。

 

三、把汉字-拼音转写自动译音的方法引入到国际标准中

ISO 70982015还把汉字-拼音转写自动译音方法引入到国际标准中,提出了在计算机辅助文献工作中,对命名实体进行自动译音(automatictranscription)的两种方法:一种是按音节全自动译音,一种是基于规则的按单词半自动译音。按音节全自动译音的方法能够把汉字文本自动地译音为彼此之间由空白分开的单音节的拼音。使用这样的方法,北京市这个地名可以全自动地译音为/bei//jing//shi/3个音节。这种方法很容易用计算机程序来实现,但是译音出来的音节的歧义指数较高。

另一种是基于规则的按单词半自动译音的方法。在与语言有关的科学研究和工业生产中,是一个基本的和必要的概念。在很多应用领域中,需要把文本切分为单词。在翻译中,数出单词的个数是计算翻译工作成本的主要方法。在翻译记忆系统和机器辅助翻译系统中,单词切分是这些系统的一个主要的功能。在术语抽取系统中,单词切分也起着重要的作用,在术语管理和机器辅助翻译系统中,有时也要提供单词切分的功能。大多数的内容管理系统和数据库都要根据单词来进行搜索。在内容搜索时,也要对文本进行切分,以便使用搜索词与待搜索文本进行匹配。此外,搜索功能还需要关于单词边界的知识,文本-语音转换系统要在单词的基础上来生成语音,因此要求在单词查询时进行单词切分,等等。各种自然语言处理系统必须把文本切分为单词才能实现其功能。词典资源是根据所收单词的规模来评测的,因而通常都要评估它的单词个数。为了满足科学技术发展的要求,在中文罗马字母拼写中,应当把由汉字表示的命名实体译音为拼音表示单词。在目前的技术条件下,全自动的单词切分难以达到很好的质量,可以采用基于规则的按单词半自动译音的方法。

命名实体基于规则的按单词半自动译音可以使用如下的资源:1.一套译音规则:在ISO70982015的规则中提出了命名实体译音的一般规则。这些规则可以用作命名实体半自动译音的资源。2.一个相关的译音词典:最近出版的《汉语拼音词汇(专名部分)》包含了大多数的命名实体的拼音译音,可以用作命名实体半自动译音的另一个资源。使用这样的方法,地名“北京市首先被切分为/bei//jing//shi/3个音节,然后把/bei//jing/结合成/beijing/,使它与行政区划名/shi/分开,最后再把每一个部分的首字母大写,译音为/Beijing Shi/

ISO 7098:2015提出,如果在按词译音过程中出现歧义或问题,后编辑人员可以根据译音词典,使用人机交互找出合适的命名实体的译音。所以,这样的方法是半自动的。这种半自动方法的译音质量很高,音节的歧义指数较小甚至可以减少到零。