学术报告
您的位置:首页 › 学术研究 › 学术报告 › 一位信息时代新语言学...
一位信息时代新语言学者的人生历程(二)

发布: 2015-12-01 14:30 | 作者: 张在云 | 查看: 1061次

从北京到法国:研制世界上第一个汉语到多种外语的机器翻译系统

粉碎四人帮之后,迎来了科学的 春天。高等学校开始招生。毛泽东主席生前对于大学招生做过指示:“大学还是要办的”,但接着他又指示:“我这里主要说的是理工科大学还要办”。毛泽东在他 的指示中没有说文科大学还要办。这样,大学招生时,首先恢复的是理工科大学招生,而文科没有招生。冯志伟渴望着早日回到科学研究的岗位上去,他决定,既然文科不招生,那就报考理工科,于是,他报考了中国科学技术大学研究生院,毅然参加理工科大学的入学考试。1978年,原来毕业于北京大学中文系研究生的文科学生冯志伟,以优异的理科成绩考上了中国科学技术大学研究生院信息科学系的研究生,又开始了理科的学习,从云南边疆回到了北京。

在中国科学技术大学研究生院学习期间,冯志伟很快就在理工科的杂志上发表论文。1979年,《计算机科学》杂志创刊,他就在该杂志创刊号上发表了《形式语言理 论》的长篇论文,用严格的数学表达方式向计算机科学界说明数理语言学中的形式化方法如何推动了当代计算机科学的发展,并且指出;在数理语言学研究中发展起 来的形式语言理论,事实上已经成为了当代计算机科学不可缺少的一块重要的理论基石,计算机科学绝不可忽视形式语言理论。许多人认为这篇文章一定是资深的计 算机科学家写的,后来,当计算机界的一些专家了解到,这篇论文的作者竟然是文革前北京大学中文系的一个文科研究生的时候,感到非常惊讶。

不久,冯志伟被中国科学技术大学研究生院选送到法国格勒诺布尔理科医科大学应用数学研究所(IMAG)自动翻译中心(GETA)学习,师从当时国际计算 语言学委员会主席、法国著名数学家沃古瓦(B. Vauquois)教授,并专门研究自动翻译和数理语言学问题。沃古瓦教授是国际计算语言学委员会的创始人,是当时国际计算语言学的领军人物,他领导的 GETA在机器翻译的理论和实践上都做出了出色的成绩,冯志伟在GETA良好的学习环境中,可以了解到机器翻译发展的最新情况,可以学习到当代机器翻译最 前沿的技术。冯志伟喜欢数学,而沃古瓦教授是数学家,他们都深知自然语言的形式理论对于构建机器翻译系统的重要性。

在法国留学期间,冯 志伟的主要工作是进行汉语与不同外语的机器翻译研究。开始时,他使用的自然语言形式理论是乔姆斯基的短语结构语法,他试图使用短语结构语法来进行汉语的自 动分析。早在1957年,冯志伟就接触到乔姆斯基的形式语言理论,他对于乔姆斯基的理论是有深入了解的。乔姆斯基根据形式语法的原理,提出了短语结构语法 作为自然语言形式描述的一种手段,这种语法在自然语言处理中得到了广泛的使用。国内外的许多机器翻译系统都采用乔姆斯基的短语结构语法作为系统设计的基本 理论依据。根据乔姆斯基的短语结构语法,表示句子结构的树形图中的每一个结点只有一个相应的标记,结点与标记之间的这种关系是一种单值标记函数的关系。这 种单值标记函数表示的语言特征是十分有限的,因而在机器翻译中进行汉语的自动分析时,会出现大量的歧义问题,难于区分句法结构相同而语义结构不同的汉语句 子,这种分析法是短语结构语法在分析汉语时一个致命的缺点。

当时冯志伟在法国研制开发机器翻译系统的实践中,就敏锐地认识到短语结构语法的这种致命缺点。

有一天,沃古瓦教授和冯志伟讨论汉语自动分析的问题。冯志伟坦率地向沃古瓦教授说:“乔姆斯基的短语结构语法对于法语和英语的分析可能没有多大问题,可是,用这种语法来分析汉语,几乎寸步难行”。

沃古瓦教授用好奇的目光看着冯志伟,他希望冯志伟进一步阐述自己的看法。冯志伟举例对沃古瓦教授作了如下的说明:

在汉语中可以说“点心吃了”,实际上是“点心被吃了”,但汉语一般不用“被”字;汉语中还可以说“张三吃了”,实际上是“张三把点心吃了”。“张三”是 个名词短语NP(Noun Phrase),“点心”也是个NP,“吃了”是个动词短语VP(Verb Phrase),这两个句子的规则都是:S 'NP+VP,其中,S(Sentence)表示句子,它们的层次相同,词序相同,词性也相同,但它们却有截然不同的含义,一个是被动句,一个是主动句。 我们怎么来解释这样的差异呢?如果我们使用短语结构语法,用计算机来分析这两个不同的句子,计算机最后做出来的肯定是一样的树形图,它们的差别只是在叶子 结点上的词不一样,整个树形图的上层都是同样的S'NP+VP,这样在结构上相同的句子为什么会有不同的语义解释,从而产生不同的含义?使用短语结构语法 显然是解释不了的,而中文里到处都是这样的句子,因为中文里的被动关系有不同的表示方法,有时主动和被动在形式上没有明显的区别,可以从句子的上下文和意 念上来加以区分。在这种进退两难的局面下,唯一的出路就是根据汉语语法的特点改进乔姆斯基的短语结构语法,设法使用一种新的方法来描述汉语。

沃古瓦教授耐心地听完了冯志伟的说明,他从沙发上站起来惊叹地说:“汉语真是一种langue terrible (法语:糟糕的语言)”。他说:“哪种语言能够不分主动和被动,人吃了和被人吃了怎么能是一样?怎么这么乱?”

冯志伟向沃古瓦教授解释道:其实中国人一点儿也不感觉到乱,我们中国人在说话时是分辨得很清楚的,因为我们中国人知道在一般情况下,人是不能被吃的。所 以“小王吃了”的语义不能是“小王被吃了”,而点心它不吃东西,所以“点心吃了”必定是“点心被吃了”。汉语是靠词汇的固有语义来解决语法问题的,但是对 于你们法国人来讲,并不存在这样的问题。所以,我们不能按照法语的思考方法来处理这个汉语的问题,我们必须另辟蹊径!

沃古瓦教授是一个知识广博、眼界开阔的学者,他鼓励冯志伟沿着这个思路继续探索。他对冯志伟说:“乔姆斯基的短语结构语法也不一定永远正确嘛!”

在冯志伟告别时,沃古瓦教授兴奋地说:“我相信,你一定能找出一种汉语自动分析的新方法。”

这次和沃古瓦教授的谈话使冯志伟深刻地认识到,乔姆斯基的短语结构语法在汉语自动分析时确实出现了极大的困难。这种困难甚至连沃古瓦教授这样世界第一流 的计算语言学家也承认了。作为中国的科学工作者,他必须想出一种新的办法,来克服短语结构语法的缺点。不然,他现在进行的汉语自动分析就很难搞下去了。

这一天夜里冯志伟很不平静,翻来覆去总在思考这个问题。第二天清早,冯志伟走到沃古瓦教授的办公室,他明确地向沃古瓦教授提出:我们正面临一个新的挑 战,我们必须要思考一种新的语法理论来解决这个问题。沃古瓦教授完全同意冯志伟的意见,他进一步鼓励冯志伟探索新的理论和方法来解决汉字自动分析中出现的 这个困难问题。

在沃古瓦教授的鼓励下,冯志伟对这个问题反复进行了思考。他观察到:“小王吃了”和“点心吃了”这两个貌似相同的句子在 词汇的语义上有很大的不同,“小王”在语义上是一个“人”,在一般情况下,“人”是“吃了”这个行为的主动者,而“点心”在语义上是“食品”,在一般情况 下,“食品”是“吃了”的被动者,是“吃了”的对象。在短语结构规则S'NP+VP中,如果我们不要把NP看成一个不可分割的单元,而把NP进一步加以分 割,使用若干个特征来代替NP这个单一的特征。例如,在“小王吃了”中,我们把NP分解为“NP | 人”两个特征,在“点心吃了”中,我们把NP分解为“NP | 食品”两个特征,这样一来,就有可能在计算上把它们分解开来了。在计算机处理语言时,特征也就是“标记”,冯志伟提出,如果我们使用“多标记”来代替短语 结构语法中的“单标记”,就有可能大大地提高短语结构语法描述语言的能力,我们就可以使用改进后的这种语法来描述汉语,实现汉语的自动分析。这就是冯志伟 提出的关于“多标记”的设想。

冯志伟对于短语结构语法的另一个改进是使用多叉树代替短语结构语法的二叉树。乔姆斯基曾经提出乔姆斯基范 式,他认为自然语言的结构具有二分的特性,因此他主张在自然语言处理中使用“二叉树”(binary-tree)。冯志伟认为在汉语中存在着“兼语式”和 “连动式”等特殊句式,它们都不具备二分的特性,因此,冯志伟主张使用“多叉树”来代替“二叉树”,从而提高短语结构语法描述汉语的能力。例如,“请小王 吃饭”是一个兼语式的句子,其中的“小王”做前一个动词“请”的宾语,又做后一个动词“吃饭”的主语,在计算机处理时,究竟是分析为“请 / 小王吃饭”,还是“请小王 / 吃饭”,我们将处于进退维谷的境地。如果我们采取三分,把这个句子分析为“请 / 小王 / 吃饭”,可以避免分析树的交叉,得到唯一的分析结果。

经过在计算机上编写程序进行潜心的钻研和反复的试验,冯志伟提出了“多叉多标记树 模型”(Multiple-labeled and Multiple-branched Tree Model,简称MMT模型),在MMT模型中,他采用多值标记函数来代替短语结构语法的单值标记函数,使得树形图中的一个结点,不再仅仅对应于一个标 记,而是对应于若干个标记,他还使用多叉树来代替二叉树,这样便大大地提高了树形图的标记能力,使得树形图的各个结点上,都能记录足够多的语法语义信息, 把句子中所蕴含的丰富多采的信息充分地表示出来,这种多值标记函数的理论,从根本上克服了乔姆斯基的短语结构语法在描述自然语言时的严重缺点,提高了其有 限的分析能力,限制了其过强的生成能力。显而易见,冯志伟的MMT模型是对乔姆斯基短语结构语法的一个带有实质意义的重要改进,这个模型提出后,立即引起 了国际计算语言学界的高度重视,在1982年于布拉格召开的国际计算语言学会议 (COLING'82) 上,在1983年于北京召开的国际中文信息处理会议(ICCIP'83)上,在1984年于香港召开的东南亚电脑会议(SEARCC'84)上,冯志伟都 介绍了他提出的MMT模型。沃古瓦教授在国际计算语言学会议COLING'82的大会发言中,也赞扬了冯志伟的研究工作。COLING是计算语言学界最高 水平的学术会议,冯志伟是我国第一个参加COLING会议的学者。他在这些国际会议上的发言,引起了国际学术界对汉语自动句法分析和汉语自动语义分析的兴 趣。他的MMT模型是我国学者在汉语自动句法-语义分析方面最引人注目的早期研究成果,直到20世纪90年代以后,我国计算语言学界才开始注意到汉语的自动句法-语义分析的研究,比冯志伟的MMT模型晚了十几年。

就在冯志伟提出MMT模型的同时,国外一些计算语言学家也看到了短语结构语法的局限性,分别提出了各种手段来改进它。例如1983年卡普兰(R. M. Kaplan)和布列斯南(J. Bresnan)提出的“词汇功能语法”、1983年马丁·凯依(Martin Kay)提出的“功能合一语法”、1985年盖兹达(G. Gazdar)等提出的“广义短语结构语法”、1985 年珀拉德(C. Pollard)提出的“中心语驱动的短语结构语法”等,都采用了“复杂特征”来描述自然语言,他们所谓的“复杂特征”实际上也就是冯志伟提出的“多值标 记”,名异而实同。所以,冯志伟提出的MMT模型,是世界计算语言学者对乔姆斯基的短语结构语法进行改进的一个重要方面和不可分割的组成部分,MMT模型 是80年代较早提出的一个旨在改进短语结构语法的形式化模型,当时我国学者在这方面的研究在国际上是处于前沿地位的。

1984年荷兰阿 姆斯特丹北荷兰出版社出版的多卷专著《计算机科学基础研究》第9卷《自然语言处理的计算机模型》一书( 由意大利米兰大学主编 )中,曾详细介绍了冯志伟的MMT模型,并评论说:“冯氏关于独立分析-独立生成的主张,关于尽可能地从源语言分析中获取多方面信息的主张,是当前自然语 言处理研究中的一个重要进展”。

冯志伟还结合汉语的特点需要,研究了采用MMT模型来解决汉语自动分析的各种问题。他指出,在汉语的自 动分析中,采用“多值标记”的必要性更加明显。这是因为汉语的句子不能只用词类或词组类型等简单特征来描述,汉语句子各个成分的词类、词组类型、句法功 能、语义关系、逻辑关系之间,存在着极为错综复杂的关系,如果只采用简单特征,就无法区分各种歧义现象,达不到汉语自动处理的目的。

具 体地说,这是由于:1. 汉语句子中的词组类型(或词类)与句法功能之间不存在简单的一一对应关系;2. 汉语句子中词组类型(或词类)和句法功能相同的成分,它们与句子中其它成分的语义关系还可能不同,句法功能和语义关系之间也不是简单地一一对应的;3. 汉语中单词所固有的语法特征和语义特征,对于判别词组结构的性质,往往有很大的参考价值,除了词组类型这样的简单特征之外,再加上单词固有的语法特征和语 义特征,采用多值标记来描述,就可以判断词组结构的性质。

冯志伟还提出了用于多值标记的汉语“特征-值”系统,特征可分为静态特征和动 态特征两大类。其中,静态特征有:词类特征、单词的固有语义特征和它的值、单词的固有语法特征和它的值,动态特征有:词组类型特征和它的值、句法功能特 征、语义关系特征、逻辑关系特征。在自动句法语义分析中,静态特征是计算机进行运算的基础,计算机依赖于这些预先在词典中给出的静态特征,通过有穷步骤的 运算,逐渐计算出各种动态特征,从而逐步弄清楚汉语句子中各个语言成分之间的关系,达到自动句法语义分析的目的。

冯志伟在法国留学期 间,了解到法国语言学家特斯尼耶尔(L. Tesniere)的从属关系语法和语法“价”的概念,他用这种语法来研究汉外机器翻译问题,首次把“价”(valence)的概念引入我国的机器翻译研 究中,他把动词和形容词的行动元(actant)分为主体者、对象者、受益者3个,把状态元(circonstant)分为时刻、时段、时间起点、时间终 点、空间点、空间段、空间起点、空间终点、初态、末态、原因、结果、目的、工具、范围、条件、作用、内容、论题、比较、伴随、程度、判断、陈述、附加、修 饰等27个,以此来建立多语言的自动句法分析系统,对于一些表示观念、感情的名词,也分别给出了它们的价。他还把从属关系语法和短语结构语法结合起来,在 表示结构关系的多叉多标记树形图中,明确地指出中心语的位置,并用核心(GOV)、枢轴(PIVOT)等结点来表示中心词。这是我国学者最早利用从属关系 语法和配价语法来进行自然语言计算机处理的尝试,他提出的3个行动元和27个状态元的汉语配价系统,经过了机器翻译实践的检验,证明是行之有效的。这个汉 语配价系统为汉语配价的研究奠定了初步的理论基础,后来学者们提出的诸多汉语配价系统,与冯志伟在MMT模型中的这个汉语配价系统大同小异。

冯志伟根据机器翻译的实践,提出了表示从属关系语法的从属树(Dependence Tree)应该满足如下5个条件:1. 单纯结点条件:从属树中,只有终极结点,没有非终极结点,从属树中的所有结点所代表的都是句子中实际出现的具体的单词;2. 单一父结点条件:在从属树中,除了根结点没有父结点之外,所有的结点都只有一个父结点;3. 独根结点条件:一个从属树只能有一个根结点,这个根结点,就是从属树中唯一没有父结点的结点,这个根结点支配着其他的所有的结点,4. 非交条件:从属树中的树枝不能彼此相交;5. 互斥条件:从属树中的结点之间,从上到下的支配关系和从左到右的前于关系之间是互相排斥的,如果两个结点之间存在着支配关系,它们之间就不能存在前于关 系。冯志伟提出的这5个条件比1970年美国计算语言学家罗宾孙(J. Robinson)提出的从属关系语法的4条公理更加直观,更加便于在机器翻译中使用。

冯志伟在法国研究的另一个问题是生成语法的公理 化方法。冯志伟从公理化方法的角度来研究乔姆斯基的形式文法,他把乔姆斯基的形式文法同数学中的“半图厄系统”(semi-Thue system)相比较,指出了乔姆斯基的形式文法,不过是数学中的公理系统理论在语言分析中的应用而已,语言就是由文法这一公理系统从初始符号出发推导出 的无限句子的集合;文法的规则是有限的,文法中的终极符号和非终极符号的数目也是有限的,可是,由于语言符号具有递归性,文法这一公理系统就能够根据有限 的符号,通过有限的重写规则,递归地推导出无限的句子来。冯志伟的研究,从数学的基础理论方面揭示了形式文法的实质。

冯志伟根据他提出 的MMT模型,于1981年完成了汉-法/英/日/俄/德多语言机器翻译试验,建立了FAJRA系统。 在IBM-4341大型计算机上,把二十多篇汉语的文章自动地翻译成英文、法文、日文、俄文、德文。这是世界上第一个汉语到多种外语的机器翻译系统,开创 了多语言机器翻译系统之先河。

冯志伟的研究从理论和实践上都改进了短语结构语法,受到了导师沃古瓦教授的赞赏。冯志伟急着想把他的成果应用到中国的科技信息文献的大规模翻译方面,建立一个实用的机器翻译系统,因此,实验报告一写完,他就马上离开法国回到了祖国。

回到北京,冯志伟想到的第一件事情就是到北京大学拜见他的老师著名语言学家王力先生,向王力先生汇报在法国学习的收获。早年冯志伟在北京大学中文系开始 研究数理语言学的时候,王力先生就支持过冯志伟的研究,在北京大学求学期间,冯志伟曾经认真地听过王力先生讲授的《古代汉语》、《汉语史》、《中国语言学 史》、《清代古音学》等课程,学习成绩优异,这些课程,为他后来的计算语言学研究奠定了坚实的基础,冯志伟永远忘不了他的恩师王力先生。

1982年春天,冯志伟和他的老同学吴坤定(现为北京出版社编审)一起到北京大学燕南园去看望王力先生,一进门,王力先生就高兴地请他们坐下,王力先生 对冯志伟说:“听说你到法国之后已经改行学习自然科学了,现在,你有了很好的数理化基础,因此也就有了科学的头脑,这些都是很宝贵的财富,在语言学研究中 随时用得着”。冯志伟向王力教授汇报了他在法国研究多语言机器翻译的收获。王力先生细心地听着,他对冯志伟说:“我前年在武汉开的中国语言学会成立大会上 曾经说,我一辈子吃亏就吃亏在我不懂数理化。现在你懂得数理化,就不会像我这样吃亏了,我相信你今后一定会做出更好的成绩”。接着,王力先生又说:“20 多年前我曾经对你说过,我希望你学习赵元任先生。当然,这是很难的。赵元任先生由哲学家、物理学家、数学家、文学家、 音乐家做底子,最后才成为世界著名的语言学家的。我一辈子都想学他,但是,我的数理化基础差,没有学好。你现在到法国学习了自然科学,已经具备学习赵元任 先生的条件了,我再一次提醒你,你要向赵元任先生学习,而且一定要学得比我好”。王力先生这些语重心长的话,给了冯志伟极大的鼓励,他决心按照王力先生的 教导,把数理化的知识和语言学的知识结合起来,做一个信息时代的新型的语言学家。

从法国回国之后,冯志伟在中国科技信息研究所计算中心 担任机器翻译研究组的组长,在王力先生的鼓励之下,他利用当时北京遥感技术研究所的IBM-4361计算机,于1985年进行了德-汉机器翻译试验和法- 汉机器翻译试验,建立了GCAT德-汉机器翻译系统和FCAT法-汉机器翻译系统,检验了MMT模型分析汉语和生成汉语的能力,试验结果良好。可惜由于资 金缺乏,不能开展更大规模的实验,他要建立实用性机器翻译系统的愿望没有马上实现。

1982年秋天,冯志伟应北京大学的邀请,在北京大学中文系汉语专业开设了“语言学中的数学问题”的选修课。这是国内首次在高等学校全面地、系统地讲述数理语言学的课程,受到学生们的欢迎。北京大学前任校长、著名数学家丁石孙教授在他的专著《数学与教育》一书中,对冯志伟的这门课程作了如下的评价:“1982年,北京大学中文系开设了《语言学中的数学问题》,这是给汉语专业学生开的选修课程,许多同学对这门学科产生了很大的兴趣,经过一个学期的学习,同学们初步认识了现代数 学的发展给语言学注入了生机,觉得获益匪浅,对语言学这门古老的学科分支的发展充满了信心,而且这一举动冲击了相当多的人的旧概念,使闭塞的中国学术界认 识到,即使在人文科学教育中,数学也在逐渐起作用。”在北京大学讲稿的基础之上,冯志伟写出了我国第一部数理语言学的专著,书名就叫做《数理语言学》,于 1985年8月由上海知识出版社出版。接着,他又出版了《自动翻译》的专著,深入地探讨自然语言机器翻译的理论和实践问题。这两本专著的出版,受到了我国 计算语言学界的欢迎。不少出国学习计算语言学的留学生,出国时都带着这两本书,作为入门的向导。