学术报告
您的位置:首页 › 学术研究 › 学术报告 › 一位信息时代新语言学...
一位信息时代新语言学者的人生历程 张在云(三)

发布: 2015-12-01 15:14 | 作者: 张在云 | 查看: 1299次

德国斯图加特:建立世界上第一个中文术语数据库


1985年, 原文字改革委员会改名为国家语言文字工作委员会,需要计算语言学方面的人材,冯志伟调入了国家语言文字工作委员会语言文字应用研究所担任计算语言学研究室 主任,得以专门从事计算语言学的研究工作。与此同时,理工科方面仍然很需要他,他也在中国科学院软件研究所担任兼职研究员。

根据中德科技合作协定,冯志伟受中国科学院软件研究所的派遣,于1986年至1988年到德国夫琅禾费研究院新信息技术与通讯系统研究所(FhG)担任客座研究员,从事术语数据库的开发。FhG在德国的斯图加特(Stuttgart),是德国著名的工程研究院,在信息科学和术语数据库方面的研究尤其出色。

术语是人类科学技术知识在自然语言中的结晶。术语数据库是在计算机上建立的人类科学技术的知识库,冯志伟的这项研究属于知识工程的研究,具有重要的意义。

当时还没有很好的汉字输入输出软件,冯志伟克服了重重困难,在FhG使用UNIX操作系统和INGRES软件,建立了数据处理领域的中文术语数据库GLOT-C,并且把这个数据库与FhG的其他语言的术语数据库相连接,可以快速地进行多语言术语的查询和检索,并且能够处理汉字。这是世界上第一个中文术语数据库,具有开创作用。

FhG研究术语数据库的过程中,冯志伟还接触到多种语言的大量术语,他惊异地发现,几乎在每一种语言中,词组型术语的数量都大大地超过了单词型术语的数量。他试图从理论上对这样的语言事实进行解释。

为此,他把数理语言学的理论应用到术语数据库的研究中,提出了“术语形成的经济律”。他证明了:在一个术语系统中,术语系统的经济指数与术语平均长度的乘积恰恰等于单词的术语构成频度之值,并提出了“FEL公式”来描述这个定律。

根 据FEL公式可知,在一个术语系统中,提高术语系统经济指数的最好方法是在尽量不过大地改变术语平均长度的前提下,增加单词的术语构成频度。这样,在术语 形成的过程中,将会产生大量的词组型术语,使得词组型术语的数量大大地超过单词型术语的数量,而成为术语系统中的大多数。

FEL公式从数理语言学的角度,正确地解释了为甚么术语系统中词组型术语的数目总是远远大于单词型术语的数目的数学机理,它反映了语言中的省力原则和经济原则,这是我国学者对于数理语言学中著名的齐夫定律(Zipf's law)的新发展,并从术语的角度说明了语言中的省力原则和经济原则是具有普遍意义的原则。

“术语形成的经济律”提出之后,国内外的术语学界根据术语数据库的事实进行检验,检验证明,在各种术语数据库中,词组型术语的数目确实都大于单词型术语的数目。因此,冯志伟提出的“术语形成的经济律”是适应于各种语言的一条普遍规律,是现代术语学的一条重要的基本定律。

语 言是现实的编码体系,术语形成的经济律反映了用词作为语言材料进行单词型术语和词组型术语的编码时的经济律,这一经济律也可适用于语言编码的其他领域。汉 语中在用单字组成多字词的时候,有限数目的单字组成了为数可观的多字词,多字词以增加自身的长度为代价来保持汉语中原有单字的个数或者尽量不增加原有单字 的个数,体现了组字成词这个编码过程的经济律。多字词也就是双音词或多音词,著名语言学家吕叔湘先生指出,“北方话的语音面貌在最近几百年里没有多大变 化,可是双音词的增加以近百年为甚,而且大部分是与经济、政治和文化生活有关的所谓‘新名词’。可见同音词在现代主要是起消极作用,就是说,要创造新的单 音词是极其困难的了。”吕叔湘先生在这里一方面指出了要创造新的单音词(即单字)极其困难,一方面又指出了双音词(即双字词)的大量增加的现象,这正是组 字成词的经济律的生动体现。

对汉字结构及其构成成分的统计与分析表明,在《辞海》(1979年版)所收的16295个字和GB2312-80国家标准《信息交换用汉字编码字符集·基本集》收入而《辞海》未收的43个字中,简化字和被简化的繁体字(包括被淘汰的异体字和计量用字)以及未简化的汉字共有16339个,它们是由675个不能再分解的末级部件构成的,简化字和未简化的汉字(不包括被简化的繁体字、被淘汰的异体字和计量用字)共11837个,它们是由648个不能再分解的末级部件构成的。由少量的部件构成大量的汉字,体现了部件构成汉字这一编码过程的经济律。

所以,冯志伟提出的术语形成经济律实际上乃是“语言编码的经济律”,这是语言学中的一个普遍规律,它支配着语言编码的所有过程。

冯 志伟在研究FEL公式的同时还提出了“生词增幅递减律”,他指出,在一个术语系统中,每个单词的绝对频度是不同的,经常使用的单词是高频词,不经常使用的 单词是低频词,随着术语条目的增加,高频词的数目也相应地增加,而生词出现的可能性越来越小,这时,尽管术语的条数还继续增加,生词总数增加的速率却越来 越慢,而高频词则反复地出现,生词的增幅有递减的趋势。这个“生词增幅递减律”不仅适用于术语系统,也适用于阅读书面文本的过程,人们在阅读一种用自己不 熟悉的语言写的文本时,开始总有大量不认识的生词,随着阅读数量的增加,生词增加的幅度会逐渐减少,如果阅读者能够掌握好已经阅读过的生词,阅读将会变得 越来越容易。

冯志伟在术语研究中还提出了“潜在歧义论”(Potential Ambiguity Theory,简称PA论),指出了中文术语的歧义格式中,包含着歧义性的一面,也包含着非歧义性的一面,因而这样的歧义格式是潜在的,它只是具有歧义的可能性,而并非现实的歧义,潜在的歧义能否专转化成现实的歧义,要通过潜在歧义结构的“实例化”(instantiation)过程来实现,“实例化”之后,有的歧义结构会变成真正的歧义结构,有的歧义结构则不然。这一理论是对传统语言学中“类型-实例”(type-token)观念的冲击,深化了对于歧义格式本质的认识,近年来,冯志伟又把PA论推广到日常语言的领域,促进了自然语言处理中的歧义消解的研究。

术语是记录科学技术知识的基本单元,哪里有知识,哪里就有术语。因此,术语的研究对于人类知识的系统处理,对于科学技术交流都有着重要的价值。冯志伟把他研究术语的成果写成《现代术语学引论》一书于1997年出版,这是我国第一本关于术语学的专著。


德国特里尔:在马克思的故乡探索汉字的数学结构


1990年至1993年,冯志伟被德国特里尔大学文学院聘任为客座教授。特里尔是一座有2000年历史的古城,又是马克思的故乡,冯志伟有机会经常到马克思的故居了解这位无产阶级革命导师的光辉业绩。

在特里尔大学文学院任教期间,冯志伟用德语给德国学生讲授《汉魏六朝散文》、《唐诗宋词》、《中国现代散文》、《汉字的发展与结构》、《汉语拼音正 词法》、《汉语词汇史》、《机器翻译的理论和方法》等课程。为了讲好课,他苦练德语口语,认真用德语备课,在上每一节课之前,他都要先用德语把讲课的内容 自己对自己叙述一遍或多遍,直到能够熟练地背诵为止,他把“备课”当作了“背课”。由于冯志伟的备课特别认真,课堂教学效果很好,他的讲课受到德国学生们 的一致好评。冯志伟当时的一些学生现在已经成为德国知名的语言学家了。

在教学中,他发现德国学生学习汉语时,学讲话并不困难,最困难的是学汉字。汉字数量多,结构复杂,因此,他开始研究如何教德国学生学习汉字的问题。

他 经过反复的思考,把自己在法国留学时提出的MMT模型运用到汉字结构的教学中,提出了汉字结构的括号式表示法,用这种方法可以把一个汉字按层次分解为若干 个部件,构成一个树形结构,再把这样的树形结构用括号表示出来。学生只要掌握了基本的汉字部件,就可以进一步学会由这些部件构成的整个汉字,以简驭繁,使 汉字便于理解和记忆。这样的方法受到德国学生的欢迎。

冯志伟把他的研究结果写成了《汉字的历史和现状》一书用德文在特里尔科学出版社出版。德国特里尔大学韦荷雅(Dorothea Wippermann)博士1996年在《评 冯志伟新著〈汉字的历史和现状〉(德文版)》一文中指出,冯志伟“在汉字研究中引入了现代的成分分析法。对于这种方法,直到现在为止,许多在专家圈子之外 的普通人还很不熟悉,所知极少。这种分析法认为,汉字是由不同的图形成分组合而成的一个封闭的集合,其中的每一个较大的成分都可以进一步被拆分为较小的成 分,一直被拆分到单独的笔画为止。汉字结构的这种多层次的多分叉的构造图形可以用树形图来表示,这样一来,便为揭示汉字总体结构的研究提供了一种系统性的 理论和方法。这种在中文信息处理中行之有效的成分分析法,对于汉字的研究和学习,也提供了一种新的记忆手段”。

冯志伟在特里尔大学用德语讲授了一系列的汉语语言学课程,并且用德语出版了语言学的专著,显示了他的外语才能。在我国中文系出身的语言学家当中,像冯志伟这样通晓多门外语的人还不多。他不仅是一位善于深思的语言学的理论家,而且还是一位勇于实践的能操多种外国语的多面手。

在德国讲学的这段时间里,有一次他到一位德国教授的家里做客。闲谈中谈到了德国著名诗人海涅 (Heinrich Heine),冯志伟年轻时曾经读过海涅的诗歌和散文,当这位德国教授谈到海涅的《哈尔茨山游记》(Harzreise)时,冯志伟情不自禁地用德语朗诵起来:“Die Stadt Göttingen, berühmt durch ihre Würste und Universität, gehört dem Könige von Hannover”(哥廷根属于汉诺威公国,以它的香肠和大学而闻名于世)。这位德国教授感到非常惊讶,他万万没有想到一个中国人竟然能够 如数家珍地背诵海涅的散文,怀疑地问冯志伟:“你背诵的可能不准确吧?”冯志伟很有信心地回答:“我认为是准确的,这是《哈尔茨山游记》的第一句话。”这 位德国教授从书架上找到了海涅的《哈尔茨山游记》来核对,冯志伟的背诵确实一字不差,果然是《哈尔茨山游记》的第一句话。

冯 志伟年轻时学习外语是非常刻苦的。为了学习英语,他就买一本中型的英汉词典来,一页一页地记忆和背诵,背完一页就撕去一页。几年来,冯志伟先后撕完了英 汉、俄汉、法汉、德汉、日汉等多部词典,他就用这样的笨方法,学会了多门外语。学习外语几乎成了他的一种爱好。当然,掌握了多门外语,使得他对于语言现象 的观察有若干个参照系,他有可能参照多种语言来研究某一种语言的特殊问题。这大概也是冯志伟能够在语言研究中取得成功的一个原因吧!


韩国大田:用英语讲授自然语言处理技术


2001年,他应邀到韩国科学技术院(Korean Advanced Institute of Science and Technology,简称KAIST)电子工程与计算机科学系担任教授。KAIST是韩国著名的理工科大学,学生都是通过严格的考试和数学物理竞赛选出来的精英。他用英语给该系博士研究生开的“自然语言处理-II”Natural Language Processing -II,简称NLP-II)的课程,在备课中,他发现美国Colorado大学的Daniel JurafskyJames Martin的新著《Speech and Language Processing -- An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》(《语音和语言处理 – 自然语言处理,计算语言学和语音识别导论》)是一本很优秀的自然语言处理的教材,这本教材覆盖面非常广泛,理论分析十分深入,而且强调实用性和注重评测技术,几乎所有的例子都来自真实的语料库。他常常想,如果能够把这本优秀的教材翻译成中文,让国内的年轻学子们也能学习本书,那该是多么好的事情!

2002年, 在他回国参加的一次学术讨论会上,电子工业出版社的编辑找到冯志伟,说他们打算翻译出版此书。这位编辑说,电子工业出版社已经进行过调查,目前国外绝大多 数大学的计算机科学系都采用此书作为“自然语言处理”课程的研究生教材,他们希望冯志伟亲自来翻译这本书,与电子工业出版社配合,推出高质量的中文译本。 电子工业出版社的意见与冯志伟原来的想法不谋而合,于是,他欣然接受了这本长达600多页的英文专著的翻译任务,于2003年开始进行翻译。

冯 志伟虽然已经通读过这本书两遍,对于这本书应该说是有一定的理解了,但是,亲自动手翻译起来,却不像原来想象的那样容易,要把英文的意思表达为确切的中 文,下起笔来,总有汲深绠短之感,大量的新术语如何用中文来表达,也是颇费周折和令人踌躇的难题。在韩国教授期间,冯志伟利用了全部的业余时间来进行翻 译,晚上加班到深夜,连续工作了11个月,当翻译完14章(全书的三分之二)的时候,他不幸患了黄斑前膜的眼病,视力出现障碍,难于继续翻译工作,还剩下7章(全书的三分之一)没有翻译,“行百里者半九十”,这7章的翻译工作究竟如何来完成呢?正当冯志伟束手无策、一筹莫展的时候,中国科学院软件研究所的一位年轻的副研究员表示愿意继续他的工作,协助冯志伟完成本书的翻译。这位副研究员把剩下的7章逐一翻译成中文,通过计算机网络一章一章地传给在韩国的冯志伟,冯志伟使用语音合成装置,让计算机把书面的文本读出来,冯志伟通过读出来的语音进行译文的校正,语音合成技术使冯志伟克服了视力不济的困扰,帮助他迈过了重重的难关。2004年,在两人的通力合作下,全书的翻译总算大功告成了,由电子工业出版社以《自然语言处理综论》的书名出版。

这本书的出版受到广大读者的欢迎,而冯志伟为此却损害了自己的视力,他不得不借助于语音合成装置来阅读了。


荣获维斯特奖


2006630日,联合国教科文组织奥地利委员会(Austrian Commission for UNESCO)、维也纳市(City of Vienna)和国际术语信息中心(INFOTERM)给冯志伟教授颁发了维斯特奖(Wüster Special Prize),以表彰他在术语学理论和术语学方法研究方面做出的突出贡献。维斯特(Eugen Wüster1898-1977)是奥地利著名科学家,是术语学和术语标准化工作的奠基人。维斯特奖是专门为那些对于术语学和术语标准化工作有出色成就的科学家而设置的。

下面是冯志伟教授获得的维斯特奖的奖章和奖状的照片:

维斯特奖的奖章

维斯特奖的奖状

冯志伟获得维斯特奖,说明他数十年的努力,终于得到了国际的承认。可惜的是,冯志伟的视力越来越差,当他接受维斯特奖的时候,已经不能看清奖章上面的图案了,他为我国计算语言学和术语学而付出的代价确实是太大了。

冯 志伟今年满七十岁,著述颇丰,多有建树,其内容涉及不少领域,引起国内外不少同行专家的广泛关注和高度评价。他现在已在多家著名出版社出版了二十余部专 著,翻译国外重要论著数十篇(部),并用汉、英、法、德文等撰写了有代表性的重要学术论文百余篇,在国内外许多著名刊物上发表。其著述不胜一一列举。最主 要的代表作如:专著《数理语言学》、《自动翻译》、《现代语言学流派》、《现代汉字和计算机》、《中文信息处理与汉语研究》、《数学与语言》、《自然语言 机器翻译新论》、《应用语言学综论》、《应用语言学新论》、《计算语言学基础》、《计算语言学探索》、《机器翻译研究》、《现代术语学引论》、《自然语言 的计算机处理》、《汉语教学与汉语拼音正词法》、《汉字的历史与现状》(德文版),译著《自然语言处理综论》,等等。他还主持和参与了若干个国家标准的制 定,为我国标准化做出了贡献。他又是《中国大百科全书》、《计算机百科全书》、《数学辞海》、《中国少年百科全书》等大型工具书的撰稿人,为这些权威性工 具书写了不少重要条目。他还为一些当代语言学名著的外文版写导读,如《应用语言学中的语料库》、《语言学中的数学方法》、《译者的电子工具》、《人工智能 在第二语言教学中的应用》,帮助国内读者阅读外文原著。

冯志伟在中国传媒大学招收计算语言学专业方向的博士生,不少毕业的博士生在学术上取得了突出的成绩,他们已经成为我国计算语言学的骨干力量。

冯志伟经过数十年的艰苦努力,终于实现了他使用数学方法研究语言的愿望,并把语言学和计算机科学非常自然地结合起来,取得了多方面辉煌的成就,为语言学、计算机等学科做出了重要贡献,他的这些光彩、亮丽、丰硕的成果琳琅满目,异彩纷呈,多么令人欣慰、激动呀!

过 去的著名语言学家有的只懂社会科学,不懂自然科学;许多人只懂古代汉语、现代汉语或普通语言学,一般只着重研究汉语的语音、词汇、语法或文字等某一个方面 的问题,研究的问题和领域比较单一,他们中的一些佼佼者,至多也只懂得两三门外语,视野不够开阔,语言的纵横向对比研究都不够,有一定的局限性。而冯志伟 先生却懂得理科中的数学、物理、化学和计算机科学,又懂得语言学中的古代汉语、现代汉语、普通语言学和文字学,深研过汉、英、法、德、俄、日等语言的语 音、词汇和语法,并把各方面的知识紧密地结合起来综合应用,在计算机上加以实现,成为文理兼通的语言学专家。冯志伟教授不但能在计算机科学系讲授理科的机 器翻译的方法和技术研究、自然语言处理的算法研究、计算语言学专题研究等艰深的博士课程,而且也能够在中文系讲授汉魏六朝散文、唐诗、宋词、古代汉语、现 代汉语、汉字的历史与结构等饶有风趣的课程,他还能给学生们辅导英、德、法、俄、日等外国语课程,他的散文和诗歌也写得很好,他还是一位翻译专家,出版过 翻译著作。这样的人才是很罕见的。

然 而,冯志伟对于他的这些成就却看得很平淡,他很少对别人谈起他的成就。除了平时喜欢喝白开水和游泳之外,他几乎没有什么特殊的嗜好,他每日粗茶淡饭,过着 非常清贫的生活。他从来不以为自己是什么“专家”,没有任何的架子,总是谦和地对待他的学生和周围的同志。在北京大学中文系59级同学纪念册上,他写下了这样的人生感言:“先天不足,后天失调;岁月蹉跎,艰辛备尝;老当益壮,穷且越坚;平生无悔,褒贬由之。”他始终认为自己是一个很平常的普通人,对于别人的褒贬,他是看得很平淡的。他对于生活的信条是:“在科学探索的过程中,我所知道的东西终究是有限的,而我不知道的东西始终是无限的,只要平生无悔就很好了!

今年是2009年,从1957年 冯志伟下决心来研究数学方法在语言学中的应用这个问题算起,他为我国计算语言学的开创和发展呕心沥血地奋斗了整整五十二年的时间,由于长期的超负荷工作而 积劳成疾,付出了他自己的健康,损害了他的视力,想到他这些不幸,使我们感到一阵阵的辛酸。每当我们回顾冯志伟在五十二年的科学研究中走过人生历程时,总 有一种悲壮的感觉。

冯志伟先生,我们希望你珍惜自己的身体健康,保护你的视力,继续为文科和理科的沟通,为我国科学技术事业的发展,做出更大的贡献。