学术报告
您的位置:首页 › 学术研究 › 学术报告 › 一位信息时代新语言学...
一位信息时代新语言学者的人生历程(一)

发布: 2015-12-01 14:26 | 作者: 张在云 | 查看: 965次

一位信息时代新语言学者的人生历程

—— 中国语文现代化学会会长冯志伟访谈录

2006年12月初,教育部语言文字应 用研究所的著名语言学家冯志伟先生从北京回云南家乡扫墓、探亲、访友,笔者有幸拜访了这位蜚声国内外的学者。由于冯先生退休后几年来都是长期在德、韩等国 讲学,笔者去北京几次都无缘见面。八年阔别,这次老朋友、老同行相见,分外亲热,我和他进行了多次长谈,又浏览了他惠赠的新著,更加深入地了解到他这几年 的学术活动与成就,写成了这篇访谈录。

在我国的学者中,像冯志伟这样文理兼通的跨学科专家是比较少见的。

冯志伟是教 育部语言文字应用研究所的学术委员会委员,又是中国科学院自动化研究所国家模式识别重点实验室的学术委员会委员,横跨了语言学科和自动化学科;冯志伟是中 国语文现代化学会副会长,又是中国人工智能学会理事,横跨了语文研究和人工智能研究;冯志伟是国家社会科学基金语言学科的评审委员,又是国家自然科学基金 和北京市自然科学基金计算机学科的评审委员,横跨了语言学科和计算机学科。在国外,他是德国特里尔大学(University Trier)文学院 的教授,又是韩国科学技术院(KAIST)电子工程与计算机科学系(EECS)的教授,同样也横跨了文科和理科的不同学科。在学术发展的历史长河中,语言 学属于人文科学,计算机和自动化属于自然科学。语言学的基础是语文,计算机和自动化的基础是数学,在传统的教育体系中,语文是文科的典型代表,数学是理科 的典型代表,它们之间的区别泾渭分明。一个学者能够在性质如此差异的不同学科中取得重要的成就,成为这些学科的学术带头人,冯志伟确实是一位在信息时代这 个特殊的环境下成长起来的新型的语言学者。

北大十年:数理语言学之梦

冯志伟于1939年4月15日出生于昆明大东门外(今天长春路东段)一个小商人之家,下有弟妹六人,他排行在前。父母虽然文化不 高,负担很重,却很有卓识远见,除起早睡晚搞好土杂店的经营、节衣缩食来供养七个子女念书外,尚能严格教育和督促子女搞好学习。冯志伟自幼聪慧沉静,善于 思考,勤奋好学,在长春路东升小学读书时,就品学兼优,成绩出众,初高中都以第一名的高分考入全省著名的重点学校昆明一中就读,是昆明一中有名的顶尖学 生,文理兼能,多次受到学校和任课教师的 嘉奖。这个学校曾培育了无数的英才,如获诺贝尔奖的著名物理学家杨振宁、著名哲学家艾思奇、著名史学家吴晗、著名出版家黄洛峰,等等,多年前就曾经是这个 学校的学生。冯志伟在昆明一中读书时,从初一到高三,年年名列前茅,他在默默地追赶着那些曾经给昆明一中带来声誉的前辈的老校友们。

1957年高中毕业时,冯志伟才十八岁,是班上年龄最小的学生之一,却以优异成绩考入北京大学地球化学专业本科就读,一心想研究化学元素在地球上的分布规 律。他的兴趣主要是在稀有元素上,它们在元素周期表上是排在比较后的元素,是国家很需要的自然资源。冯志伟非常热爱地球化学专业,当时也没有任何想从事其 他学科的想法,这个学科确实也很有意思。地球化学在57年属于国家要重点发展的尖端学科之一,在地球科学里面,地球化学也是属于最先进的学科。

他入学后曾经对于五光十色的矿物发生了浓厚的兴趣,他研究这些矿物的晶体结构,如醉如痴地观察着不同结晶形状的各种矿物,六方晶系的钻石、方斜晶系的石 墨……,这些立体结构不同的矿物有着差异很大的物理和化学性质。冯志伟深深地被大自然的奥秘吸引住了,他曾经想研究矿物中最为人们喜爱的宝石,探索各种宝 石成矿的规律。

就在冯志伟认真学习地球化学的前后,国外兴起了数理语言学,建立起了完善的理论和方法,并且在大学中开设了数理语言学的课程,从而使数理语言学作为一个独立的学科出现在现代语言学的百花园中,日益芬芳、灿烂。

1956年,我国开始注意到国外数理语言学的兴起和发展,在我国科学研究的发展规划中,确立了名称叫做“机器翻译,自然语言翻译规则的建立和自然语言的 数学理论”的课题。这个课题包括两部分:一部分是机器翻译,另一部分是自然语言的数学理论,也就是今天我们所说的“数理语言学”。

不 久,我国语言学家刘涌泉在《中国语文》上,发表了《谈数理语言学》一文,非常简要地介绍数理语言学这个新兴学科的主要内容和研究方法。但是,由于数理语言 学研究要求研究者同时兼具语言学和数学的背景,当时我国的语言学界,还没有这样的学者,因此,虽然数理语言学与机器翻译的研究同时列入了我国的科学研究发 展规划,实际上我国只是开展了机器翻译的研究,并没有开展数理语言学的研究。由于缺乏文理兼通的人才,我国的数理语言学在难产中。

北京 大学为我国数理语言学的研究造就了这样的人才。北京大学高举五四“民主”和“科学”的大旗,学术空气非常自由,北京大学的图书馆藏书丰富,学生可以阅读到 各种最新的科学杂志,了解到国内外最新的学术发展动向。这种学术自由的气氛大大地开阔了学生的眼界,使他们有可能紧紧跟上国际学术发展的前沿。当时正在北 京大学地球化学专业研究化学元素分布规律的冯志伟,在北京大学图书馆馆藏的1956年出版的美国《信息论》  (IRE Transaction, Information Theory)杂志上,偶然地看到了美国语言学家乔姆斯基(N.  Chomsky)的论文《语 言描写的三个模型》(Three  models for the description of language),被乔姆斯基在语言研究中的新思想深深地吸引了。乔姆斯基追求语言描写的简单性原则,为了使用有限的手段描述变化无穷的自然语言,在他 的文章中,建立了形式语言和形式文法的新概念,他把自然语言和计算机程序设计语言置于相同的平面上,用统一数学方法进行解释和定义,提出了语言描写的三个 模型。用数学方法描写的这三个模型是这样地抽象,它们既可以用于描写自然语言,又可以描写计算机程序设计语言,达到了“有限手段的无限运用”的目标。冯志 伟预感到这种语言的数学描写方法,将会把自然语言和程序设计语言紧密地结合起来,在信息的处理和研究中发挥出巨大的威力。他经过反复考虑,下决心来研究数 学方法在语言中的应用这个问题,并经学校同意,他便从理科转到中文系语言学专业从事语言学的学习。转入语言学专业之后,冯志伟一面学好传统语言学的各门课 程和外语,一面利用课余时间,继续研究数理语言学的问题,他尽量充分地利用北京大学图书馆丰富藏书和最新的杂志,跟踪着国际上数理语言学发展的足迹,他成 为了班上名列前茅的学生。

1961年秋天,团中央机关建立了这样一个制度:团中央书记处的每一位书记至少直接联系一个团支部,作为了解情况和结交青年朋友的一个渠道。1961年11月,北京市团市委为团中央第一书记胡耀邦选 定北京大学59级语言专业团支部作为联系点。胡耀邦首先找这个班的团支部书记和宣传委员了解情况,问他们:“你们同学中有学习特别专心的吗?”他们回答介 绍说:“我们班有个同学叫做冯志伟的学习特别好,他已经学了英语、俄语、德语和日语,而且达到相当水平,但是好像不特别关心政治”。胡耀邦表示:“我希望 找冯志伟同学亲自谈一谈”。

团中央第一书记邀请的消息传到了北京大学,同学们都非常激动。1961年11月11日,北京大学团委安排冯 志伟和其他4名同学一起到住在富强胡同的胡耀邦家做客。晚饭后,他们乘公共汽车进城,当时北京的公交车数量严重不足,乘车的人很多,他们没有挤上从颐和园 路过北大开往西直门的32路汽车,急中生智,干脆从北大乘车到起点站颐和园,再从颐和园乘车直奔北京市内,当他们赶到富强胡同时已经是晚上9点多钟了。胡 耀邦还在一直等待着同学们,他也等得有些着急了。

年轻的同学们在会客室坐下,胡耀邦给每个同学递上了一个苹果,依次询问每个人的姓名、籍贯。

当胡耀邦问到冯志伟的时候,他说:“你就是那个学了4门外国语的同学冯志伟吗?你学习那么努力,挨批了没有?”冯志伟笑着回答说:“其实我学习只是出于对语言学的兴趣,自己只是想多学点东西而已。”

冯志伟对于外语的领悟很灵敏,到1961年底的时候,他已经学会了4门外语,而且能够使用这4种外语阅读数理语言学的外文文献了。由于他对于数理语言学 有强烈的兴趣,数理语言学是交叉学科,冯志伟除了学好中文系的语言学课程之外,还要自学数学和外语等不同的学科,时间比别的同学紧,没有很多的时间来关心 政治。而当时学校的政治气氛特别浓,不太主张学生读书,冯志伟就显得有些古怪:明明是学中文的文科学生,一有空就做些数学题,经常还读点外文书,这在当时 是很不合拍的。有的同学认为冯志伟是在走“只专不红”的道路,对他颇有微词。所以,第一次见面,胡耀邦就已经洞察秋毫,关切地问冯志伟,“挨批了没有?”

冯志伟坦率地向胡耀邦汇报了自己的想法,讲述了自己学习数理语言学的动机和过程。胡耀邦听后,正色地对冯志伟说:“事实将证明你的道路是正确的!” 胡耀邦的话斩钉截铁,掷地有声。

胡耀邦还严肃地回过头来对其他同学说:“外语学习是很重要的,我们需要对外交流,语言是很好的交流工具呀,懂了外语可以扩大眼界。”同学们专心地聆听着,默默地思考着,会客室的气氛显得特别肃穆。

接着胡耀邦换了语气,开始和大家轻松地聊天。他告诉大家:“学生的主要任务是学习知识。我在高中的孩子写了篇作文,老师出题目说什么是学生的主要任务? 我的孩子写道:学生的主要任务是提高政治水平。”他笑着对同学们说,现在不少人对学生的主要任务的认识不很清楚,其实,道理很简单:“学生的主要任务是学 习。”

谈话结束时已经很晚了。同学们告别了胡耀邦,一路谈论着他的教导,总算赶上了末班车顺利地回到了北京大学。

几天后胡耀邦又邀请同学们到他家做客,并且在院子里和同学们一起照相留影。下面是冯志伟珍藏的这张与胡耀邦合影的老照片。

胡耀邦(前排1)与冯志伟(中,裤子打补丁者)等同学合影

胡耀邦亲自的接见和亲切的谈话给冯志伟极大的鼓舞,从此,他学习数理语言学更加理直气壮了。

1964年冯志伟大学毕业,考上了北京大学语言学理论的研究生,经导师岑麒祥教授同意,他的研究生毕业论文的题目定为《数学方法在语言学中的应用》,在我国语言学研究中,首次系统地、全面地来研究数理语言学这个新兴学科。

这样,我国的数理语言学研究便首先在北京大学正式地开展起来,北京大学中文系的著名语言学家王力先生和朱德熙先生都支持冯志伟的数理语言学研究,王力先 生曾对冯志伟说:“语言学不是很简单的学问,我们应该像赵元任先生那样,首先做一个数学家、物理学家、文学家、音乐家,然后再做一个合格的语言学家。”朱 德熙先生曾对冯志伟说:“数学和语言学的研究都需要有逻辑抽象的能力,在这一方面,数学和语言学有共同性。”北京大学的这些第一流的学者,总是站在科学的 最前沿来看待学术的发展,他们的鼓励给了冯志伟以巨大的力量。

1964年研究生学习时的冯志伟

但是这时候发生了一件事情,就是1966年的5月25日,第一张马列主义的大字报贴到了北大饭厅的门口。冯志伟记得很清楚那一天是5月25日,因为那一 天他要去买一本法文词典,当时的《法汉词典》编得很不好,很简单,单词太少了。冯志伟学过日文,可以阅读日文文献,他的导师岑麒祥教授说:“你去买本《仏 和词典》吧!”(说明:《仏和词典》是《法日词典》的日语写法),于是,冯志伟就到五道口的外文书店买了一本《仏和词典》。中午时分,冯志伟刚刚在五道口 外文书店旁边的小饭馆吃完中饭回到北京大学,看到学校的大饭厅前人头攒动。他伸头一看,大饭厅前面的墙上贴着大字报呢。上面写着:“陆平、彭佩云你们要走 往何方?”,言词很激烈,陆平是北大的校长,彭佩云是北大的党委书记,彭佩云现在是全国妇联的领导,他们俩当时被认为是北京市委的黑线人物,当时彭真已被 揪出来了。冯志伟一看到大字报,就知道他的论文泡汤了,一场很大的革命就要来临了。果然,过了几天《人民日报》就发表了社论说,“这是一张马列主义的大字 报”,一下把火点起来了。北大进入“文化大革命”的混乱状态,王力先生和朱德熙先生等等,都被打成反动学术权威,冯志伟的数理语言学研究也随之失去了支 持,这个新兴学科的研究被这场“革命”扼杀在襁褓之中。冯志伟的数理语言学之梦破灭了,他随之离开了北京大学,被分配到云南边疆的一所中学里教物理课。


边疆教书:“文革”浩劫中的艰苦探索

在云南边疆的中学任教期间,冯志伟不信“读书无用论”,不埋怨大材小用,更不考虑生活的艰苦和清贫,除身体力行,认认真真地教好学生,努力搞好本职工作外,还朝朝暮暮,年复一年,利用一切业余时间,密切地关注着国外学术发展的动向。数理语言学 仍然像磁石一样强烈地吸引着他。在云南边疆那样闭塞的环境中,他设法利用业余时间,潜心研究数理语言学的问题,在信息不足、资料缺乏的困难条件下,阅读了 他所能搜集到的各种关于数理语言学的资料,他懂得英、法、德、俄、日等五种外国语,阅读了散见于各种外文书刊中的数理语言学文献,紧跟着世界上数理语言学 发展的步伐。就在“读书无用论”甚嚣尘上的时候,冯志伟总结了当时国外数理语言学的成果,于1975年,以昆明五中教师的名义,写成了《数理语言学简介》的长篇文章,在重庆的一家自然科学杂志《计算机应用与应用数学》上发表,向国内计算机界和数学界详尽地介绍了数理语言学的最新情况,这一篇文章犹如空谷之足音,使当时被文化大革命封闭了世界学术进展的中国学术界了解到国外信息时代已经到来的最新动态。冯志伟在这篇文章中兴奋地告诉广大读者:“信息时代的到来,使得语言学、数学和计算机科学结下了不解之缘,语言研究和计算机技术已经到了非结合不可的地步了!”如今,我国计算语言学界的许多著名学者,就是从这篇文章中最早了解到语言学与数学的联系,从而决心走上了研究计算语言学的学术道路。他们当时对于冯志伟这个中学老师的名字极为惊叹,没有想到在云南边疆的中学里竟然有这样能够洞察国际学术最新动态的高手!

在云南边疆的这些日子里,冯志伟利用业余时间潜心研究了汉字熵值的测定问题。汉字的“熵”(entropy)是汉字所含信息量大小的数学度量。为了进行语言文字的 信息处理,必须知道文字的信息量,因此,也就必须测定文字的熵。这是信息时代语言文字处理应该研究的基础性问题。近几十年来,国外学者已陆续测出一些拼音 文字字母中的熵,而汉字数量太大,各个汉字的出现概率各不相同,因此,要计算包含在一个汉字中的熵是一个十分复杂和繁难的问题。

为了计 算汉字的熵,首先需要统计汉字在文本中的出现频度,由于70年代我们还没有机器可读的汉语语料库,哪怕小规模的汉语语料库也没有,冯志伟只得根据书面文本 进行手工查频,他请了几个志同道合的朋友,用手工帮助他进行汉字频度的调查。他给这些朋友每个人发了一箱卡片,请他们帮助统计在选定样本资料中的汉字出现 的频度,并且把这些频度记录在卡片上。在朋友们的帮助下,冯志伟用了将近10年的时间,对数百万字的现代语文本(占70%)和古代汉语文本(占30%)进行手工查频,从小到大地逐步扩大统计的规模,建立了6个不同容量的汉字频度表,最后根据这些不同的汉字频度表,逐步地扩大汉字的容量,终于计算出了汉字的熵。

为了给汉字熵的测定建立一个坚实的理论基础,冯志伟提出了“汉字容量极限定律”,他用数学方法证明:当统计样本中汉字的容量不大时,包含在一个汉字中的 熵随着汉字容量的增加而增加,当统计样本中的汉字容量达到12366字时,包含在一个汉字中的熵就不再增加了,这意味着,在测定汉字的熵的时候,统计样本 中汉字的容量是有极限的。这个极限值就是12366字,超出这个极限值,测出的汉字的熵再也不会增加了。在“汉字容量极限定律”的基础上,冯志伟在包含 12370个不同汉字的统计样本的范围内,初步测出了在考虑语言符号出现概率差异的情况下,包含在一个汉字中的熵为9.65比特。由此得出结论:从汉语书 面语总体来考虑,在现代汉语和古代汉语的全部汉语书面语中,包含在一个汉字中的熵是9.65比特。80年代,我国北京航空学院计算机系刘源教授使用计算机 统计汉字的频度,并计算出汉字的熵为9.71比特。刘源教授使用计算机计算的结果与冯志伟手工测定的结果相差不大,足以说明冯志伟对于汉字熵的测定是十分 认真的。冯志伟这项极为重要的科学研究说明,由于汉字的熵大于8比特,所以,汉字不能使用8比特的单字节编码,而要使用16比特的双字节编码。这项研究为 汉字信息的计算机处理提供了基本的数据,对于汉字编码、汉字改革和汉语的规范化都有重要的指导意义。