学会通讯
中国语文现代化学会【第八十四期】通讯

发布: 2016-11-04 20:56 | 作者: 中国语文现代化学会 | 查看: 10759次

中文信息处理的奠基(摘编

 

傅 永 和

国家语言文字工作委员会原副主任  中国语文现代化学会顾问

中文信息处理包括汉语言文字信息处理和少数民族语言文字信息处理。本文只讲汉语言文字信息处理。

 

一、中文信息处理奠基工程

1.汉字输入

古老的汉字进入计算机,这曾经是一个“科学的梦”。20世纪70年代中期,国务院副总理方毅批示:解决汉字进入计算机的问题,由中国文字改革委员会(国家语委前身)负责。1978年12月,由中国文字改革委员会和中国科技情报所在青岛召开“汉字编码学术研讨会”,有近百名汉字编码研究者与会,掀起了汉字编码研究的高潮。此后,一大批实用的汉字键盘输入系统获得国内外发明专利,并在不同领域得到推广应用。这一事实震惊了国人、震惊了世界,对在中华大地普及计算机应用、推动信息技术革命,立下了不可磨灭的历史功绩!

2.汉字交换码

1979年春,中国文字改革委员会、电子工业部和国家标准局组织有关专家研究、编制计算机汉字交换码问题,研制出了国家标准《信息交换用汉字编码字符集·基本集》。该标准于1980年3月发布实施。目前广泛用于我国通用系统的信息交换及硬、软件设计中。

3.汉字输出

利用计算机通用键盘输出汉字,必须把汉字的每个笔画都变成密集的有数据的点才能输出。1980年,中国文字改革委员会和国家标准局组织相关单位联合攻关,于1985年发布了国家标准《信息交换用汉字15×16点阵(宋体)字模集及数据集》。

上述基础工程的完成,为计算机在社会各个领域中的广泛应用,奠定了坚实的基础。

 

二、汉字识别

汉字识别就是用计算机自动识别印刷或写在纸等介质上的汉字。汉字识别分为印刷体汉字识别和手写汉字识别两类。印刷体汉字识别又分为两种。一种是单一印刷体汉字识别(一般为印刷宋体),一种是多种印刷体汉字识别(一般为印刷宋体、仿宋体、黑体、楷体)。手写汉字识别分为联机手写汉字识别、手写印刷体汉字识别、特定人手写汉字识别三种。

目前,印刷体汉字识别已从纸介质印刷文档识别,扩展到计算机芯片、车牌、集装箱、视频中的汉字识别,识别率达99%以上,已完全商用。联机手写汉字识别,其中工整有限自由书写,识别率达97%~99%;完全自由书写,识别率还比较低。

 

三、语音识别

语音识别是指计算机能够确认和辨认发话者及其所讲语音内容,并以文字或语音记录、处理,与发话者会话。

汉语语音识别的类型有:按使用人分类,有特定人语音识别和非特定人语音识别;按词汇量分类,有小词汇量语音识别、中词汇量语音识别和大词汇量语音识别;按发音方式分类,有孤立词语语音识别和连续语音识别。

汉语语音识别从识别对象看,经历了特定人语音识别→非特定人语音识别两个阶段;从识别词汇量看,经历了小词汇量→中词汇量→大词汇量→海量词汇量四个阶段;从识别语种看,经历了单语种语音识别→多语种语音识别两个阶段;从声学环境看,经历了安静实验室环境→平稳噪声环境→复杂噪声环境三个阶段;从识别技术看,经历了音素识别→音节识别→单词识别→连接词识别→连续语音识别五个阶段。

总的来讲,语音识别由朗读式语音识别发展到现实生活中的“真实语言”语音识别,如新闻采访语音、报告讲座、电话语音、会议语音等。其中,电话交谈语音,因信道噪声恶劣、口语现象严重、说话人混叠现象突出等因素,识别难度大。目前,自然式电话对话语音识别率达80%左右。因此,自然语音识别面临着大的挑战。

1.说话人语音识别

说话人语音识别包括说话人辨识和说话人确认。说话人辨识是从说话人集合中判别出测试语音所属的说话人。说话人确认是判断测试语音是否由目标说话人所说。

说话人语音识别已应用于公安司法领域。如对于电话勒索、绑架、电话人身攻击等案件,说话人辨认技术可以在一段录音中查找出嫌疑人,或缩小侦察范围。

2.语种识别

世界上有60亿人口,使用3000多种语言,64%的人口使用14种语言,语种识别有很强的应用价值。如航空、航海的紧急呼救语音信号,经过语种识别系统可以快速查找出是什么语言,防止因语言障碍而延误救援。此外,国防安全中的通信电话监听,语种识别系统可以做到真正的密切、准确监控,节省大量的人力和时间。

3.语音识别的社会应用

(1)语音识别用于智能语音家电、智能车载语音服务。

(2)用于语言学习和评测。

语音评测涉及语音识别、自然语言理解、人工智能、数据挖掘、机器学习等多学科知识。目前,语音评测技术已经达到较高的评测信度,达到了人工评分的水平。

四、汉语自然语言理解

人们按照计算机的特殊需要而设计的计算机语言,习惯上称之为“人工语言”。为了与人工语言相区别,习惯上把人际间的交际语言称之为自然语言。自然语言理解就是研究如何利用计算机分析、理解和生成自然语言的理论和方法。自然语言理解是个极其复杂的研究课题,是一门自然科学和社会科学交叉的学科,涉及计算机科学、数学、语言学、心理学、哲学等学科。目前,汉语理解取得了很多成果,在国际上处于领先地位。

自然语言理解的难点是:

1.至今尚未揭示出人类理解自然语言的机制,只能从功能上局部地模拟人类对自然语言的使用和理解。

2.人理解语言是凭借其全部知识并借助语言环境来体会和联想的,而要让计算机学会语言学知识、推理知识等是比较困难的,因为至今尚未形成知识表达的完整理论,即对人头脑中知识的形成及存储结构等机制还没有弄得很清楚。

3.自然语言是一个开放性的大系统,语言现象十分丰富,它既具有规则性又具有离散性,既具有精准性又具有模糊性,如何将这些教给计算机是相当困难的。

上述三点是各种语言计算机理解面临的共同困难。

汉语有自己的特点,计算机汉语理解还面临一些特殊的问题:

(1)汉语中同音字、同音词的存在,给语音识别和理解造成困难。

(2)汉语亲属称谓词最多,常用的亲属称谓词有60多种,而英语常用的称谓词才十几种,这给外汉机器翻译中的对译带来麻烦。

(3)汉语同义词极其丰富,若要计算机来区分、理解同义词间的细微差别则比较困难。

(4)汉语量词特别丰富,而且有固定搭配;数量词与名词的位置可前可后。这种复杂情况是外汉机器翻译及汉语生成和篇章生成时的一个突出难点。

(5)汉语是词根语,采用连续书写形式,词与词之间没有自然界限,计算机自动分词是中文信息处理领域中继汉字编码输入计算机之后的又一瓶颈问题。

计算机汉语自动分词过程中存在的问题很多,主要问题是歧义切分和未登录词识别,两者是分词精度失落的两大因素。而未登录词(人名、地名、机构名等命名实体及日期、时间等)造成的精度失落是歧义切分造成精度失落的五倍以上。

      目前,计算机汉语自动分词由“先分词后理解”发展成“先理解后分词”,使歧义消解达到了最佳效果。另外,由“基于词(词典)的分词系统”发展成“基于字标注的分词系统”(字包括外文字母、阿拉伯数字、标点符号等),大大提高了分词精度。