机器翻译之探讨

本文涉及的产品
语种识别,语种识别 100万字符
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 摘 要:所谓机器翻译就是利用电子计算机把一种自然语言表达转换为另一种自然语言表达。其处理策略主要有三种。一,基于规则转换的机器翻译系统;二,基于例子的经验系统;三,基于词转换的机器翻译系统。其中,主要以第一种系统在我国的产品化机器翻译软件中比较多见。

摘 要:所谓机器翻译就是利用电子计算机把一种自然语言表达转换为另一种自然语言表达。其处理策略主要有三种。一,基于规则转换的机器翻译系统;二,基于例子的经验系统;三,基于词转换的机器翻译系统。其中,主要以第一种系统在我国的产品化机器翻译软件中比较多见。从二十世纪五十年代开始,机器翻译已经经历了五十多年的开发与研究,耗费了大量的人力和财力,翻译效果却依旧不能令人满意。本文希望通过对机器翻译发展瓶颈的论述,开阔研发人员的思路,促进技术革新,提高机器翻译水平的质量。


关键词:机器翻译  辅助翻译


一、绪论

       随着信息时代的到来,全球经济一体化进程的推进和网络技术的发展,人类迫切需要跨越信息沟通与交流中的语言障碍,显然人工翻译已经无法满足当前信息时代的需求,机器翻译就成为当前迫切需要解决的问题。信息时代的到来带来了信息爆炸和信息革命,网络和通信技术的腾飞为我们搭建了一个开放的平台。人类可以跨越文化的差异却无法逾越自然语言的鸿沟,机器翻译就是在这样一个背景下开拓其漫长的研究开发的道路,而这条道路远比我们想象的要艰难。

       从机器翻译发展的历史来看,全球许多国家和研究机构投入了大量的时间、人力和财力,经历了希望,失望,再到希望的反复过程。上个世纪四五十年代,伴随计算机的诞生,机器翻译迈出了稚嫩的脚步,由于当时计算机技术方面的原因,起步不久便陷入了停滞的状态,六十年代中期开始进入了对自然语言的语法、语义和语用等基本问题的研究阶段。七八十年代以后,国际计算机语言学界出现了一批新的语法理论,机器翻译开始走向繁荣。九十年代以来,计算机硬件的速度、容量提高促进了机器翻译技术的进步,其主要理论可以分为两大类:理性主义(Empiricist)方法和经验主义(Rationalist)方法。前者又被称为基于规则(Rule-Based)的方法。该理论在机器翻译界一直占据主导地位。随着计算机硬件和机器翻译理论的不断提升,机器翻译应用终于也有了可喜的进展,一部分成果转化成了产品,被推向市场。近年来,随着统计理论、信息论、计算机语言学,语料库语言学等学科的深入,促进了机器翻译相关技术和基础资源的研发。

       当前国内主要机器翻译产品如下:

系统名称

语言对应

翻译处理策略

应用国家和地区

研制开发单位

ICENT

汉英

基于规则,扩充上下文无关文法

中国和英语国家

湖南长沙国防科技大学

华建翻译IAT英汉个人版

汉英、英汉

基于规则,与类比推理和模糊匹配技术有机结合

中国大陆

华建机器翻译有限公司

华建网译中心

汉英、英汉、

俄汉、汉日、

日汉、德汉

基于规则,与类比推理和模糊匹配技术有机结合

中国大陆、香港

台湾、东南亚、

澳大利亚等

华建机器翻译有限公司

华建译通 英汉双向超智能版

汉英、英汉

(简繁体)

基于规则,与类比推理和模糊匹配技术有机结合

中国大陆

华建机器翻译有限公司

东方快车

汉英、英汉

用户词库优先,专业库,逻辑规则库,句法和词法规则库

内地、香港、台湾、新加坡

交大铭泰公司

雅信CATS

汉英、英汉

日、德、俄、西互译

预测术语提取,翻译记忆,词典提示,模糊匹配

中、英、台湾、香港、及各大语系国家

交大铭泰辅助翻译部

金山快译2002

汉英、英汉

(简繁体)

日汉(简繁体)

字典查找,辅以文法、句法分析

中国大陆

金山软件股份有限公司

迈创多语通英汉双向机器翻译系统

汉英、英汉双向自动翻译

总结自然语言一般表达规律实现多语互译

使用英语和汉语的国家与地区

发明人:孙建军

侯敏

日汉翻译引擎

日汉

基于规则

中国、日本

南京大学

厦门大学多语机器翻译系统XMMMT

英汉、汉英、

多引擎混合策略

中国

厦门大学语言技术中心

译星英汉机器翻译系统

汉英、英汉

语法规则转换,以有定子句文法为基础,结合功能合一文法,词汇功能文法

中国大陆、港台地区、美国、新加坡、澳大利亚

中软网络技术股份有限公司

智达汉英双向机器翻译系统

汉英、英汉

以语料库为基础,采用统计、规则方法以及基于实例的翻译技术


哈尔滨工业大学机器翻译研究室


二、正文

       现阶段机器翻译代表性理论主要有经验主义(Rationalist)方法和理性主义(Empiricist)方法。以下就这两种方法分别论述。

       1.经验主义方法

       经验主义方法又称基于语料库(Corpus-Based)的方法,包括基于统计(Statistics-Based)基于实例(Example-Based)两种方法。其思路是通过对大量的自然语言进行概率运算,依据语言各要素间相似度来构造语言模型,从而达到翻译的目的。在实际翻译过程中,系统对源语料进行分析,之后在数据库中快速搜索,与模版进行模糊匹配,查找最大相似度结构,通过局部修饰成分的调整,实现自然语言的翻译转换。

       经验主义方法的优点:第一,当源语料和数据库中的模版达到一定相似度的时候,翻译的正确率较高,比较贴近自然语言的表达习惯和语法规则。第二,由于计算量相对较小,在单位时间里,系统处理的数据量大,可有效提高翻译的速度,同时对计算机硬件的运算要求也不高。第三,用户通过操作数据库,可针对自身实际情况,自我学习,创建个性化策略,大幅度提升翻译效果。

       经验主义方法的缺点:第一,当源语料和数据库中的模版无法实现匹配的时候,翻译的正确率将完全没有保证,系统的适应性较差。第二,当数据发生错误匹配的时候,翻译结果将缺乏可读性。第三,系统在各种自然语言之间的移植性较差,由于源数据和目标数据是一对一的关系,因此在开发其它语言系统的时候,参照性及借鉴性不突出。

综合上述特点,由于口语系统和专业系统通常语言结构简单,有一定规律可循,因此,经验主义方法对其比较有针对性。

       2.理性主义方法

       理性主义方法通常又称为基于规则(Rule-Based)的方法,可分为基于转换(Transfer-Based)和基于中间语言(Interlingua-Based)两种方法。此理论在机器翻译界一直占主导地位。其思路是由人工或机器辅助先构造供翻译使用的词语信息和句法语义规则库,通过知识表示,知识推理,经由分析、生成等步骤来进行机器翻译。

       理性主义方法的优点:第一,系统的适应性强,当数据库空缺相关数据的时候,系统基于规则可自行生成,译文的可读性强。第二,系统紧凑,数据冗余度小,避免重复数据占用资源。第三,系统的移植性强,便于在一个相对成熟的系统上进行其它语言系统的二次开发,节约研究资源,降低开发成本。

理性主义方法的缺点:第一,由于此方法需要大量的分析和运算,翻译速度相比经验主义慢,因此对计算机硬件的要求较高,系统资源的开销也比较大。第二,系统扩展需要专业人员进一步开发,用户需要不断升级数据库,才能提高翻译质量。

       综合上述特点,篇章和网络语言结构修饰成分多,变化复杂,理性主义方法比较适合这种通用型自然语言翻译系统。

       结合以上两种方法的优缺点,为了能够有效提高机器翻译的质量,把二者集成在一起,形成优势互补,合理配置系统资源,在当前的实际应用中,的确可以显著提高专业翻译人员的工作效率。经过评测专家对“雅信CATS专业翻译平台”进行为期三个月以上的跟踪调查评估,人均单位成本下降2/3,知识库最高稳定增长率为112%。

       无论是经验主义方法还是理性主义方法,在进行机器翻译的时候,都需要对源语言进行分析,分析的过程包括三个部分:词法分析、句法分析、语义分析。在此过程中存在着难以解决和暂时无法突破的瓶颈。下面就分析过程中的一些常见歧义进行简单论述。

       首先是语法结构歧义。比较常见的有动宾型歧义结构,其语法结构为“动词+名词(1)+的+名词(2)”。此结构有三种生成,一种是“动词+名词(1)”组成动宾短语作为“名词(2)”的修饰成分,例如:阅览书籍的学生。另一种是“动词+名词(1)”组成偏正短语作为“名词(2)”的修饰成分,例如:出差人员的名单。再一种是“名词(1)+的+名词(2)”组成的短语做“动词”的宾语,例如:敲打电脑的键盘。还有一种比较常见的是介宾型歧义结构,其语法结构为“介词+名词(1)+的+名词(2)”。此结构有二种生成,一种是“介词+名词(1)”组成介词短语作为“名词(2)”的修饰成分,例如:对于事物的理解。另一种是“名词(1)+名词(2)”组成短语作为“介词”的宾语,例如:对于明天的会议。以上两种歧义结构在日常的语言现象中出现概率非常大,也是机器翻译消歧工作的一个难点。

       其次是语义歧义。比较常见的有词义辨析,早期的词义消歧通常靠人手工编制规则,费时费力。九十年代以后,汉语词义消歧工作得到越来越多的关注。LAM(1997)利用《现汉》中的释义文本和《同义词词林》的词义类,对实词多义词进行词义消歧,平均正确率为45.5%。李涓子(1999)利用《同义词词林》和《人民日报》语料库进行多义词消歧,正确率为52.13%。如果根据词和词之间的组合关系来分化多义词,便能够有效解决这个问题。但对于计算机来说,如何进行词义搭配的描述就成了需要解决的问题。另外,专用名词的识别问题也是影响翻译质量的一个原因。在自然语言中,语句中经常出现人名、地名和企业组织名称,如果系统无法识别的话,即便语句的其它成分都正确地生成,整个译文依旧不具备可读性,甚至于让人不知所云。要是把这些专用名词均制作成词组,倒是可以解决此问题,但请试想一下,若把国内的、国外的、姓名、地址、组织机构名称一一列举,其数据的庞大足以使个人PC系统瘫痪。而要是要求所有的源语料对专用名词进行标注(比如加“下划线”),显然又不太现实。因此,一个优秀的机器翻译系统能正确识别专用名词,那么它的翻译质量便有了一定的保障。再有,语言外部知识对机器翻译的结果同样有着巨大的影响。例如:中阿两国在此基础上达成相互谅解。源语料的“中”是特指中国,而“阿”有可能是阿富汗、阿拉伯、阿尔及利亚、阿曼、阿尔巴尼亚、阿拉伯联合酋长国、阿根廷等多种可能。所以,为了能够保证译文质量,系统还应该具备一定的常识,这就要求研发人员必须将机器翻译自身和外部知识库进行无缝连接,消除译文的背景歧义。还有一个制约翻译效果的因素就是源语料的不规范性,这种情况在网络中表现格外突出。比如形容词名用,名词动用,违规缩略语,造词,造语以及其他各种网络色彩浓重的语言。这些都给机器翻译系统的工作带来极大的麻烦。

三、结论

       当前的机器翻译主要还是以受限辅助翻译系统为主,相对比较成熟的产品均是经验主义方法和理性主义方法的有机结合。即人译机助或机译人助,整个翻译过程是通过人机交互的方式进行,机器翻译还将长期作为专业翻译工作者的得力助手,其前景充满着光明,并带给我们巨大的经济效益和社会效益。因此,有必要一方面做好系统的提升与完善,一方面探索机器翻译与各领域技术的融合。在未来的一段时期内,机器翻译依旧会基本保持现状,并在此基础上翻译质量会有一定幅度提升,但恐怕很难有质的飞跃。机器翻译的未来将寄希望于硬件和软件的技术革新和更多外围学科在计算机机器翻译领域的应用。相信有一天,机器翻译的课题一定会被彻底突破,随着此技术和语音识别、语音合成技术的捆绑集成,人类的沟通与交流会变得更加便利与快捷。

四、结束语

       通过近一个月的调查与研究,我深刻感受到科技发展带给人类社会的便利,以及新学科、新技术所蕴藏着的无限潜力,只要勇于探索,勤奋追求,知识必将造福于人类。

       在此篇论文的写作过程中,得到了中国科学院计算机语言信息工程研究中心黄静副研究员和吴世锋副研究员的大力帮助,在这里深表感谢!


参考文献

[1]刘倬.机器翻译的发展和突破.机器翻译研究进展

[2]何站涛,韩兆强,闫栗丽.机器翻译质量的研究与探讨.机器翻译研究进展

[3]赵红梅,陈肇雄,黄河燕.”X的NP”类歧义句式及基于SC文法的消歧处理.智能型机器翻译研究论文集

相关文章
|
6月前
|
机器学习/深度学习 自然语言处理
机器翻译中的词性标注
机器翻译中的词性标注
70 2
|
6月前
|
自然语言处理
基于规则的机器翻译
基于规则的机器翻译
77 2
|
6月前
|
机器学习/深度学习 自然语言处理 算法
机器翻译中的分词
机器翻译中的分词
86 2
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
机器翻译
【7月更文挑战第9天】机器翻译
78 2
|
3月前
|
机器学习/深度学习 数据采集 自然语言处理
神经机器翻译(NMT)的关键组件
神经机器翻译(NMT)的关键组件
|
6月前
|
机器学习/深度学习 自然语言处理 算法
什么是自然语言处理的机器翻译?
【4月更文挑战第8天】
100 2
|
6月前
|
机器学习/深度学习 自然语言处理 网络架构
神经机器翻译(NMT)
神经机器翻译(NMT)
254 2
|
6月前
|
机器学习/深度学习 自然语言处理
自然语言处理机器翻译
自然语言处理机器翻译
45 4
|
12月前
|
自然语言处理 搜索推荐
机器翻译有哪些应用场景
机器翻译有哪些应用场景
|
人工智能 自然语言处理 搜索推荐
FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗?一文总结机器翻译必备经典模型(3)
FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗?一文总结机器翻译必备经典模型
252 0
FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗?一文总结机器翻译必备经典模型(3)