2.26 基于深度学习的机器翻译研究进展
机器翻译研究如何利用计算机实现自然语言的自动转换,是人工智能和自然语言处理的重要研究领域之一。机器翻译大致可分为理性主义和经验主义两类方法。
基于理性主义的机器翻译方法 , 主张由人类专家通过编纂规则的方式 , 将自然语言之间的转换规律“传授”给计算机。这种方法的主要优点是能够显式描述深层次的语言转换规律。然而,理性主义方法对于人类专家的要求非常高,不仅能够通晓源语言和目标语言,而且需具备一定的语言学和翻译学理论功底,同时熟悉待翻译文本所涉及领域背景知识,还需熟练掌握相关计算机操作技能。这使得研制系统的人工成本高、开发周期长,面向小语种开发垂直领域的机器翻译因人才稀缺而变得极其困难。此外,当翻译规则库达到一定的规模后,如何确保新增的规则与已有规则不冲突也是非常大的挑战。因此,翻译知识获取成为基于理性主义的机器翻译方法所面临的主要挑战。
基于经验主义的机器翻译方法 , 主张计算机自动从大规模数据中“学习”自然语言之间的转换规律。随着互联网文本数据的持续增长和计算机运算能力的不断增强,数据驱动的统计方法从上世纪 90年代起开始逐渐成为机器翻译的主流技术。统计机器翻译为自然语言翻译过程建立概率模型并利用大规模平行语料库训练模型参数,具有人工成本低、开发周期短的优点,克服了传统理性主义方法所面临的翻译知识获取瓶颈问题,因而成为 Google、微软、百度、有道等国内外公司在线机器翻译系统的核心技术。尽管如此,统计机器翻译仍然在以下六个方面面临严峻挑战。
● 线性不可分:统计机器翻译主要采用线性模型,处理高维复杂语言数据时线性不可分的情况非常严重,导致训练和搜索算法难以逼近译文空间的理论上界。
● 缺乏合适的语义表示:统计机器翻译主要在词汇、短语和句法层面实现源语言文本到目标语言文本的转换,缺乏表达能力强、可计算性高的语义表示支持机器翻译实现语义层面的等价转换。
● 难以设计特征:统计机器翻译依赖人类专家通过特征来表示各种翻译知识源。由于语言之间的结构转换非常复杂,人工设计特征难以保证覆盖所有的语言现象。
● 难以充分利用非局部上下文:统计机器翻译主要利用上下文无关的特性设计高效的动态规划搜索算法,导致难以有效将非局部上下文信息容纳在模型中。
● 数据稀疏:统计机器翻译中的翻译规则(双语短语或同步文法规则)结构复杂,即便是使用大规模训练数据,仍然面临着严重的数据稀疏问题。
● 错误传播:统计机器翻译系统通常采用流水线架构,即先进行词法分析和句法分析,再进行词语对齐,最后抽取规则。每一个环节出现的错误都会放大传播到后续环节,严重影响了翻译性能。由于深度学习能够较好地缓解统计机器翻译所面临的上述挑战,基于深度学习的方法自 2013 年之后获得迅速发展,成为当前机器翻译领域的研究热点。基于深度学习的机器翻译大致可以分为两类方法。
● 利用深度学习改进统计机器翻译:仍以统计机器翻译为主体框架,利用深度学习改进其中的关键模块。
● 端到端神经机器翻译:一种全新的方法体系,直接利用神经网络实现源语言文本到目标语言文本的映射。
下面对这两类基于深度学习的机器翻译方法进行简要介绍。