搜狗在乌镇互联网大会上发布了实时翻译技术,此后,搜狗语音交互中心技术负责人陈伟详细介绍了背后的技术框架和搜狗的多项核心技术。
这次的语音实时翻译技术是在搜狗知音引擎这个大框架下,通过知音引擎搜狗希望提供从听到说,能理解会思考的能力,涵盖了语音识别、语义理解和语音合成三个主要的能力,而知音引擎提出的口号是「更自然的语音交互」。「其中『更自然』分为三个层次,在识别这块,我们希望在人机使用语音进行交互的过程中,更加自然,接近人和人交互的方式。同时也希望我们的引擎更多理解人语言上的需求,而在合成上则希望表达更加自然。」陈伟表示。
搜狗知音引擎图示
从 8 月份首次发布开始,搜狗知音引擎有了新的进展。基于已有的深度学习平台和技术搭建了自身的语音实时翻译技术。整个技术框架包括了语音识别、机器翻译两个大的方向,整个系统并不是简单的技术堆砌,而需要做非常多的细节优化以及系统调优,主要包括了语音断句、语音识别、文本断句以及机器翻译。
搜狗语音实时翻译
首先是语音断句,会通过能量检测和基于深度学习模型的方式进行断句,通过对语音信号中每一帧进行语音 (用 1 表示) 和静音 (用 0 表示) 的判断,生成一个很长的包含 0 和 1 的判决序列。之后要对判决序列进行平滑处理,最终生成的序列中在 0 和 1 交界的地方就可以认为是一个语音的边界,作为后面断句非常重要的依据。陈伟表示:「语音断句有几个好处,静音片段不进行语音识别,大大提升解码效率。同时语音片断可以分割成多句并行识别,大大提高了语音识别的效率。」
语音断句
其次就是语音识别,就是把语音转化成文本,其中语音识别会非常依赖两个模型,一个是声学模型,描述了发音单元对应的模型和声音信号之间的相似性。另一个是语言模型,描述了识别结果中词和词之间连接的可能性,从而保证了识别输出结果更加通顺、流畅,符合正常的发言习惯。
从 2012 年开始,搜狗开始组建语音团队,使用的声学建模技术一直在演进,目前比较稳定的线上系统是 CLDNN 系统,陈伟说:「它集合了三种不同结构,是一个复合的神经网络结构。CNN 可以对变换起到不变性的作用,因此它能够比较稳定地提取出一些恒定的特征。第二块是长短时记忆模型,能够把非常长的上下文,历史或者未来的信息融入到当前的识别中来。还有一块是 DNN,可以提取深层的抽象的特征。这三层复合式结构融合在一起,形成了目前我们使用的主流结构。」
深度学习技术的不断发展,声学模型训练流程逐渐从复杂变的简单,端到端的技术被逐步使用,比如 CTC 的引入,声学建模的单元从之前的共享状态扩大到了 cdphone、音节或者字,CTC 的引入可以省去之前烦琐的模型训练过程。「我们线上主要在用的结构就是 CLDNN+CTC,目前这个模型的准确率无论从第三方的评测、还是厂商对比评测都已经证明了目前我们在语音识别技术方面的领先性。」陈伟表示。
语音识别的声学模型
除了声学模型,在语言模型方面,ngram 模型使用了固定窗长的方式,当前词只和前面固定长度的历史词有关系,而搜狗在语言模型上使用了 RNNLM 模型,思考建立当前词和历史所有词之间的联系,通过对声学模型和语言模型的共同优化,语音识别效果得到了比较大的提升。
语音识别的语言模型
在语音断句、语音识别之后的第三个阶段是文本断句。首先通过内容平滑把一些没有具体意思的词去掉使句子变得比较通顺。然后通过规则和模型两种方法进行语句划分和加标点。陈伟认为,在语音识别和翻译之间,最为关键的一个桥梁就是文本断句,这个模块是搜狗的语音同传技术可以应用的重要原因。而另外一个保证翻译做到实时的技术是输出判断,用户一直在说话,系统需要决定语音识别输出结果中哪部分可以送给翻译,哪一部分需要暂时缓存下来暂时不进行翻译,这也是搜狗语音同传在今后需要着重优化和改善的功能。
第四部分是机器翻译,以前的方法更多是把整个的翻译切分成单词、短语,把中文、英文短语之间的映射关系建立起来,对应关系建立起来以后,使用语言模型再对译文进行词序或者短语顺序的调整,保证译文尽可能的通顺,这就是统计机器翻译的技术。
近三年来基于神经网络的机器翻译技术逐渐成为主流,通过端到端的方法将翻译平行语料进行了映射,整个框架分为了编码器-注意力机制-解码器的结构,在同传技术里,搜狗用到了双向 GRU 技术构建编码端的结构。通过 attention 机制在源端和目标端文本间进行对齐并生成当前时刻的句子级向量表示,并送至解码端,解码端逐词解码输出翻译结果。
搜狗的NMT
「从翻译本身来讲,之前大家用的那套翻译模型,跟我们以前在输入法上用的打字模型差不多,你打一堆拼音,拼音怎么转化成中文,而翻译就是你打一个英文,这个英语怎么转化成汉字,用到的技术就叫统计机器翻译 SMT」,搜狗语音交互技术中心负责人王砚峰表示,「现在的方法是基于神经网络,和以前的统计机器翻译是完全不同的技术流派。我们所说的深度学习改进比较大的三个领域,第一是图像识别,第二是语音识别,第三很有希望的就是机器翻译」。
对于和谷歌不久前发布的神经机器翻译技术,搜狗和谷歌使用的模型区别不大,但谷歌的神经网络比较深,做到了 8 层,而搜狗最多做到 5 层。陈伟对此的解释是「我们主要完成的任务是语音实时翻译,因此在保证翻译精度的同时,要兼顾速度,我们展现的是语音识别加翻译连在一起的效果,因此需要整体进行评估,这毕竟是实时的翻译,不是输入一个文本,输出翻译文本,任务就结束了,而是演讲者一直在讲,他的中文识别结果实时展现,同时英文译文也需要快速地输出,因此我们要尽量把时延降低。完成这个产品要在速度和精度上做一个折衷。」
而深度学习技术中,最终的效果不仅和算法相关,还和数据密不可分。「真正的模型是需要跟数据结合非常紧密,你只有有了大的数据才能学习出复杂的模型,刚才的模型结构非常的复杂,我会觉得对目前机器翻译而言,搜索公司在语料上面的积累,非常有助于我们在很多领域取得很好的机器翻译效果。」陈伟表示。搜狗每天语音请求次数在 1.9 亿次,代表每天都可以收回来大概 16 万小时的数据,这些数据再加上搜狗自身在深度学习技术的积累,使得其在语音识别取得比较好的效果,从而带来更加准确的翻译结果。陈伟说:「语音实时翻译技术中,翻译对接在识别后面,因此只有识别提供非常准确、可靠的结果以后,翻译的威力才能发挥出来。错误较多的结果是无法准确翻译出来的,这也是其他家没有把翻译推到现实场景中的原因之一。」
谷歌神经机器翻译推出后,宣布将 GNMT 投入到了非常困难的汉语-英语语言对的翻译生产中,这引起了业内的极大的关注。微软也发布了万能翻译器,支持语音识别、拍照识别、直接输入翻译功能,官方表示它也可以实现多达 100 人间实时翻译交谈。而搜狗领先的机器翻译技术也已经开始了应用,目前,根据此前在乌镇的实际效果评比,以及一些人工判断,搜狗语音实时翻译的准确率在 90% 左右。搜狗表示会上线翻译产品,用户输入文本时会自动翻译成英文。此外,也会和一些电视厂商进行一些合作。
据维基百科介绍,人类目前大概有 6000 多种语言。自人类在未建成的「巴别塔」下不欢而散以来,实现全人类之间的顺畅交流一直是我们的梦想。现在,人工智能方法让我们看到了真正实现这一梦想的希望。这也是我们机器翻译让大众持续兴奋、让技术公司和研究人员保持动力的最大原因。
正如王小川所说,语言上是我们最需要做的,因为我们主页做输入法和搜索都是和文字信息打交道,但文字信息是人工智能里最难的一件事,我们还专注在这件事情上,文字领域的人工智能怎么发展。
©本文为机器之心原创,转载请联系本公众号获得授权。