搜狗知音引擎再进一步,实现语音实时翻译

本文涉及的产品
文档翻译,文档翻译 1千页
文本翻译,文本翻译 100万字符
语种识别,语种识别 100万字符
简介: 搜狗在乌镇互联网大会上发布了实时翻译技术,此后,搜狗语音交互中心技术负责人陈伟详细介绍了背后的技术框架和搜狗的多项核心技术。

搜狗在乌镇互联网大会上发布了实时翻译技术,此后,搜狗语音交互中心技术负责人陈伟详细介绍了背后的技术框架和搜狗的多项核心技术。


这次的语音实时翻译技术是在搜狗知音引擎这个大框架下,通过知音引擎搜狗希望提供从听到说,能理解会思考的能力,涵盖了语音识别、语义理解和语音合成三个主要的能力,而知音引擎提出的口号是「更自然的语音交互」。「其中『更自然』分为三个层次,在识别这块,我们希望在人机使用语音进行交互的过程中,更加自然,接近人和人交互的方式。同时也希望我们的引擎更多理解人语言上的需求,而在合成上则希望表达更加自然。」陈伟表示。

736E242B-EF6B-4F6E-963B-51982505FB00.jpeg


搜狗知音引擎图示


从 8 月份首次发布开始,搜狗知音引擎有了新的进展。基于已有的深度学习平台和技术搭建了自身的语音实时翻译技术。整个技术框架包括了语音识别、机器翻译两个大的方向,整个系统并不是简单的技术堆砌,而需要做非常多的细节优化以及系统调优,主要包括了语音断句、语音识别、文本断句以及机器翻译。


8A049F27-E4AF-4754-9A30-E651806F839E.jpeg

搜狗语音实时翻译


首先是语音断句,会通过能量检测和基于深度学习模型的方式进行断句,通过对语音信号中每一帧进行语音 (用 1 表示) 和静音 (用 0 表示) 的判断,生成一个很长的包含 0 和 1 的判决序列。之后要对判决序列进行平滑处理,最终生成的序列中在 0 和 1 交界的地方就可以认为是一个语音的边界,作为后面断句非常重要的依据。陈伟表示:「语音断句有几个好处,静音片段不进行语音识别,大大提升解码效率。同时语音片断可以分割成多句并行识别,大大提高了语音识别的效率。」


E27B345D-C421-4F4B-912C-88CBE808699D.jpeg

语音断句


其次就是语音识别,就是把语音转化成文本,其中语音识别会非常依赖两个模型,一个是声学模型,描述了发音单元对应的模型和声音信号之间的相似性。另一个是语言模型,描述了识别结果中词和词之间连接的可能性,从而保证了识别输出结果更加通顺、流畅,符合正常的发言习惯。


91F192E6-BA8F-4F7F-B8F3-AC916FBCC115.jpeg


从 2012 年开始,搜狗开始组建语音团队,使用的声学建模技术一直在演进,目前比较稳定的线上系统是 CLDNN 系统,陈伟说:「它集合了三种不同结构,是一个复合的神经网络结构。CNN 可以对变换起到不变性的作用,因此它能够比较稳定地提取出一些恒定的特征。第二块是长短时记忆模型,能够把非常长的上下文,历史或者未来的信息融入到当前的识别中来。还有一块是 DNN,可以提取深层的抽象的特征。这三层复合式结构融合在一起,形成了目前我们使用的主流结构。」


深度学习技术的不断发展,声学模型训练流程逐渐从复杂变的简单,端到端的技术被逐步使用,比如 CTC 的引入,声学建模的单元从之前的共享状态扩大到了 cdphone、音节或者字,CTC 的引入可以省去之前烦琐的模型训练过程。「我们线上主要在用的结构就是 CLDNN+CTC,目前这个模型的准确率无论从第三方的评测、还是厂商对比评测都已经证明了目前我们在语音识别技术方面的领先性。」陈伟表示。


9F124292-499C-4AF0-A6E6-2C44A80B92A6.jpeg

语音识别的声学模型


除了声学模型,在语言模型方面,ngram 模型使用了固定窗长的方式,当前词只和前面固定长度的历史词有关系,而搜狗在语言模型上使用了 RNNLM 模型,思考建立当前词和历史所有词之间的联系,通过对声学模型和语言模型的共同优化,语音识别效果得到了比较大的提升。


2FA899C8-7EA2-4BB6-9F1F-24663E69DAC1.jpeg

语音识别的语言模型


在语音断句、语音识别之后的第三个阶段是文本断句。首先通过内容平滑把一些没有具体意思的词去掉使句子变得比较通顺。然后通过规则和模型两种方法进行语句划分和加标点。陈伟认为,在语音识别和翻译之间,最为关键的一个桥梁就是文本断句,这个模块是搜狗的语音同传技术可以应用的重要原因。而另外一个保证翻译做到实时的技术是输出判断,用户一直在说话,系统需要决定语音识别输出结果中哪部分可以送给翻译,哪一部分需要暂时缓存下来暂时不进行翻译,这也是搜狗语音同传在今后需要着重优化和改善的功能。


第四部分是机器翻译,以前的方法更多是把整个的翻译切分成单词、短语,把中文、英文短语之间的映射关系建立起来,对应关系建立起来以后,使用语言模型再对译文进行词序或者短语顺序的调整,保证译文尽可能的通顺,这就是统计机器翻译的技术。


近三年来基于神经网络的机器翻译技术逐渐成为主流,通过端到端的方法将翻译平行语料进行了映射,整个框架分为了编码器-注意力机制-解码器的结构,在同传技术里,搜狗用到了双向 GRU 技术构建编码端的结构。通过 attention 机制在源端和目标端文本间进行对齐并生成当前时刻的句子级向量表示,并送至解码端,解码端逐词解码输出翻译结果。


5F3E68FE-F3F8-4D12-8FE1-AA30172E8EB7.jpeg

搜狗的NMT


「从翻译本身来讲,之前大家用的那套翻译模型,跟我们以前在输入法上用的打字模型差不多,你打一堆拼音,拼音怎么转化成中文,而翻译就是你打一个英文,这个英语怎么转化成汉字,用到的技术就叫统计机器翻译 SMT」,搜狗语音交互技术中心负责人王砚峰表示,「现在的方法是基于神经网络,和以前的统计机器翻译是完全不同的技术流派。我们所说的深度学习改进比较大的三个领域,第一是图像识别,第二是语音识别,第三很有希望的就是机器翻译」。


对于和谷歌不久前发布的神经机器翻译技术,搜狗和谷歌使用的模型区别不大,但谷歌的神经网络比较深,做到了 8 层,而搜狗最多做到 5 层。陈伟对此的解释是「我们主要完成的任务是语音实时翻译,因此在保证翻译精度的同时,要兼顾速度,我们展现的是语音识别加翻译连在一起的效果,因此需要整体进行评估,这毕竟是实时的翻译,不是输入一个文本,输出翻译文本,任务就结束了,而是演讲者一直在讲,他的中文识别结果实时展现,同时英文译文也需要快速地输出,因此我们要尽量把时延降低。完成这个产品要在速度和精度上做一个折衷。」


而深度学习技术中,最终的效果不仅和算法相关,还和数据密不可分。「真正的模型是需要跟数据结合非常紧密,你只有有了大的数据才能学习出复杂的模型,刚才的模型结构非常的复杂,我会觉得对目前机器翻译而言,搜索公司在语料上面的积累,非常有助于我们在很多领域取得很好的机器翻译效果。」陈伟表示。搜狗每天语音请求次数在 1.9 亿次,代表每天都可以收回来大概 16 万小时的数据,这些数据再加上搜狗自身在深度学习技术的积累,使得其在语音识别取得比较好的效果,从而带来更加准确的翻译结果。陈伟说:「语音实时翻译技术中,翻译对接在识别后面,因此只有识别提供非常准确、可靠的结果以后,翻译的威力才能发挥出来。错误较多的结果是无法准确翻译出来的,这也是其他家没有把翻译推到现实场景中的原因之一。」


谷歌神经机器翻译推出后,宣布将 GNMT 投入到了非常困难的汉语-英语语言对的翻译生产中,这引起了业内的极大的关注。微软也发布了万能翻译器,支持语音识别、拍照识别、直接输入翻译功能,官方表示它也可以实现多达 100 人间实时翻译交谈。而搜狗领先的机器翻译技术也已经开始了应用,目前,根据此前在乌镇的实际效果评比,以及一些人工判断,搜狗语音实时翻译的准确率在 90% 左右。搜狗表示会上线翻译产品,用户输入文本时会自动翻译成英文。此外,也会和一些电视厂商进行一些合作。


据维基百科介绍,人类目前大概有 6000 多种语言。自人类在未建成的「巴别塔」下不欢而散以来,实现全人类之间的顺畅交流一直是我们的梦想。现在,人工智能方法让我们看到了真正实现这一梦想的希望。这也是我们机器翻译让大众持续兴奋、让技术公司和研究人员保持动力的最大原因。


正如王小川所说,语言上是我们最需要做的,因为我们主页做输入法和搜索都是和文字信息打交道,但文字信息是人工智能里最难的一件事,我们还专注在这件事情上,文字领域的人工智能怎么发展。



©本文为机器之心原创,转载请联系本公众号获得授权

相关文章
|
26天前
|
人工智能 自然语言处理 数据挖掘
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
|
28天前
|
API 语音技术 开发者
基于开源技术的数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
魔搭社区最近上线了基于开源技术的数字人实时对话demo,无需预训练即可使用自定义的数字人形象进行实时对话,支持语音输入和实时对话。
|
6月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之视频人物卡通化本地文件处理慢,有没有优化的办法
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
6月前
|
人工智能 自然语言处理 决策智能
超长小说可以用AI翻译了,新型多智能体协作系统媲美人工翻译
【6月更文挑战第11天】研究人员开发了一种基于大型语言模型的多智能体协作系统TransAgents,用于文学翻译,挑战复杂的文学文本翻译。通过单语人类偏好和双语LLM偏好评估,系统在保留文学风格和表达上表现出色,尤其在需要领域知识的文本中。然而,系统在捕捉文学翻译的细微差别、文化特定元素和长文本翻译效率上仍有局限性。相关论文链接:https://arxiv.org/abs/2405.11804
172 1
|
7月前
|
人工智能 搜索推荐 语音技术
有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
1471 0
|
语音技术 信息无障碍
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
回到我们的直播源码平台开发上来,对于直播源码平台来说实时语音识别字幕呈现功能也是重要的功能之一,好了,正式进入我们今天的主题内容:直播源码搭建平台技术知识:实时语音识别字幕呈现功能!
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
|
人工智能 编解码 API
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
|
算法 搜索推荐
【直播预告】融合复杂目标且支持实时调控的重排模型在淘宝流式推荐场景的应用
【直播预告】融合复杂目标且支持实时调控的重排模型在淘宝流式推荐场景的应用
309 1
|
机器学习/深度学习 数据可视化 数据挖掘
检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2(1)
检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2
167 0
检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2(1)
|
JavaScript 前端开发 开发工具
如何做到一站检索前沿主流 AIGC / GPT 文章?定时任务抓取文章!
如何做到一站检索前沿主流 AIGC / GPT 文章?定时任务抓取文章!
292 0