AI同传新突破:搜狗同传3.0首创「语境引擎」,PPT内容翻译正确率提高40%

简介: 这是第一款多模态人工智能语音同传产品,搜狗同传 3.0 将智能同传准确性带到了新的高度。

上周六,搜狗发布了业内首个多模态同传产品——搜狗同传 3.0 版。基于搜狗独创的「语境引擎」,搜狗同传 3.0 加入了视觉和思维能力,让机器同传不仅会听,还首次具备了看、理解和推理的能力。这一技术首次展出后,现场引来众人关注。


微信图片_20211202200321.jpg

在上周六,搜狗同传 3.0 首次亮相。


最近,搜狗 AI 交互技术部总经理陈伟、搜狗同传产品总监张晶晶和项目负责人赵超向我们揭秘了搜狗同传背后的技术。


首创「语境引擎」,搜狗 AI 同传新突破


搜狗同传技术自 2016 年发布以来,已经经历了数千场会议同传的实际应用。开发者们在实践中发现,业内主流的语音同传系统无法稳定、高质量地满足多种演讲场合的需求,经常会出现演讲内容中专业词汇的识别和翻译效果不佳的情况。


为了解决上述问题,搜狗在同传 3.0 版中加入「语境引擎」,希望能够通过对语言的深入理解来解决问题。「语境引擎能够实时利用摄像头识别现场屏幕上的 PPT 内容,」陈伟介绍道,「之前机器同传只能获取语音信息,通过 OCR 技术,现在搜狗同传可获取语音信息+ PPT 信息,随后语境引擎可以构建个性化知识,从而使得同传译文效果有大幅提升。


下图展示了一些 3.0 版同传的应用效果,第二列是嘉宾演讲的原始内容,第三列是旧版语音识别出来的内容。按照以往的情况,演讲者说出的一些罕见词,比如「投子」,通常会被 AI 识别为投资,但是 PPT 内容上有 AlphaGo 与李世石人机大战,会让同传 3.0 系统拓展出「投子」(指某一方认输)这样的围棋术语,在知识图谱的帮助下,AI 可以对译文进行大量更正。

 

微信图片_20211202200317.jpg


除了专有名词,新技术的性能具体提升了多少?搜狗表示,他们特别选择了一个难度较高的专业性会议演讲,对同传 2.0 版、3.0 版和人类专业同传进行了对比测试。人类达到了 4.08 分、搜狗同传 2.0 可以达到 3.41 分,而 3.0 版则获得了 3.82 分。这一成绩实现了同传领域的新突破,让 AI 距离专业的人类同传水平又近了一步。


能看又能听的多模态技术并非搜狗同传 3.0 的唯一亮点。搜狗表示,同传 3.0 主要带来了三个方向上的提升:


  • 更加接近自然,从单纯的语音识别到语音+图像,新的方法模拟了人工同传的工作方式,增加视觉和大脑扩散知识点的功能,拥有更为复杂的感知系统。
  • 更加专业,此前的 AI 同传模型使用通用数据,新的模型通过实时定制知识增强能力,能够捕捉现场 PPT 内容补充演讲相关的专业领域的知识,并针对每一个演讲进行模型定制,提升同传效果。
  • 更加智能,以往模型训练需要一个被动学习的过程,现在自动学习 PPT 的内容,自动捕捉海量词汇,确保同传品质非常优秀。


微信图片_20211202200314.jpg


陈伟进一步总结道:「搜狗同传 3.0 版进行了从前到后的大规模更新,首先是引入多模态,加入了视觉处理能力。其次在处理过程中从感知层面升级到了认知层面,在『语境引擎』的帮助下,系统可以通过知识图谱的帮助对同传内容进行进一步扩展。形成和演讲内容相关的语境信息。在新版同传工具中,系统还可以实时对同传和翻译效果进行增强,时延更低。


与演讲者一起「边看边思考」


相比以往,多模态的 AI 同传更加接近于人类,「会看」意味着同传首次具备了视觉能力。据介绍,搜狗同传 3.0 在使用中可以借助屏幕截取,或者普通摄像头实时获取图像信息,不需要使用特定的设备。 「能理解会推理」,则归功于搜狗语境引擎的应用。在这其中则包含了搜狗知识图谱和百科的推理能力,系统可以将 OCR 技术获取的文字内容与演讲相关的核心知识产生关联,并通过「搜狗知立方」知识图谱实时推理拓展,获取背景知识。另外,同传系统可以基于搜狗百科的中英术语库获得中英双语对照,实时优化同传识别和翻译的效果。


微信图片_20211202200311.jpg


搜狗表示,通过多模态方式获取信息,同时引入知识图谱的情况下,搜狗同传 3.0 针对 PPT 内容的识别准确率提升了 21.7%,翻译正确率提升了 40.3%。


除了大会演讲以外,搜狗同传的技术体系还会在更多场景中落地,远程会议、记者采访、视频直播、旅游出行,甚至法院庭审记录都是未来努力的方向。


搜狗同传技术自 2016 年发布 1.0 版以来,经历了不断升级的过程。「在同传系统翻译模块的背后,1.0 版使用 RNN 模型,在 2.0 版本中,我们引入了 Transformer 模型,解决了梯度爆炸问题,并可以记住更长的历史内容。在 3.0 版的系统中,除了 Transformer,还采用了基于上下文的流式解码,并引入了基于搜狗百科的知识图谱。」赵超介绍道。


微信图片_20211202200308.jpg


但同时我们也应看到行业的共性问题,AI 同传的准确性距离人类专家水平还有一定距离,这其中既有算法能力的挑战,也有人们对于 AI「更高要求」的原因。「我们和很多同传从业者交流后发现,按照常规流程,人工同传需要合作方提前提供背景材料,并有一到两天的准备时间,」陈伟解释道,「但机器同传是没有准备时间的,并且在开始同传时,人类也可以看到现场 PPT 上的内容。因此对于机器同传而言,除了把语音做好外,视觉信息也非常重要。


搜狗同传 3.0 背后,更是公司「自然交互+知识计算」战略的深入。搜狗 CEO 王小川最近表示,搜狗 AI 技术的核心,是经由深度学习为机器加入感知能力,从而实现与人类的自然交互,同时进一步提取出语言内的关联关系,让机器产生人类的「认知」能力。


从最初的语音交互到唇语识别,到机器翻译、搜狗分身(合成主播),再到如今的多模态交互,搜狗正在依托语音、图像、手势等各种方式让 AI 与人类展开更为「自然」的交流。


相关文章
|
2月前
|
人工智能 运维 Cloud Native
2025 云栖精选资料:《从云原生到 AI 原生核心技术与最佳实践》PPT 免费下载
一本合集,四大主题,覆盖 AI 原生技术的核心版图。立即获取,与行业领跑者同行,抢占 AI 原生时代的技术先机!
|
3月前
|
人工智能 供应链 数据可视化
一文读懂AI引擎与Together规则引擎重塑智能决策
从1950年图灵提出人工智能设想到如今AI引擎实现自主决策,Together规则引擎正成为智能决策核心。它通过动态规划、多工具调用与持续学习机制,赋能供应链、财务、定价等场景,提升决策透明度与效率。Together助力AI引擎突破落地瓶颈,推动企业管理迈向“决策即服务”新时代。
|
3月前
|
传感器 人工智能 自然语言处理
通过AI编程工具,实现沉浸式翻译 Light Translate
通过AI编程工具,实现Light Translate 是一款智能沉浸式翻译插件,鼠标悬停0.1秒即可精准翻译单词,无需点击或选择,助力流畅阅读英文网页,专为英语工作者设计,提升阅读效率与语言能力。
183 1
|
人工智能 关系型数据库 MySQL
AI战略丨开源开放,构建 AI 时代的创新引擎
技术开源和产业开放彼此衔接、相互支撑,构建全产业链合作模式和无边界产业生态圈,日益成为数字时代全球分工体系的主流模式。
|
2月前
|
人工智能 API 开发工具
AskTable:可嵌入任何系统的 AI 数据智能体引擎
AskTable 是一款以 Table 为核心的数据 AI 基础设施。它通过标准化 API、SDK、iFrame 与智能体协议(MCP),让 AI 能直接理解、查询和分析表格数据,轻松嵌入企业现有系统。 AskTable 提供从数据接入、语义分析到可视化生成的完整能力,可无缝集成至网页、移动端、钉钉、企业微信或 Dify/HiAgent 等智能体平台。
512 157
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer架构:重塑现代AI的核心引擎
Transformer架构:重塑现代AI的核心引擎
502 98
|
5月前
|
存储 人工智能 自然语言处理
AI在法律行业难以从简单工具转变为认知引擎,法律知识图谱如何解决这一难题?
本文AI产品专家三桥君探讨了AI如何从法律行业的辅助工具升级为具备认知能力的智能引擎。通过构建法律知识图谱,AI可实现法条精准引用、案件智能分析等核心功能,解决法律语义鸿沟和动态更新等挑战。三桥君介绍了知识图谱的构建过程及其在案件匹配、法条推理中的应用场景,并展示了智能助理在录音转写、案例检索、文书生成等实务中的落地价值。三桥君认为,法律知识图谱将推动AI从工具属性向认知引擎跃迁,提升法律服务效率与透明度。
270 1
|
3月前
|
人工智能 数据处理 云栖大会
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
511 9
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
|
2月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。