AI同传新突破:搜狗同传3.0首创「语境引擎」,PPT内容翻译正确率提高40%

简介: 这是第一款多模态人工智能语音同传产品,搜狗同传 3.0 将智能同传准确性带到了新的高度。

上周六,搜狗发布了业内首个多模态同传产品——搜狗同传 3.0 版。基于搜狗独创的「语境引擎」,搜狗同传 3.0 加入了视觉和思维能力,让机器同传不仅会听,还首次具备了看、理解和推理的能力。这一技术首次展出后,现场引来众人关注。


微信图片_20211202200321.jpg

在上周六,搜狗同传 3.0 首次亮相。


最近,搜狗 AI 交互技术部总经理陈伟、搜狗同传产品总监张晶晶和项目负责人赵超向我们揭秘了搜狗同传背后的技术。


首创「语境引擎」,搜狗 AI 同传新突破


搜狗同传技术自 2016 年发布以来,已经经历了数千场会议同传的实际应用。开发者们在实践中发现,业内主流的语音同传系统无法稳定、高质量地满足多种演讲场合的需求,经常会出现演讲内容中专业词汇的识别和翻译效果不佳的情况。


为了解决上述问题,搜狗在同传 3.0 版中加入「语境引擎」,希望能够通过对语言的深入理解来解决问题。「语境引擎能够实时利用摄像头识别现场屏幕上的 PPT 内容,」陈伟介绍道,「之前机器同传只能获取语音信息,通过 OCR 技术,现在搜狗同传可获取语音信息+ PPT 信息,随后语境引擎可以构建个性化知识,从而使得同传译文效果有大幅提升。


下图展示了一些 3.0 版同传的应用效果,第二列是嘉宾演讲的原始内容,第三列是旧版语音识别出来的内容。按照以往的情况,演讲者说出的一些罕见词,比如「投子」,通常会被 AI 识别为投资,但是 PPT 内容上有 AlphaGo 与李世石人机大战,会让同传 3.0 系统拓展出「投子」(指某一方认输)这样的围棋术语,在知识图谱的帮助下,AI 可以对译文进行大量更正。

 

微信图片_20211202200317.jpg


除了专有名词,新技术的性能具体提升了多少?搜狗表示,他们特别选择了一个难度较高的专业性会议演讲,对同传 2.0 版、3.0 版和人类专业同传进行了对比测试。人类达到了 4.08 分、搜狗同传 2.0 可以达到 3.41 分,而 3.0 版则获得了 3.82 分。这一成绩实现了同传领域的新突破,让 AI 距离专业的人类同传水平又近了一步。


能看又能听的多模态技术并非搜狗同传 3.0 的唯一亮点。搜狗表示,同传 3.0 主要带来了三个方向上的提升:


  • 更加接近自然,从单纯的语音识别到语音+图像,新的方法模拟了人工同传的工作方式,增加视觉和大脑扩散知识点的功能,拥有更为复杂的感知系统。
  • 更加专业,此前的 AI 同传模型使用通用数据,新的模型通过实时定制知识增强能力,能够捕捉现场 PPT 内容补充演讲相关的专业领域的知识,并针对每一个演讲进行模型定制,提升同传效果。
  • 更加智能,以往模型训练需要一个被动学习的过程,现在自动学习 PPT 的内容,自动捕捉海量词汇,确保同传品质非常优秀。


微信图片_20211202200314.jpg


陈伟进一步总结道:「搜狗同传 3.0 版进行了从前到后的大规模更新,首先是引入多模态,加入了视觉处理能力。其次在处理过程中从感知层面升级到了认知层面,在『语境引擎』的帮助下,系统可以通过知识图谱的帮助对同传内容进行进一步扩展。形成和演讲内容相关的语境信息。在新版同传工具中,系统还可以实时对同传和翻译效果进行增强,时延更低。


与演讲者一起「边看边思考」


相比以往,多模态的 AI 同传更加接近于人类,「会看」意味着同传首次具备了视觉能力。据介绍,搜狗同传 3.0 在使用中可以借助屏幕截取,或者普通摄像头实时获取图像信息,不需要使用特定的设备。 「能理解会推理」,则归功于搜狗语境引擎的应用。在这其中则包含了搜狗知识图谱和百科的推理能力,系统可以将 OCR 技术获取的文字内容与演讲相关的核心知识产生关联,并通过「搜狗知立方」知识图谱实时推理拓展,获取背景知识。另外,同传系统可以基于搜狗百科的中英术语库获得中英双语对照,实时优化同传识别和翻译的效果。


微信图片_20211202200311.jpg


搜狗表示,通过多模态方式获取信息,同时引入知识图谱的情况下,搜狗同传 3.0 针对 PPT 内容的识别准确率提升了 21.7%,翻译正确率提升了 40.3%。


除了大会演讲以外,搜狗同传的技术体系还会在更多场景中落地,远程会议、记者采访、视频直播、旅游出行,甚至法院庭审记录都是未来努力的方向。


搜狗同传技术自 2016 年发布 1.0 版以来,经历了不断升级的过程。「在同传系统翻译模块的背后,1.0 版使用 RNN 模型,在 2.0 版本中,我们引入了 Transformer 模型,解决了梯度爆炸问题,并可以记住更长的历史内容。在 3.0 版的系统中,除了 Transformer,还采用了基于上下文的流式解码,并引入了基于搜狗百科的知识图谱。」赵超介绍道。


微信图片_20211202200308.jpg


但同时我们也应看到行业的共性问题,AI 同传的准确性距离人类专家水平还有一定距离,这其中既有算法能力的挑战,也有人们对于 AI「更高要求」的原因。「我们和很多同传从业者交流后发现,按照常规流程,人工同传需要合作方提前提供背景材料,并有一到两天的准备时间,」陈伟解释道,「但机器同传是没有准备时间的,并且在开始同传时,人类也可以看到现场 PPT 上的内容。因此对于机器同传而言,除了把语音做好外,视觉信息也非常重要。


搜狗同传 3.0 背后,更是公司「自然交互+知识计算」战略的深入。搜狗 CEO 王小川最近表示,搜狗 AI 技术的核心,是经由深度学习为机器加入感知能力,从而实现与人类的自然交互,同时进一步提取出语言内的关联关系,让机器产生人类的「认知」能力。


从最初的语音交互到唇语识别,到机器翻译、搜狗分身(合成主播),再到如今的多模态交互,搜狗正在依托语音、图像、手势等各种方式让 AI 与人类展开更为「自然」的交流。


相关文章
|
1月前
|
人工智能 供应链 数据可视化
一文读懂AI引擎与Together规则引擎重塑智能决策
从1950年图灵提出人工智能设想到如今AI引擎实现自主决策,Together规则引擎正成为智能决策核心。它通过动态规划、多工具调用与持续学习机制,赋能供应链、财务、定价等场景,提升决策透明度与效率。Together助力AI引擎突破落地瓶颈,推动企业管理迈向“决策即服务”新时代。
|
20天前
|
传感器 人工智能 自然语言处理
通过AI编程工具,实现沉浸式翻译 Light Translate
通过AI编程工具,实现Light Translate 是一款智能沉浸式翻译插件,鼠标悬停0.1秒即可精准翻译单词,无需点击或选择,助力流畅阅读英文网页,专为英语工作者设计,提升阅读效率与语言能力。
52 1
|
人工智能 关系型数据库 MySQL
AI战略丨开源开放,构建 AI 时代的创新引擎
技术开源和产业开放彼此衔接、相互支撑,构建全产业链合作模式和无边界产业生态圈,日益成为数字时代全球分工体系的主流模式。
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer架构:重塑现代AI的核心引擎
Transformer架构:重塑现代AI的核心引擎
311 98
|
3月前
|
存储 人工智能 自然语言处理
AI在法律行业难以从简单工具转变为认知引擎,法律知识图谱如何解决这一难题?
本文AI产品专家三桥君探讨了AI如何从法律行业的辅助工具升级为具备认知能力的智能引擎。通过构建法律知识图谱,AI可实现法条精准引用、案件智能分析等核心功能,解决法律语义鸿沟和动态更新等挑战。三桥君介绍了知识图谱的构建过程及其在案件匹配、法条推理中的应用场景,并展示了智能助理在录音转写、案例检索、文书生成等实务中的落地价值。三桥君认为,法律知识图谱将推动AI从工具属性向认知引擎跃迁,提升法律服务效率与透明度。
105 1
|
8天前
|
人工智能 数据处理 云栖大会
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
106 9
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
|
5月前
|
人工智能 缓存 安全
算力引擎如何按下 AI 落地加速键?
本文探讨了AI时代企业对算力的新需求及应对策略,涵盖高吞吐与实时性、向量数据库挑战、隐私保护与成本控制等关键议题。文章还分析了垂直场景下的算力解决方案,如PolarDB的“Data+AI”理念和身份安全领域的多模态检测系统。同时介绍了英特尔至强六代处理器与阿里云G9i实例的创新实践,并展望了AI未来发展趋势,强调降低门槛、多元算力生态建设及端到端工程化思维的重要性。
|
5月前
|
人工智能 Cloud Native 安全
云原生+AI 为企业出海提供全新技术引擎!明天见
5月22日 14:00「飞天发布时刻」,阿里云云原生应用平台产品负责人李国强将重磅揭晓面向 AI 场景的云原生产品体系升级,通过弹性智能的全球一体化架构、开箱即用的云原生 AI 工程化能力,为中国企业出海提供全新技术引擎。
|
11天前
|
人工智能 自然语言处理 JavaScript
VTJ.PRO v0.13.29震撼发布!AI低代码引擎正式接入Qwen3-Coder-Plus,开发效率飙升!
VTJ.PRO v0.13.29 集成阿里云Qwen3-Coder-Plus大模型,实现自然语言生成Vue组件、源码双向同步与智能调试,大幅提升开发效率,推动低代码迈向智能化新时代。
83 0
|
20天前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
128 0

热门文章

最新文章