云栖发布:从级联到端到端语音翻译大模型Gummy

简介: 云栖发布:从级联到端到端语音翻译大模型Gummy

本文来源:阿里语音AI


在2024年云栖大会上,通义实验室语音团队和自然语言处理团队联盟推出了端到端语音翻译大模型Gummy,可实时流式生成语音识别与翻译结果。Gummy目前支持中文、英语、粤语、日语、韩语、法语、德语、俄罗斯语、意大利语、西班牙语等多达十余种语言的语音输入,并将其实时翻译成目标语言。


相较于传统的“ASR+翻译”模型的级联系统,Gummy创新性地使用了端到端语音翻译大模型系统,使其可以在无源语言文本信息中间态的情况下,将语音直接翻译为目标端语种。通过这一技术,Gummy将翻译延迟降低到0.5s以内,大幅小于人类专家的同传延时。而在识别与翻译质量上,其在CommonVoice、CoVost2等多个业界公认开源测试集上,取得了SOTA结果;并在内部工业测试集上,翻译质量显著优于同规模级联翻译系统。


(语音识别效果对比)


image.png

(语音翻译质量效果对比)


高质量低延迟同传,支持无限长度翻译

image.png


传统级联系统往往需要延后一句话,等待识别结果出现后才能进行翻译。Gummy端到端语音翻译大模型无需等待,可以真正做到“随说随翻”。
同时,针对流式语音翻译中原文与译文之间需要调序(如状语后置、日语中否定词后置)这个痛点问题,Gummy创新性地将wait & predict机制建模在模型之中,使其自动判断什么时候需要进行翻译、什么时候需要等待更多语音内容来续翻。这一机制,在保证高质量翻译内容的同时,尽可能缩短了模型翻译延迟,做到了高质量与低延迟之间的平衡。


添加提示词,打造个性化语音翻译助手

image.png


作为一款工业级可落地的模型,Gummy还支持多语言混翻、术语干预与领域提示这些商业化落地所必需的能力。多语言混翻能力使Gummy可以在跨国会议场景,无需指定源语种,流畅地将各国语言翻译至目标语种。而术语干预与领域提示能力,让模型能够在遇到新词、领域专业词的情况下,也能正确识别与翻译,定制属于你的个人专属翻译agent。


解锁更多场景,跨越语言鸿沟

image.png

(阿里云CTO周靖人 · 2024云栖大会)

实时语音翻译不仅让准确、流畅、快捷的对话体验成为可能,还为各种复杂环境下的沟通提供了解决方案。无论是日常旅行中的语言障碍,还是跨国会议中的多语言交流需求,实时语音翻译都颇具应用潜力。此外,在教育、医疗、国际贸易等多个领域,这项技术也正在发挥着越来越重要的作用,帮助用户跨越语言鸿沟,实现无缝沟通。


相关文章
|
30天前
|
人工智能 弹性计算 自然语言处理
|
3月前
|
人工智能 自然语言处理 语音技术
使用AI识别语音和B站视频并通过GPT生成思维导图原创
AI脑图现新增语音及B站视频内容识别功能,可自动生成思维导图。用户可通过发送语音或上传语音文件,系统自动转换为文本并生成结构化的思维导图;对于B站视频,仅需提供链接即可。其工作流程包括:语音转文本、文本结构化、生成Markdown、Markdown转思维导图HTML以及输出最终的思维导图图片给用户。
79 0
|
4月前
|
人工智能
魔搭多模态AI单词助记&通义APP即时口语练习,你从未体验过的全新版本!
首次接触魔搭多模态AI单词助记工具让我颇感惊喜。传统背单词方式枯燥低效,而该工具通过生成关联图像、短语或故事,让记忆变得生动有趣。访问[Word-wizard](https://modelscope.cn/studios/makabakaing/Word-wizard)体验其图文记忆和视觉学习功能。目前图文记忆功能似乎存在问题,但视觉学习功能仍可正常使用,能识别图片特征并生成释义和例句,辅助学习效果不错。此外,可通过通义APP实现即时口语练习,尽管缺乏上下文记忆功能,但仍是一个优秀的练习工具。
|
3月前
|
人工智能 文字识别
通义语音AI技术问题之LCB-net模型对幻灯片中文本信息的使用如何解决
通义语音AI技术问题之LCB-net模型对幻灯片中文本信息的使用如何解决
20 0
|
3月前
|
人工智能 算法 数据挖掘
技术沙龙直播|3D-Speaker多模态说话人开源详解
技术沙龙直播|3D-Speaker多模态说话人开源详解
|
5月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之图美学评分AssessComposition是同步接口还是异步接口
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
人工智能 自然语言处理 安全
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
599 0
|
自然语言处理 人工智能
中文竞技场大模型测评后续之模型自动对话
中文竞技场大模型测评延续中,模型自动对话场景测评
576 0
中文竞技场大模型测评后续之模型自动对话
|
机器学习/深度学习 编解码 自然语言处理
重磅!新增 13 种 Transformer 方法,火速收藏
如今,Transformer 这把火已经烧到了计算机视觉领域,可以说成为今年最大的热点。本着全心全意为社区服务的精神,OpenMMLab 当然不会对此无动于衷。 为了方便大家研究学习,我们基于 MMCV ,在OpenMMLab 6个方向的 repo 中复现了 13 种基于 Transformer 的方法,快来看看有没有你需要的吧。
790 0
重磅!新增 13 种 Transformer 方法,火速收藏
|
机器学习/深度学习 人工智能 编解码
OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作
OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作
153 0