云栖发布:从级联到端到端语音翻译大模型Gummy

简介: 云栖发布:从级联到端到端语音翻译大模型Gummy

本文来源:阿里语音AI


在2024年云栖大会上,通义实验室语音团队和自然语言处理团队联盟推出了端到端语音翻译大模型Gummy,可实时流式生成语音识别与翻译结果。Gummy目前支持中文、英语、粤语、日语、韩语、法语、德语、俄罗斯语、意大利语、西班牙语等多达十余种语言的语音输入,并将其实时翻译成目标语言。


相较于传统的“ASR+翻译”模型的级联系统,Gummy创新性地使用了端到端语音翻译大模型系统,使其可以在无源语言文本信息中间态的情况下,将语音直接翻译为目标端语种。通过这一技术,Gummy将翻译延迟降低到0.5s以内,大幅小于人类专家的同传延时。而在识别与翻译质量上,其在CommonVoice、CoVost2等多个业界公认开源测试集上,取得了SOTA结果;并在内部工业测试集上,翻译质量显著优于同规模级联翻译系统。


(语音识别效果对比)


image.png

(语音翻译质量效果对比)


高质量低延迟同传,支持无限长度翻译

image.png


传统级联系统往往需要延后一句话,等待识别结果出现后才能进行翻译。Gummy端到端语音翻译大模型无需等待,可以真正做到“随说随翻”。
同时,针对流式语音翻译中原文与译文之间需要调序(如状语后置、日语中否定词后置)这个痛点问题,Gummy创新性地将wait & predict机制建模在模型之中,使其自动判断什么时候需要进行翻译、什么时候需要等待更多语音内容来续翻。这一机制,在保证高质量翻译内容的同时,尽可能缩短了模型翻译延迟,做到了高质量与低延迟之间的平衡。


添加提示词,打造个性化语音翻译助手

image.png


作为一款工业级可落地的模型,Gummy还支持多语言混翻、术语干预与领域提示这些商业化落地所必需的能力。多语言混翻能力使Gummy可以在跨国会议场景,无需指定源语种,流畅地将各国语言翻译至目标语种。而术语干预与领域提示能力,让模型能够在遇到新词、领域专业词的情况下,也能正确识别与翻译,定制属于你的个人专属翻译agent。


解锁更多场景,跨越语言鸿沟

image.png

(阿里云CTO周靖人 · 2024云栖大会)

实时语音翻译不仅让准确、流畅、快捷的对话体验成为可能,还为各种复杂环境下的沟通提供了解决方案。无论是日常旅行中的语言障碍,还是跨国会议中的多语言交流需求,实时语音翻译都颇具应用潜力。此外,在教育、医疗、国际贸易等多个领域,这项技术也正在发挥着越来越重要的作用,帮助用户跨越语言鸿沟,实现无缝沟通。


相关文章
|
5月前
|
自然语言处理 API 内存技术
Qwen3-LiveTranslate-Flash:视、听、说全模态同传大模型
通义千问Qwen3-LiveTranslate-Flash推出实时多模态同声传译,支持18种语言及多种方言,融合视觉信息增强理解,实现3秒超低延迟、高精度语音翻译,适用于复杂环境下的跨语言交流。
696 1
Qwen3-LiveTranslate-Flash:视、听、说全模态同传大模型
|
人工智能 弹性计算 算法
一文解读:阿里云AI基础设施的演进与挑战
对于如何更好地释放云上性能助力AIGC应用创新?“阿里云弹性计算为云上客户提供了ECS GPU DeepGPU增强工具包,帮助用户在云上高效地构建AI训练和AI推理基础设施,从而提高算力利用效率。”李鹏介绍到。目前,阿里云ECS DeepGPU已经帮助众多客户实现性能的大幅提升。其中,LLM微调训练场景下性能最高可提升80%,Stable Difussion推理场景下性能最高可提升60%。
127829 268
|
网络协议
MossFormer2语音分离模型
MossFormer2语音分离模型
1204 4
|
人工智能 自然语言处理 API
阿里云百炼产品月刊【2025年3月】
2025年3月的阿⾥云百炼平台月刊突出展示了其在AI模型和服务上的显著进展。本期亮点包括推出了多个先进的多模态模型,如qwen2.5-omni-7b和视觉推理模型qvq-max系列,大幅提升了文本、图像、语音和视频的处理能力,并降低了计算成本。此外,平台引入了精准的语音识别和翻译模型gummy-realtime-v1及gummy-chat-v1,支持多语言实时交互。为了促进应用开发,阿里云百炼平台还发布了开源推理模型qwq-32b,以及一系列优化的智能体应用模型,增强了自动化和交互性。最后,通过新增周边查询插件和基于MCP的析⾔服务,进一步扩展了平台的功能和服务范围。
1397 8
|
4月前
|
人工智能 自然语言处理 文字识别
Qwen3-Omni新升级:声形意合,令出智随!
Qwen3-Omni-Flash-2025-12-01是全新升级的全模态大模型,支持文本、图像、音频、视频输入,实现自然语音与文本同步输出。全面优化音视频理解与生成,支持多轮流畅对话、自定义人设与系统指令,提升多语言及跨模态交互准确性,语音更拟人,图像视频理解更深入,打造“声形意合”的智能交互体验。(239字)
740 0
|
4月前
|
编解码 人工智能 语音技术
📢 我们发布了新一代端到端语音交互模型 Fun-Audio-Chat!
通义百聆开源Fun-Audio-Chat(8B),支持端到端语音交互,具备情感感知与任务执行能力。在多榜单同尺寸模型中排名第一,支持高精度语音理解、情感识别与Function Call,高效低延迟,已全面开放代码与权重,欢迎体验!
2083 10
|
7月前
|
机器学习/深度学习 人工智能 测试技术
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。
1264 21
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
Step-Audio2 声音克隆 详细介绍
Step-Audio2是StepFun于2024年推出的中文语音克隆大模型,支持“一句话克隆+情感可控+实时流式”一体化生成,参数总量300M,首包延迟低至120ms,MOS达4.4+,采用Apache-2.0协议开源,适配商业应用,是当前中文TTS领域开源落地门槛最低的方案之一。
|
9月前
|
人工智能 自然语言处理 vr&ar
通义首个音频生成模型 ThinkSound 开源,你的专业音效师
通义实验室推出首个音频生成模型ThinkSound,突破传统视频到音频生成技术局限,首次将思维链(CoT)应用于音频生成领域,实现高保真、强同步的空间音频生成。基于自研AudioCoT数据集,结合多模态大语言模型与统一音频生成模型,支持交互式编辑,显著提升音画匹配度与时序一致性。代码已开源,助力游戏、VR、AR等场景创新应用。
2215 4
|
人工智能 编解码 语音技术
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
3130 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互