云栖发布:从级联到端到端语音翻译大模型Gummy

简介: 云栖发布:从级联到端到端语音翻译大模型Gummy

本文来源:阿里语音AI


在2024年云栖大会上,通义实验室语音团队和自然语言处理团队联盟推出了端到端语音翻译大模型Gummy,可实时流式生成语音识别与翻译结果。Gummy目前支持中文、英语、粤语、日语、韩语、法语、德语、俄罗斯语、意大利语、西班牙语等多达十余种语言的语音输入,并将其实时翻译成目标语言。


相较于传统的“ASR+翻译”模型的级联系统,Gummy创新性地使用了端到端语音翻译大模型系统,使其可以在无源语言文本信息中间态的情况下,将语音直接翻译为目标端语种。通过这一技术,Gummy将翻译延迟降低到0.5s以内,大幅小于人类专家的同传延时。而在识别与翻译质量上,其在CommonVoice、CoVost2等多个业界公认开源测试集上,取得了SOTA结果;并在内部工业测试集上,翻译质量显著优于同规模级联翻译系统。


(语音识别效果对比)


image.png

(语音翻译质量效果对比)


高质量低延迟同传,支持无限长度翻译

image.png


传统级联系统往往需要延后一句话,等待识别结果出现后才能进行翻译。Gummy端到端语音翻译大模型无需等待,可以真正做到“随说随翻”。
同时,针对流式语音翻译中原文与译文之间需要调序(如状语后置、日语中否定词后置)这个痛点问题,Gummy创新性地将wait & predict机制建模在模型之中,使其自动判断什么时候需要进行翻译、什么时候需要等待更多语音内容来续翻。这一机制,在保证高质量翻译内容的同时,尽可能缩短了模型翻译延迟,做到了高质量与低延迟之间的平衡。


添加提示词,打造个性化语音翻译助手

image.png


作为一款工业级可落地的模型,Gummy还支持多语言混翻、术语干预与领域提示这些商业化落地所必需的能力。多语言混翻能力使Gummy可以在跨国会议场景,无需指定源语种,流畅地将各国语言翻译至目标语种。而术语干预与领域提示能力,让模型能够在遇到新词、领域专业词的情况下,也能正确识别与翻译,定制属于你的个人专属翻译agent。


解锁更多场景,跨越语言鸿沟

image.png

(阿里云CTO周靖人 · 2024云栖大会)

实时语音翻译不仅让准确、流畅、快捷的对话体验成为可能,还为各种复杂环境下的沟通提供了解决方案。无论是日常旅行中的语言障碍,还是跨国会议中的多语言交流需求,实时语音翻译都颇具应用潜力。此外,在教育、医疗、国际贸易等多个领域,这项技术也正在发挥着越来越重要的作用,帮助用户跨越语言鸿沟,实现无缝沟通。


相关文章
|
人工智能 自然语言处理 API
阿里云百炼产品月刊【2025年3月】
2025年3月的阿⾥云百炼平台月刊突出展示了其在AI模型和服务上的显著进展。本期亮点包括推出了多个先进的多模态模型,如qwen2.5-omni-7b和视觉推理模型qvq-max系列,大幅提升了文本、图像、语音和视频的处理能力,并降低了计算成本。此外,平台引入了精准的语音识别和翻译模型gummy-realtime-v1及gummy-chat-v1,支持多语言实时交互。为了促进应用开发,阿里云百炼平台还发布了开源推理模型qwq-32b,以及一系列优化的智能体应用模型,增强了自动化和交互性。最后,通过新增周边查询插件和基于MCP的析⾔服务,进一步扩展了平台的功能和服务范围。
964 8
|
11月前
|
人工智能 自然语言处理 安全
千行百业,“义”不容辞:通义技术创新与商业实践
千行百业,“义”不容辞:通义技术创新与商业实践。本次分享分为两部分,首先介绍大模型的快速迭代与普及,探讨通义千问在精度和复杂任务执行上的突破;其次聚焦企业级落地,解决安全性、部署路径及模型调优三大问题。通过多模态理解(视觉、语音)和更强的生成控制力,携手伙伴服务各行业,推动技术向生产力转化,并关注公益应用,助力社会进步。
|
10月前
|
人工智能 Rust PyTorch
Hibiki:实时语音翻译模型打破语言交流障碍!支持将语音实时翻译成其他语言的语音或文本
Hibiki 是由 Kyutai Labs 开发的实时语音翻译模型,能够将一种语言的语音实时翻译成另一种语言的语音或文本,支持高保真度和低延迟。
1155 18
Hibiki:实时语音翻译模型打破语言交流障碍!支持将语音实时翻译成其他语言的语音或文本
|
10月前
|
人工智能 Java 语音技术
【最佳实践系列】零基础上手阿里云百炼语音AI模型
阿里云百炼语音AI服务提供了丰富的功能,包括语音识别、语音合成、实时翻译等。通过`alibabacloud-bailian-speech-demo`项目,可以一键调用这些服务,体验语音及大模型的魅力,降低接入门槛。该项目支持Python和Java,涵盖从简单的一句话合成到复杂的同声传译等多个示例,助力开发者快速上手并进行二次开发。
2951 5
|
10月前
|
人工智能 编解码 语音技术
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
2209 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
|
9月前
|
人工智能 自然语言处理 语音技术
Baichuan-Audio:端到端音频大模型,实时双语对话+语音生成
Baichuan-Audio 是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现高质量、可控的实时中英双语对话。
1121 3
|
5月前
|
人工智能 自然语言处理 vr&ar
通义首个音频生成模型 ThinkSound 开源,你的专业音效师
通义实验室推出首个音频生成模型ThinkSound,突破传统视频到音频生成技术局限,首次将思维链(CoT)应用于音频生成领域,实现高保真、强同步的空间音频生成。基于自研AudioCoT数据集,结合多模态大语言模型与统一音频生成模型,支持交互式编辑,显著提升音画匹配度与时序一致性。代码已开源,助力游戏、VR、AR等场景创新应用。
1200 4
|
12月前
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
7767 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
10月前
|
人工智能 Java 语音技术
零基础上手百炼语音AI模型|Github示例工程介绍
零基础上手百炼语音AI模型|Github示例工程介绍
|
12月前
|
安全 网络协议 Java
【最佳实践系列】高并发调用百炼语音合成大模型
本文介绍了阿里云百炼的CosyVoice语音合成大模型及其高并发调用优化方案。CosyVoice支持文本到语音的实时流式合成,适用于智能设备播报、音视频创作等多种场景。为了高效稳定地调用服务,文章详细讲解了WebSocket连接复用、连接池和对象池等优化技术,并通过对比实验展示了优化效果。优化后,机器负载降低,任务耗时减少,网络负载更优。同时,文章还提供了异常处理方法及常见问题解决方案,帮助开发者更好地集成和使用SDK。
2710 16