云栖发布:从级联到端到端语音翻译大模型Gummy

简介: 云栖发布:从级联到端到端语音翻译大模型Gummy

本文来源:阿里语音AI


在2024年云栖大会上,通义实验室语音团队和自然语言处理团队联盟推出了端到端语音翻译大模型Gummy,可实时流式生成语音识别与翻译结果。Gummy目前支持中文、英语、粤语、日语、韩语、法语、德语、俄罗斯语、意大利语、西班牙语等多达十余种语言的语音输入,并将其实时翻译成目标语言。


相较于传统的“ASR+翻译”模型的级联系统,Gummy创新性地使用了端到端语音翻译大模型系统,使其可以在无源语言文本信息中间态的情况下,将语音直接翻译为目标端语种。通过这一技术,Gummy将翻译延迟降低到0.5s以内,大幅小于人类专家的同传延时。而在识别与翻译质量上,其在CommonVoice、CoVost2等多个业界公认开源测试集上,取得了SOTA结果;并在内部工业测试集上,翻译质量显著优于同规模级联翻译系统。


(语音识别效果对比)


image.png

(语音翻译质量效果对比)


高质量低延迟同传,支持无限长度翻译

image.png


传统级联系统往往需要延后一句话,等待识别结果出现后才能进行翻译。Gummy端到端语音翻译大模型无需等待,可以真正做到“随说随翻”。
同时,针对流式语音翻译中原文与译文之间需要调序(如状语后置、日语中否定词后置)这个痛点问题,Gummy创新性地将wait & predict机制建模在模型之中,使其自动判断什么时候需要进行翻译、什么时候需要等待更多语音内容来续翻。这一机制,在保证高质量翻译内容的同时,尽可能缩短了模型翻译延迟,做到了高质量与低延迟之间的平衡。


添加提示词,打造个性化语音翻译助手

image.png


作为一款工业级可落地的模型,Gummy还支持多语言混翻、术语干预与领域提示这些商业化落地所必需的能力。多语言混翻能力使Gummy可以在跨国会议场景,无需指定源语种,流畅地将各国语言翻译至目标语种。而术语干预与领域提示能力,让模型能够在遇到新词、领域专业词的情况下,也能正确识别与翻译,定制属于你的个人专属翻译agent。


解锁更多场景,跨越语言鸿沟

image.png

(阿里云CTO周靖人 · 2024云栖大会)

实时语音翻译不仅让准确、流畅、快捷的对话体验成为可能,还为各种复杂环境下的沟通提供了解决方案。无论是日常旅行中的语言障碍,还是跨国会议中的多语言交流需求,实时语音翻译都颇具应用潜力。此外,在教育、医疗、国际贸易等多个领域,这项技术也正在发挥着越来越重要的作用,帮助用户跨越语言鸿沟,实现无缝沟通。


相关文章
|
2月前
|
人工智能 UED
通义语音AI技术问题之预训练语言模型的主题分割效果的提升如何解决
通义语音AI技术问题之预训练语言模型的主题分割效果的提升如何解决
24 5
|
2月前
|
人工智能 文字识别
通义语音AI技术问题之LCB-net模型对幻灯片中文本信息的使用如何解决
通义语音AI技术问题之LCB-net模型对幻灯片中文本信息的使用如何解决
13 0
|
5月前
|
人工智能 自然语言处理 文字识别
社区供稿 | 元象首个多模态大模型XVERSE-V开源,刷新权威大模型榜单,支持任意宽高比输入
元象公司发布了开源多模态大模型XVERSE-V,该模型在图像输入的宽高比方面具有灵活性,并在多项评测中展现出优越性能,超越了包括谷歌在内的多个知名模型。XVERSE-V采用创新方法结合全局和局部图像信息,适用于高清全景图识别、文字检测等任务,且已在Hugging Face、ModelScope和GitHub上开放下载。此外,模型在视障场景、内容创作、教育解题、百科问答和代码生成等领域有广泛应用,并在VizWiz等测试集中表现出色。元象致力于推动AI技术的普惠,支持中小企业、研究者和开发者进行研发和应用创新。
|
自然语言处理 机器人 API
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
|
人工智能 自然语言处理 安全
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
592 0
|
自然语言处理 人工智能
中文竞技场大模型测评后续之模型自动对话
中文竞技场大模型测评延续中,模型自动对话场景测评
562 0
中文竞技场大模型测评后续之模型自动对话
|
机器学习/深度学习 编解码 自然语言处理
重磅!新增 13 种 Transformer 方法,火速收藏
如今,Transformer 这把火已经烧到了计算机视觉领域,可以说成为今年最大的热点。本着全心全意为社区服务的精神,OpenMMLab 当然不会对此无动于衷。 为了方便大家研究学习,我们基于 MMCV ,在OpenMMLab 6个方向的 repo 中复现了 13 种基于 Transformer 的方法,快来看看有没有你需要的吧。
752 0
重磅!新增 13 种 Transformer 方法,火速收藏
|
人工智能 前端开发 Serverless
【文生文】一键部署ChatYuan模型
ChatYuan: 元语功能型对话大模型可以用于问答、结合上下文做对话、做各种生成任务,包括创意性写作,也能回答一些像法律、新冠等领域问题。本实验答疑钉钉群:29290019867。
286 0
|
文字识别 自然语言处理 算法
CVPR 2022 | 关注文本阅读顺序,蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM
CVPR 2022 | 关注文本阅读顺序,蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM
246 0
|
机器学习/深度学习 自然语言处理 文字识别
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾(1)
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
321 0
下一篇
无影云桌面