备案控制台

开发者社区> 问答> 正文

端到端语音识别技术在单语种任务上取得了哪些成果，但在多语种混说场景下存在什么问题？

端到端语音识别技术在单语种任务上取得了哪些成果，但在多语种混说场景下存在什么问题？

展开

收起

圆葱猪肉包 2024-08-21 14:47:37 40 0

1 条回答

写回答

取消提交回答

穿过生命散发芬芳

端到端语音识别 (End-to-End ASR) 技术在单语种任务上已经取得了比较好的效果，通过UNIVERSAL ASR 统一离线和流式识别系统架构进一步提升了流式场景的识别率，但在多语种混说 (Code-Switch) 场景下效果还不是很理想，比如中英文混说——“借你的ipad给我看下paper”，当突然切换到另一个语种时识别率会发生大幅下降，比如中文 ASR 突然遇到纯英文识别。

针对中英文自由说识别问题，我们借鉴了混合专家系统 (Mixture of Experts) 的思想。在端到端语音识别模型中，对中文和英文分别设计了一个子网络，每个子网络被称为专家，最后通过门控模块对每个专家网络的输出进行加权。同时为了减少模型参数量，中、英文子网络采用底层共享，高层独立的方式。通过这样的方式，使模型在中文、英文、中英文混说场景下都能取得比较好的效果。进一步我们结合达摩院语音实验室自研的 SAN-M 网络，打造了达摩院语音实验室新一代的端到端中英自由说语音识别系统。在不需要语种信息的前提下，用一个模型保证纯中文和纯英文相对于单语模型的识别性能基本不降，并且大幅度提升中英文混说场景下的识别性能。

——参考链接。

2024-08-31 07:43:38

赞同展开评论打赏

问答分类：

语音技术智能语音交互智能语音交互

问答标签：

端到端智能语音交互智能语音交互技术端到端智能语音交互技术智能语音交互场景智能语音交互语种

问答地址：

开发者社区 > 人工智能 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

智能语音交互语音识别如何配置语种模型

48

1

0

智能语音交互语音识别的识别结果和音频语种不一致

62

1

0

端到端语音识别技术在单语种任务上取得了哪些成果，但在多语种混说场景下存在什么问题？

32

1

0

阿里云的语音识别服务提供了多个模型以适应不同的应用场景主要包括哪些？

50

1

0

在端到端语音识别模型中，时间戳预测面临的主要挑战是什么？

54

1

0

请问我这边提交阿里云安全实时语音识别任务后，这个callback的正确使用方法是什么样的呢？

54

1

0

在阿里语音AI中，语音交互的私有化部署怎么操作？

53

1

0

阿里巴巴语音实验室SAN-M网络结构和SCAMA流式Attention机制在语音识别中起什么作用？

145

1

0

阿里云语音AI智能语音交互中录音文件识别的customization_id定制模型还是不能区分热词。

40

1

0

阿里云语音AI配置好了信息但是没有语音识别是有生效时间的吗？

68

1

0

问答排行榜

最热

最新

1 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1819160

2 据说在家办公的程序员是这样写代码的？ 1793343

3 阿里云开放端口权限 690381

4 如何升级配置 536351

5 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522953

6 【精品问答】python技术1000问(1) 514166

7 Flink Forward Asia 2021 有奖问答 512939

8 OceanBase 使用动画（持续更新） 359400

9 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329822

10 OSS存储服务-客户端工具 321665

11 为体验实验室取一个新名字。 307518

12 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 304148

13 Win Server 2003-2016 加密勒索事件必打补丁合集 295368

14 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 284284

15 安全组详解，新手必看教程 277373

16 写code还是做管理，开发者如何进行职业规划？ 269266

17 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255900

18 阿里云手机和阿云浏览器连接问题专帖 235713

19 支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】 232958

20 请问阿里云邮箱如何开启SMTP服务啊！ 225931

1 在海量用户中，将如何快速定位到目标人群进行个性化营销？ 126

2 你认为哪些领域的知识对开发者来说特别重要？ 104

3 使用安全体检功能，看看你有多少未修复的安全问题？ 545

4 AI时代，聊聊如何从海量数据中挖掘金矿？ 617

5 与 AI “对话”，多模态音视频交互能给生活提供多大便利？ 566

6 AI造势，学习机爆火，距离“AI家教”还有多远？ 441

7 “99套餐”ECS云端问答节！回答问题赢阿里云纪念衫、加湿器等好礼！ 710

8 短信服务发送失败提示签名黑名单 367

9 2024年接近尾声，你对即将到来的2025年有什么样的期待或愿望？ 2323

10 当面对多种不同格式的文档时，如何让AI系统更好地处理复杂文档？ 742

11 你好，需要阿里免费的企业邮箱，谢谢 223

12 宜搭普通表单中包含子表单，怎样把子表单的内容全部添加到另一个普通表单中？ 193

13 通义APP上新【局部风格化】新功能，万物皆可毛茸茸你体验了吗？ 1030

14 一个专属的智能 AI 总结助手，能在多大程度上提升工作效率？ 1341

15 宜搭是否可以和钉钉OA审批打通，钉钉OA审批提交的数据宜搭是否可以联动字段数据过来使用？ 371

16 宜搭表单中的复选框问题 362

17 关于宜搭普通表单如何获取钉钉通讯录数据以及考勤数据的问题。 268

18 AI视频技术的发展是否会影响原创内容的价值？ 1673

19 日常工作中，开发者应该如何避免“效率陷阱”？ 912

20 Nacos 2.4.3在linux X86_64服务器上启动报错 281

相关课程

更多

达摩院智能语音交互 - 人机对话技术浅析

155

4

去学习

达摩院智能语音交互 - 声纹识别技术

2876

4

去学习

阿里巴巴智能语音交互技术与应用

7253

7

去学习

达摩院智能语音交互 - 语音识别技术

315

4

去学习

达摩院智能语音交互 - 语音合成技术

587

4

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

阿里云总监课第二期——Neural Network Language Model在语音识别中的应用 立即下载

阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用 立即下载

智能语音交互：阿里巴巴的研究与实践 立即下载