文档备案控制台

开发者社区问答正文

通义语音实验室提出的Paraformer语音识别声学模型有哪些主要特点和优势？

通义语音实验室提出的Paraformer语音识别声学模型有哪些主要特点和优势？

展开

收起

夹心789 2024-06-24 20:00:45 709 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

芯在这

通义语音实验室提出的Paraformer语音识别声学模型的主要特点和优势包括：
1.非自回归模型：相比于主流的自回归模型，Paraformer可以并行地对整条句子输出目标文字，特别适合利用GPU进行并行推理。
2.推理效率提升：相同模型参数规模的Paraformer和Transformer相比，Paraformer结合GPU推理效率可以提升5～10倍。
3.性能与自回归模型相当：Paraformer是当前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。
4.应对两大核心问题：通过Predictor预测文字个数并使用CIF机制抽取声学隐变量，以及基于GLM的Sampler模块增强对上下文语义的建模，解决了非自回归模型面临的核心问题。

2024-06-24 20:30:24

赞同 1 展开评论

问答分类：

语音技术智能语音交互智能语音交互

问答标签：

智能语音交互语音智能语音交互模型语音智能语音交互 paraformer智能语音交互 paraformer智能语音交互模型

问答地址：

开发者社区 > 人工智能 > 问答

相关问答

qwen-v1-ocr如何训练？预置模型里没有这个选项

82

0

0

C-MTEB评估qwen模型

210

0

0

vsCode今天更新之后,使用代码处的通义灵码一键修复,会自动变换模型

228

2

0

怎么使用vllm部署最新的qwen3的mbedding 和reranker模型呢

947

0

0

QWEN3_235B_A22B模型百炼API无法看图

383

1

0

智能语音交互，文档上面有动态变量示例，为什么售后说只支持语音文件？

119

0

0

Qwen2.5-14B-Instruct-GPTQ-Int4量化模型是只能在GPU上运行吗？

504

0

0

使用qwen-mt-turbo模型的openapi限流如何解除

751

0

0

qwen模型微调上传数据集时，如何书写数据集的本地路径？

252

0

0

通义灵码在VScode中不能切换模型，切换模型处是禁用状态

436

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

OpenClaw Gateway Token 获取？

阿里云千问Token价格怎么收费？

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

相关文章

生成式人工智能驱动下的诈骗范式转移与防御机制研究

基于MATLAB的TDOA方法声源定位

AI 英语学习 APP的开发

AI 应用开发全流程

AI服务器怎么收费？阿里云AI云服务器支持NVIDIA A10、V100、T4、P4、P100 GPU卡费用清单

相关解决方案

更多

告别低效沟通，使用大模型发起语音通话

OpenAI 重磅开源，快速部署GPT-OSS模型

模型蒸馏：让0.6B模型媲美235B模型

一键训练模型及部署GPU共享推理服务

通义听悟：全场景语音对话分析，自动化提炼业务洞察

还有其他疑问?