开发者社区> 问答> 正文

什么是语音识别(ASR) ?


语音识别服务,可以把语音识别为文字,针对不同的使用场景,阿里云提供如下三种服务:

  • 「 一句话识别 」对一分钟内的短语音实时识别,适用于对话聊天,控制口令等较短的语音识别场景。
  • 「 实时语音识别 」:对长时间的语音数据流实时识别,适用于会议演讲、视频直播等长时间不间断识别的场景。
  • 「 录音文件识别 」:对录音文件中的语音做识别。


各服务的主要差别如下:

服务时效性支持的语音格式支持调用方式
一句话识别 SDK实时识别PCM/WAV/SPEEX/OPUS[1]Java/C++/Android/iOS
一句话识别 RESTful[2]非实时,不超过1分钟PCM/WAV/SPEEX/OPUS[1]HTTP RESTful API
实时语音识别实时识别PCM/WAVJava/C++/Android/iOS
录音文件识别非实时,免费版24小时内支持大部分常见编码格式,WAV/MP3效果最佳HTTP RESTful API
  • 注[1]:OPUS编码格式说明
  • 注[2]:一句话RESTful调用方式与其他方式差异较大,所以单独列出


附加能力

  • 针对无线使用场景,我们在移动端SDK中集成了录音(Recoder)、静音检测(VAD)、断网恢复后续传等功能,可以极大地简化App开发。
  • 针对用户领域特有的关键词,我们提供用户自定义热词功能,可以显著提高这些关键词的识别率。
  • 一句话识别服务集成了自然语言理解功能,支持对识别出的文字做分析,返回语义结果。

展开
收起
nicenelly 2017-10-25 15:01:51 7068 0
0 条回答
写回答
取消 提交回答
问答排行榜
最热
最新

相关电子书

更多
基于视觉推理的视频理解 立即下载
达摩院通义视觉生成大模型 立即下载
揭秘阿里机器翻译 立即下载