什么是语音识别(ASR) ?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

什么是语音识别(ASR) ?

nicenelly 2017-11-01 10:11:32 2170

语音识别服务,可以把语音识别为文字,针对不同的使用场景,阿里云提供如下三种服务:
  • 「 一句话识别 」对一分钟内的短语音实时识别,适用于对话聊天,控制口令等较短的语音识别场景。
  • 「 实时语音识别 」:对长时间的语音数据流实时识别,适用于会议演讲、视频直播等长时间不间断识别的场景。
  • 「 录音文件识别 」:对录音文件中的语音做识别。


各服务的主要差别如下:

服务时效性支持的语音格式支持调用方式
一句话识别 SDK实时识别PCM/WAV/SPEEX/OPUS[1]Java/C++/Android/iOS
一句话识别 RESTful[2]非实时,不超过1分钟PCM/WAV/SPEEX/OPUS[1]HTTP RESTful API
实时语音识别实时识别PCM/WAVJava/C++/Android/iOS
录音文件识别非实时,免费版24小时内支持大部分常见编码格式,WAV/MP3效果最佳HTTP RESTful API
  • 注[1]:OPUS编码格式说明
  • 注[2]:一句话RESTful调用方式与其他方式差异较大,所以单独列出


附加能力

  • 针对无线使用场景,我们在移动端SDK中集成了录音(Recoder)、静音检测(VAD)、断网恢复后续传等功能,可以极大地简化App开发。
  • 针对用户领域特有的关键词,我们提供用户自定义热词功能,可以显著提高这些关键词的识别率。
  • 一句话识别服务集成了自然语言理解功能,支持对识别出的文字做分析,返回语义结果。
自然语言处理 Java 视频直播 API 语音技术 开发工具 Android开发 iOS开发 内存技术
分享到
取消 提交回答
全部回答(0)
开发与运维
使用钉钉扫一扫加入圈子
+ 订阅

集结各类场景实战经验,助你开发运维畅行无忧

推荐文章
相似问题
推荐课程